FrontierScience – OpenAI推出的科学AI能力评估基准

AI工具3天前发布
2 0

FrontierScience是什么

FrontierScience是OpenAI推出的科学AI能力评估基准,专门测试大模型在物理、化学、生物领域的专家级推理能力。包含两个子集:奥林匹克赛道(100道竞赛级短答题)和研究赛道(60道博士级开放任务),由国际奥赛奖牌得主和在职科学家设计。测试结果显示,GPT-5.2在竞赛题上得分77%,但科研题仅25%,暴露出AI在长期推理和假设验证方面的不足。基准填补了传统科学测试的空白,强调深度推理而非简单知识检索,为AI在科研中的应用潜力提供了量化参考。

FrontierScience – OpenAI推出的科学AI能力评估基准

FrontierScience的主要功能

  • 评估科学推理能力:FrontierScience衡量AI在物理、化学和生物等科学领域的专家级推理能力。通过两个主要部分来实现这一目标:FrontierScience-Olympiad和FrontierScience-Research。
  • 提供标准化测试框架
    • FrontierScience-Olympiad包含100道由国际奥赛奖牌获得者设计的问题,以简答形式评估理论科学推理能力,难度至少达到国际奥赛水平。
    • FrontierScience-Research由博士科研人员设计的60个原创研究子任务构成,采用10分制评分标准,模拟真实科研中的多步推理问题。

© 版权声明

相关文章