FrontierScience – OpenAI推出的科学AI能力评估基准

AI工具7个月前发布

109 0 0

FrontierScience是什么

FrontierScience是OpenAI推出的科学AI能力评估基准，专门测试大模型在物理、化学、生物领域的专家级推理能力。包含两个子集：奥林匹克赛道（100道竞赛级短答题）和研究赛道（60道博士级开放任务），由国际奥赛奖牌得主和在职科学家设计。测试结果显示，GPT-5.2在竞赛题上得分77%，但科研题仅25%，暴露出AI在长期推理和假设验证方面的不足。基准填补了传统科学测试的空白，强调深度推理而非简单知识检索，为AI在科研中的应用潜力提供了量化参考。

FrontierScience的主要功能

评估科学推理能力：FrontierScience衡量AI在物理、化学和生物等科学领域的专家级推理能力。通过两个主要部分来实现这一目标：FrontierScience-Olympiad和FrontierScience-Research。
提供标准化测试框架
- FrontierScience-Olympiad包含100道由国际奥赛奖牌获得者设计的问题，以简答形式评估理论科学推理能力，难度至少达到国际奥赛水平。
- FrontierScience-Research由博士科研人员设计的60个原创研究子任务构成，采用10分制评分标准，模拟真实科研中的多步推理问题。