苹果与剑桥大学联合设计最优AI评估框架

AI资讯1年前 (2025)发布

85 0 0

7月24日，科技媒体NeoWin报道，苹果公司与剑桥大学合作推出了一项创新技术。

随着大语言模型（LLM）在评估中的广泛应用，一种新的评估模式”LLM-as-a-judge”逐渐兴起。然而，这种基于AI的评审方式在处理复杂任务时存在明显局限性。

苹果与剑桥大学联合设计最优AI评估框架

针对这一问题，苹果与剑桥大学的研究团队共同开发了一项新系统。该系统的核心是为AI评审员配备外部验证工具，从而显著提升评估质量。

传统的人工评审面临时间限制和主观偏差等问题；而纯粹的AI评估在复杂任务中表现欠佳。因此，如何结合两者的优点成为一个关键课题。

研究团队设计的智能评估代理具有三项核心功能：首先进行领域初步判断，然后根据需要调用专业工具，最后做出最终决策。

苹果与剑桥大学联合设计最优AI评估框架

系统配备了三个主要验证工具：事实核查工具通过网络搜索验证信息真实性；代码执行工具用于运行和测试程序代码；数学检验工具专门处理数学运算和逻辑推理。

苹果与剑桥大学联合设计最优AI评估框架

在处理简单任务时，系统会自动切换到基础LLM评估模式，以避免不必要的工具调用和性能损耗。