苹果与剑桥大学联合设计最优AI评估框架

AI资讯1个月前发布
11 0

7月24日,科技媒体NeoWin报道,苹果公司与剑桥大学合作推出了一项创新技术。

随着大语言模型(LLM)在评估中的广泛应用,一种新的评估模式”LLM-as-a-judge”逐渐兴起。然而,这种基于AI的评审方式在处理复杂任务时存在明显局限性。

苹果与剑桥大学联合设计最优AI评估框架

针对这一问题,苹果与剑桥大学的研究团队共同开发了一项新系统。该系统的核心是为AI评审员配备外部验证工具,从而显著提升评估质量。

传统的人工评审面临时间限制和主观偏差等问题;而纯粹的AI评估在复杂任务中表现欠佳。因此,如何结合两者的优点成为一个关键课题。

研究团队设计的智能评估代理具有三项核心功能:首先进行领域初步判断,然后根据需要调用专业工具,最后做出最终决策。

苹果与剑桥大学联合设计最优AI评估框架

系统配备了三个主要验证工具:事实核查工具通过网络搜索验证信息真实性;代码执行工具用于运行和测试程序代码;数学检验工具专门处理数学运算和逻辑推理。

苹果与剑桥大学联合设计最优AI评估框架

在处理简单任务时,系统会自动切换到基础LLM评估模式,以避免不必要的工具调用和性能损耗。

相关研究

  • 外部验证工具对LLM评审质量的影响研究

  • 苹果官方博客

© 版权声明

相关文章