7月24日,科技媒体NeoWin报道,苹果公司与剑桥大学合作推出了一项创新技术。
随着大语言模型(LLM)在评估中的广泛应用,一种新的评估模式”LLM-as-a-judge”逐渐兴起。然而,这种基于AI的评审方式在处理复杂任务时存在明显局限性。
针对这一问题,苹果与剑桥大学的研究团队共同开发了一项新系统。该系统的核心是为AI评审员配备外部验证工具,从而显著提升评估质量。
传统的人工评审面临时间限制和主观偏差等问题;而纯粹的AI评估在复杂任务中表现欠佳。因此,如何结合两者的优点成为一个关键课题。
研究团队设计的智能评估代理具有三项核心功能:首先进行领域初步判断,然后根据需要调用专业工具,最后做出最终决策。
系统配备了三个主要验证工具:事实核查工具通过网络搜索验证信息真实性;代码执行工具用于运行和测试程序代码;数学检验工具专门处理数学运算和逻辑推理。
在处理简单任务时,系统会自动切换到基础LLM评估模式,以避免不必要的工具调用和性能损耗。
相关研究
-
外部验证工具对LLM评审质量的影响研究
-
苹果官方博客
© 版权声明
文章版权归作者所有,未经允许请勿转载。