CL-bench – 腾讯姚顺雨团队推出的模型学习能力评测基准

AI工具2个月前发布
40 0

CL-bench是什么

CL-bench是腾讯混元与复旦大学联合推出的Context学习能力评测基准,能衡量大语言模型从全新上下文信息中实时学习、应用知识的能力。CL-bench基准包含500个专家精心构建的复杂场景、1899个任务,涵盖领域知识推理、规则系统应用、程序性任务执行和经验发现与模拟四大类。测试显示,最强模型GPT-5.1解决率仅23.7%,揭示当前AI”不会现场学习”的核心瓶颈,为模型优化指明新方向。

CL-bench – 腾讯姚顺雨团队推出的模型学习能力评测基准

CL-bench的主要功能

  • 实时学习能力评测:支持评测大语言模型从全新上下文信息中实时学习、应用知识的能力。

© 版权声明

相关文章