OctoCodingBench – MiniMax开源的Coding Agent评测集

AI工具1天前发布
4 0

OctoCodingBench是什么

OctoCodingBench是MiniMax开源的针对Coding Agent的指令遵循能力的评测集。OctoCodingBench通过模拟真实软件开发场景,从系统约束、用户指令、项目规范、技能调用、历史记忆等多个维度评估Agent是否能严格遵循规则完成任务。与传统仅关注结果的评测不同,OctoCodingBench更注重过程合规性,通过Check-level准确率(CSR)和Instance-level成功率(ISR)两个指标,细致衡量Agent在复杂约束下的表现。评测集包含72个实例,覆盖多种开发场景,推动Coding Agent从“能写代码”向“能规范协作”进化。

OctoCodingBench – MiniMax开源的Coding Agent评测集

OctoCodingBench的主要功能

  • 多维度指令遵循评估:从系统约束(如语言风格、工具使用)、用户指令(多轮交互)、项目规范(如代码风格、测试流程)、技能调用、历史记忆等多个维度,全面评估 Agent 是否能严格遵循规则完成任务。

© 版权声明

相关文章