OctoCodingBench是什么
OctoCodingBench是MiniMax开源的针对Coding Agent的指令遵循能力的评测集。OctoCodingBench通过模拟真实软件开发场景,从系统约束、用户指令、项目规范、技能调用、历史记忆等多个维度评估Agent是否能严格遵循规则完成任务。与传统仅关注结果的评测不同,OctoCodingBench更注重过程合规性,通过Check-level准确率(CSR)和Instance-level成功率(ISR)两个指标,细致衡量Agent在复杂约束下的表现。评测集包含72个实例,覆盖多种开发场景,推动Coding Agent从“能写代码”向“能规范协作”进化。
OctoCodingBench的主要功能
- 多维度指令遵循评估:从系统约束(如语言风格、工具使用)、用户指令(多轮交互)、项目规范(如代码风格、测试流程)、技能调用、历史记忆等多个维度,全面评估 Agent 是否能严格遵循规则完成任务。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
