大模型首次直接理解代码图：不用 Agent 自动修 bug，登顶 SWE-Bench 开源模型榜单

AI资讯7个月前发布

67 0 0

### 改写后的版本：

—

**CodeFuse-CGM：让AI真正理解代码仓库**

#### **什么是CGM？**
CodeFuse-CGM（Code Graph Modality）是一种创新的方法，首次在大规模语言模型中融合了**代码图模态**。通过将文本和代码的复杂依赖关系转化为直观的图结构，CGM使AI能够像人类一样理解整个项目的全局信息。

#### **技术亮点：不依赖复杂系统**
– **无需Agent系统**：传统方法通常需要复杂的RAG（检索增强生成）架构，包含多个模块（如改写器、检索器等）。而CGM通过直接融合代码图模态，将这些功能简化为**4个核心模块**。
– **开源模型支持**：基于开源的大语言模型（如CodeLlama和DeepSeek-Coder），CGM展示了良好的通用性。

#### **实验结果**
在多个主流基准测试中，CGM表现优异：
– **SWE-bench Lite**：排名第一，准确率达到44.00%。
– **SWE-bench Verified**：相比最佳开源基线提升10.20%，达到50.40%。
– **复杂代码生成任务**（如ComplexCodeEval和CrossCodeEval）：显著领先于同尺寸开源模型。

#### **应用场景**
CGM在以下场景中表现出色：
1. **仓库级别的代码修复**：能够处理跨语言、跨项目的复杂Bug修复任务。
2. **代码补全**：尤其擅长需要跨文件推理的复杂场景。

#### **开源资源**
– **技术论文**：[https://arxiv.org/abs/2505.16901](https://arxiv.org/abs/2505.16901)
– **核心代码**：[https://github.com/codefuse-ai/CodeFuse-CGM](https://github.com/codefuse-ai/CodeFuse-CGM)
– **模型权重**：[https://huggingface.co/codefuse-ai/CodeFuse-CGM-72B](https://huggingface.co/codefuse-ai/CodeFuse-CGM-72B)
– **训练数据**：[https://huggingface.co/datasets/codefuse-ai/CodeGraph](https://huggingface.co/datasets/codefuse-ai/CodeGraph)

#### **团队相关工作**
1. **Code LLM综述**：Awesome-Code-LLM（TMLR）[GitHub链接](https://github.com/codefuse-ai/Awesome-Code-LLM)
2. **Graph+LLM研究**：GALLa（ACL 2025）[GitHub链接](https://github.com/codefuse-ai/GALLa)
3. **高效注意力架构**：Rodimus（ICLR 2025）[论文链接](https://arxiv.org/abs/2410.06577)
4. **代码多任务微调框架**：MFTCoder（KDD 2024）[论文链接](https://arxiv.org/abs/2311.02303)

—

**总结**
CodeFuse-CGM通过创新的代码图模态，让AI真正理解项目的复杂依赖关系。基于开源模型实现的同时，又不依赖复杂的Agent系统，为开发者和研究者提供了一个灵活、透明且高效的解决方案。

更多详情，请访问团队官方资源或查阅相关论文！