### 改写后的版本:
—
**CodeFuse-CGM:让AI真正理解代码仓库**
#### **什么是CGM?**
CodeFuse-CGM(Code Graph Modality)是一种创新的方法,首次在大规模语言模型中融合了**代码图模态**。通过将文本和代码的复杂依赖关系转化为直观的图结构,CGM使AI能够像人类一样理解整个项目的全局信息。
#### **技术亮点:不依赖复杂系统**
– **无需Agent系统**:传统方法通常需要复杂的RAG(检索增强生成)架构,包含多个模块(如改写器、检索器等)。而CGM通过直接融合代码图模态,将这些功能简化为**4个核心模块**。
– **开源模型支持**:基于开源的大语言模型(如CodeLlama和DeepSeek-Coder),CGM展示了良好的通用性。
#### **实验结果**
在多个主流基准测试中,CGM表现优异:
– **SWE-bench Lite**:排名第一,准确率达到44.00%。
– **SWE-bench Verified**:相比最佳开源基线提升10.20%,达到50.40%。
– **复杂代码生成任务**(如ComplexCodeEval和CrossCodeEval):显著领先于同尺寸开源模型。
#### **应用场景**
CGM在以下场景中表现出色:
1. **仓库级别的代码修复**:能够处理跨语言、跨项目的复杂Bug修复任务。
2. **代码补全**:尤其擅长需要跨文件推理的复杂场景。
#### **开源资源**
– **技术论文**:[https://arxiv.org/abs/2505.16901](https://arxiv.org/abs/2505.16901)
– **核心代码**:[https://github.com/codefuse-ai/CodeFuse-CGM](https://github.com/codefuse-ai/CodeFuse-CGM)
– **模型权重**:[https://huggingface.co/codefuse-ai/CodeFuse-CGM-72B](https://huggingface.co/codefuse-ai/CodeFuse-CGM-72B)
– **训练数据**:[https://huggingface.co/datasets/codefuse-ai/CodeGraph](https://huggingface.co/datasets/codefuse-ai/CodeGraph)
#### **团队相关工作**
1. **Code LLM综述**:Awesome-Code-LLM(TMLR)[GitHub链接](https://github.com/codefuse-ai/Awesome-Code-LLM)
2. **Graph+LLM研究**:GALLa(ACL 2025)[GitHub链接](https://github.com/codefuse-ai/GALLa)
3. **高效注意力架构**:Rodimus(ICLR 2025)[论文链接](https://arxiv.org/abs/2410.06577)
4. **代码多任务微调框架**:MFTCoder(KDD 2024)[论文链接](https://arxiv.org/abs/2311.02303)
—
**总结**
CodeFuse-CGM通过创新的代码图模态,让AI真正理解项目的复杂依赖关系。基于开源模型实现的同时,又不依赖复杂的Agent系统,为开发者和研究者提供了一个灵活、透明且高效的解决方案。
更多详情,请访问团队官方资源或查阅相关论文!