中国移动“九天”大模型3.0正式发布:核心技术创新与开源

AI资讯1个月前发布
11 0

7月26日,在2025世界人工智能大会”AI焕新产业共赢”企业人工智能产业发展论坛上,中国移动全新发布了升级版的’九天’基础大模型3.0

中国移动“九天”大模型3.0正式发布:核心技术创新与开源

作为国务院国资委战略性新兴项目”百大工程”的最新成果,”九天”基础大模型3.0在原有基础上进一步强化了其核心优势——高安全、高可控、全国产化以及全行业覆盖四大特性。此次升级重点围绕三个方面实现了全面突破:

一、九天众擎语言大模型实现双维度的重大突破

在架构设计上,九天众擎采用了创新性的可扩展至万亿级的混合专家网络(MoE)架构。该架构通过15T token多阶段预训练数据和全流程治理体系显著提升了推理能力。

在技术实现方面,模型构建了独特的113域×53能力的二维分级后训练框架,并引入动态强化学习策略。这些创新使复杂场景下的推理能力提升达35%。

在实际评测中,”九天”大模型展现出卓越性能:在GPQA-Diamond评测中获得77.67分(全球第二),超越了DeepSeekR1和Qwen3;在ArenaHard V0.1和BFCL V3评测中分别以67.2分68分的成绩位居榜首。

基于强大的语言能力,中国移动推出了多个专业领域的子模型:

  • 九天代码大模型:支持代码生成、注释生成、单元测试生成等多功能,涵盖Python、Java、JS、TS、Go、C++等主流编程语言。

  • 九天数学大模型:短思考和长思考模式均达到业界最优水平(SOTA),在多个指标上超越Qwen 2.5 Math、Qwen3等同参数量级模型。

二、九天善智多模态大模型实现全方位能力升级

在多模态领域,”九天”大模型通过复杂时空建模、流匹配技术端到端局部可控注意力机制等创新,显著提升了图像视频生成与理解能力。

在具体应用方面:

  • 图像生成功能:支持多轮精准局部修改,包括文字替换、背景调整及元素增删等高级操作。

  • 理解和生成能力:在MMStar、HallusionBench和OCRBench等评测中获得82.2、64.3、94.9的优异成绩,在视频理解领域也超越了Qwen2-VL和InternVideo2等模型。

三、核心技术和模型全面开源共享

为推动行业进步,中国移动宣布开放以下资源:

  • 结构化数据大模型:JT-DA-8B及其后续版本将对业界开放,提供完整的下载和微调支持。

  • 数学大模型:JT-Math-8B系列模型及相关技术资料已开放下载。

  • 代码大模型:JT-Coder-8B系列模型及其推理代码和技术报告已对外共享。

  • 评测体系:开放首个结构化数据模型评测体系TReB,涵盖6大任务、34项能力的全面测试标准。

  • 复杂指令集:发布包含174条高质量工业场景指令的CCR-Bench数据集,模拟健康专家、智能客服等典型应用场景。

以上所有内容已通过焕新社区、Github、HuggingFace、魔搭社区、Gitee、Arxiv等平台对外发布。

此外,据论坛消息,中国移动九天人工智能研究院计划于8月推出本次发布会的技术深度解读报告,为业界提供更详细的参考。

2025 世界人工智能大会专题

© 版权声明

相关文章