7月20日,在2025中国联通合作伙伴大会上,中国联通研究院携手上海人工智能实验室等多家行业领先企业,在7月19日正式发布了全球最长距离大模型异构混训试验的最新成果。这一突破性进展标志着中国在AI算力网络领域迈出了重要一步。
随着人工智能技术的迅猛发展,大模型训练对算力基础设施提出了更高的要求。当前,算力资源呈现异构化和多中心化的趋势,然而在实际应用中仍面临着诸多挑战:跨域资源互联互通机制不完善、长距离传输存在带宽与时延瓶颈,以及异构资源统一调度与高效融合能力有限等问题亟待解决。
针对上述问题,中国联通联合上海人工智能实验室及阿里云、浪潮、基流科技、加佳科技等多家行业头部企业,在国产异构GPU环境下,成功研发出一套全新的超大模型跨域训练和碎片化算力整合解决方案。该方案依托“算力智联网AINet”长距无损传输技术优势,结合上海人工智能实验室的“DeepLink”超大规模跨域混训技术方案,首次在上海临港与山东济南鲍山数据中心之间构建起长达1500公里的跨域异构混训系统。
据大会透露,在此次试验中,联合团队通过优化多种并行策略和跨域收敛比下的MoE模型及Dense模型参数配置,成功完成了超1500公里跨域、千亿参数规模的AI大模型异构混训。经过严格验证,该系统等效算力已达到单芯片单集群等效算力的95%以上,展现出极高的计算效率和稳定性。
-
在实现算力互联方面,采用了中国联通自主研发的内置长距RDMA协议栈的RoCE交换机,有效满足了数据中心内部及跨数据中心之间的高性能网络需求;
-
在算力调度与资源管理层面,通过“智驭”平台实现了对跨域网络和集群的统一管控和任务调度;
-
在算力协同方面,基于DeepLink的核心技术优势,在训练加速、异构通信、并行策略等领域实现突破,成功支持千亿参数大模型在超长距离异构GPU环境下的高效训练。
中国联通表示,此次试验成果的成功发布标志着我国在算力基础设施的跨域协同调度、异构资源融合与高性能分布式训练等多个关键技术领域实现了重要突破。这一进展不仅为下一代互联网产业的发展奠定了坚实基础,也为全球AI技术创新和应用推广提供了中国方案。