XTuner V1 – 上海AI Lab开源的新一代大模型训练引擎

AI工具5个月前发布

57 0 0

XTuner V1是什么

XTuner V1 是上海人工智能实验室开源的新一代大模型训练引擎，基于 PyTorch FSDP 开发，针对超大模型训练中的显存、通信和负载问题进行系统性优化，支持 1T 参数量级 MoE 模型训练，能在 200B 量级模型上实现训练吞吐超越传统 3D 并行方案。XTuner V1 与华为昇腾技术团队合作，进一步提升训练效率，实现更高的模型浮点运算利用率。XTuner V1 为学术界和工业界提供高性能、低门槛、易扩展的大模型训练方案。

XTuner V1的主要功能

高效训练超大模型：支持1T参数量级的MoE模型训练，在200B以上量级的混合专家模型中，训练吞吐超越传统3D并行训练方案。
优化显存使用：通过自动Chunk Loss机制和Async Checkpointing Swap技术，有效降低显存峰值，无需借助序列并行技术实现200B参数量级MoE模型训练64K长度序列。
掩盖通信开销：用极致的显存优化提升单次迭代的最大序列长度，增加每层计算耗时以掩盖参数聚合的通信耗时；通过Intra-Node Domino-EP降低参数聚合通信量，掩盖专家并行带来的额外通信开销。
实现DP负载均衡：对每n个step内的已拼接好的序列进行排序，使每次计算时不同DP的最长子序列长度接近，减少因变长注意力导致的计算空泡。
适配多种硬件：与华为昇腾技术团队合作，在Ascend A3 NPU超节点上进行深度优化，充分用超节点硬件特性，在理论算力落后NVIDIA H800近20%的情况下，能实现训练吞吐反超H800近5%，MFU反超20%以上。