XTuner V1是什么
XTuner V1 是上海人工智能实验室开源的新一代大模型训练引擎,基于 PyTorch FSDP 开发,针对超大模型训练中的显存、通信和负载问题进行系统性优化,支持 1T 参数量级 MoE 模型训练,能在 200B 量级模型上实现训练吞吐超越传统 3D 并行方案。XTuner V1 与华为昇腾技术团队合作,进一步提升训练效率,实现更高的模型浮点运算利用率。XTuner V1 为学术界和工业界提供高性能、低门槛、易扩展的大模型训练方案。

XTuner V1的主要功能
- 高效训练超大模型:支持1T参数量级的MoE模型训练,在200B以上量级的混合专家模型中,训练吞吐超越传统3D并行训练方案。
- 优化显存使用:通过自动Chunk Loss机制和Async Checkpointing Swap技术,有效降低显存峰值,无需借助序列并行技术实现200B参数量级MoE模型训练64K长度序列。
- 掩盖通信开销:用极致的显存优化提升单次迭代的最大序列长度,增加每层计算耗时以掩盖参数聚合的通信耗时;通过Intra-Node Domino-EP降低参数聚合通信量,掩盖专家并行带来的额外通信开销。
- 实现DP负载均衡:对每n个step内的已拼接好的序列进行排序,使每次计算时不同DP的最长子序列长度接近,减少因变长注意力导致的计算空泡。
- 适配多种硬件:与华为昇腾技术团队合作,在Ascend A3 NPU超节点上进行深度优化,充分用超节点硬件特性,在理论算力落后NVIDIA H800近20%的情况下,能实现训练吞吐反超H800近5%,MFU反超20%以上。
XTuner V1的技术原理
- 基于PyTorch FSDP开发:PyTorch FSDP(Fully Shard Data Parallel)是数据并行策略,将模型参数均匀切分到每张卡上,通过提前聚合参数和重新切分参数节省显存。XTuner V1在FSDP的基础上进行深度优化,解决其通信量大的问题。
© 版权声明
文章版权归作者所有,未经允许请勿转载。