Meta发布LlamaRL强化学习框架:全异步分布设计,提速10.7倍训练AI模型。

AI资讯3个月前发布
15 0

近日,科技媒体Marktechpost报道称,Meta公司推出了全新的LlamaRL框架,该框架采用全异步分布式设计,在405B参数模型的强化学习过程中取得了显著突破。具体而言,LlamaRL将原本需要635.8秒的强化学习步骤时间大幅缩短至仅需59.5秒,实现了高达10.7倍的速度提升。

强化学习(Reinforcement Learning, RL)是一种通过模型根据反馈调整输出,从而更贴近用户需求的训练方法。随着对模型精确度和规则适配性要求的不断提高,强化学习在大语言模型后期训练中的作用愈发重要。然而,这一过程也面临着日益增长的计算资源需求和技术挑战。

将强化学习应用于大语言模型的主要障碍在于其巨大的资源消耗。训练过程需要处理海量数据,并协调多个组件(如策略模型、奖励评分器等)协同工作。面对动辄数百亿规模的模型参数,工程师们还面临着内存使用效率低下、数据通信延迟以及GPU资源闲置等问题。

针对这些挑战,Meta推出的LlamaRL框架采用了基于PyTorch构建的全异步分布式系统。该框架通过独立执行器并行处理生成模型、训练模型和奖励模型,有效减少了等待时间,显著提升了整体效率。这种设计不仅简化了组件间的协调工作,还支持模块化定制。

Meta发布LlamaRL强化学习框架:全异步分布设计,提速10.7倍训练AI模型。

通过创新性地运用分布式直接内存访问(DDMA)技术和NVIDIA NVLink技术,LlamaRL实现了对405B参数模型权重的快速同步,仅需2秒即可完成。这一突破性进展极大地优化了大规模模型训练中的数据传输效率。

在实际测试中,LlamaRL框架分别针对8B、70B和405B规模的模型进行了性能验证。结果显示,与传统方法相比,LlamaRL将训练时间缩短至8.90秒、20.67秒和59.5秒,最高实现了10.7倍的速度提升。

Meta发布LlamaRL强化学习框架:全异步分布设计,提速10.7倍训练AI模型。

在MATH和GSM8K基准测试中,LlamaRL不仅展现了稳定的性能表现,在某些场景下甚至实现了性能的小幅提升。更重要的是,该框架有效解决了内存限制和GPU效率问题,为未来更大规模的语言模型训练提供了可扩展的新路径。

© 版权声明

相关文章