亚马逊AWS发布Project Rainier分布式集群,打造最强AI模型训练计算机

AI资讯2个月前发布
15 0

近日,亚马逊AWS在一篇于6月24日发布的文章中首次披露了其开发的大型分布式计算集群Project Rainier。该系统被视为目前全球最强大的AI模型训练计算机之一。

亚马逊AWS发布Project Rainier分布式集群,打造最强AI模型训练计算机

Project Rainier的核心硬件架构基于AWS下属Annapurna Labs公司研发的Trainium2 AI芯片。该系统采用独特的模块化设计:每台服务器配置了16颗 Trainium2 芯片,多个这样的服务器单元组成一个UltraServer节点,而数以万计的UltraServer节点通过高速网络互联组成了Project Rainier这一庞大的UltraCluster超级计算集群。

亚马逊AWS发布Project Rainier分布式集群,打造最强AI模型训练计算机

在系统互联方面,Project Rainier采用了先进的多级网络架构。首先是蓝色电缆的NeuronLinks技术负责单个UltraServer内部芯片间的高速通信,其次是黄色电缆的Elastic Fabric Adapter (EFA) 技术实现同一数据中心内服务器之间的互联以及跨数据中心的通信。

亚马逊AWS发布Project Rainier分布式集群,打造最强AI模型训练计算机

作为Project Rainier的首个重要客户,Anthropic计划利用这一超级计算机来开发和部署其下一代Claude AI模型。Annapurna Labs的产品与客户工程总监Gadi Hutt表示,Project Rainier将为客户提供五倍于当前Anthropic最大训练集群的计算能力。

© 版权声明

相关文章