近日,亚马逊AWS在一篇于6月24日发布的文章中首次披露了其开发的大型分布式计算集群Project Rainier。该系统被视为目前全球最强大的AI模型训练计算机之一。
Project Rainier的核心硬件架构基于AWS下属Annapurna Labs公司研发的Trainium2 AI芯片。该系统采用独特的模块化设计:每台服务器配置了16颗 Trainium2 芯片,多个这样的服务器单元组成一个UltraServer节点,而数以万计的UltraServer节点通过高速网络互联组成了Project Rainier这一庞大的UltraCluster超级计算集群。
在系统互联方面,Project Rainier采用了先进的多级网络架构。首先是蓝色电缆的NeuronLinks技术负责单个UltraServer内部芯片间的高速通信,其次是黄色电缆的Elastic Fabric Adapter (EFA) 技术实现同一数据中心内服务器之间的互联以及跨数据中心的通信。
作为Project Rainier的首个重要客户,Anthropic计划利用这一超级计算机来开发和部署其下一代Claude AI模型。Annapurna Labs的产品与客户工程总监Gadi Hutt表示,Project Rainier将为客户提供五倍于当前Anthropic最大训练集群的计算能力。
© 版权声明
文章版权归作者所有,未经允许请勿转载。