英伟达铁幕之后,谷歌 AI 芯片已成气候

AI资讯1个月前发布
11 0

英伟达在聚光灯下狂飙,谷歌却在幕后悄悄造出自己的 AI 基建帝国系统。当别人还在抢 GPU 时,它早已自给自足、闭环生长 —— 闷声干大事,从未如此谷歌。

英伟达明修栈道,谷歌暗渡陈仓。

当你回头一看,谷歌在 AI 基础设施的优势已经无法阻挡。

英伟达铁幕之后,谷歌 AI 芯片已成气候

这几天,谷歌终于把憋了很久的大招放出来了,CEO 劈柴官宣了自研第七代 TPU Ironwood 正式商用。

英伟达铁幕之后,谷歌 AI 芯片已成气候

这是谷歌第七代 TPU,单颗算力 4614 TFLOPS(FP8 精度),192GB 的 HBM3E 内存,带宽高达 7.37 TB/s。

与上一代 TPU v5p 相比峰值性能提升 10 倍!

英伟达铁幕之后,谷歌 AI 芯片已成气候

对于 Google Cloud 客户,Ironwood 根据工作负载需求提供两种尺寸:256 芯片配置和 9216 芯片配置。

也就是一个 pod 可以最多塞下 9216 个 TPU,总算力达到了惊人的 42.5 ExaFLOPS。

与之相比英伟达目前主推的的 GB300 NVL72 系统只有 0.36 ExaFLOPS。

这就是 Anthropic 直接买了 100 万颗 TPU 的根本原因。

谷歌才是那个真正低调发财的公司,有人总结 AI 价值链上所有公司涉足的领域。

英伟达铁幕之后,谷歌 AI 芯片已成气候

谷歌是唯一一家,没有之一,全栈人工智能公司:数据 → 算法 → 硬件 → 云服务器。

它使用自己的数据来训练自己的算法;这些算法在部署在自己的云上的自己的芯片上运行;然后开发了自己的应用程序。

如果说现在谷歌唯一的弱点,那可能就是「苹果」,准确的说,是客户端设备,手机。

虽然安卓系统是谷歌的,但是偏偏谷歌没有自己的手机(如果手机也有,谷歌称得上地球上最垄断的公司,也许没有之一。)

虽然 Pixel 系列出货量未能排在三星和国产等安卓机前面,但是用过 Pixel 的人都说好。

英伟达铁幕之后,谷歌 AI 芯片已成气候

谷歌 TPU 十年进化

谷歌 TPU,全称张量处理单元(Tensor Processing UnitT),从早期几代主要作为内部优化工具,到最新的迭代已构成一个成熟且极具竞争力的产品组合。

当英伟达在横向扩展(scale-out)加速器市场占据主导地位时,谷歌已经构建了全球唯一一个专为训练和运行前沿模型而设计的、具有高容错性的超大规模系统。

2013 年,谷歌面临一个关键时刻。

公司意识到,神经网络日益增长的计算需求(尤其是在语音识别领域)可能迫使他们将数据中心的规模翻倍

这一预测使 AI 计算不再是一个机遇,而是对运营支出(OpEx)的生存威胁。

尽管谷歌早在 2006 年就考虑过构建专用集成电路(ASIC),但直到 2013 年,这才真正成为一项迫在眉睫的任务。

TPU v1 的开发周期之快是前所未有的:从设计、验证、制造到部署至数据中心仅用了 15 个月!

TPU v1 于 2015 年在谷歌内部署,并于 2016 年的 Google I/O 大会上公开发布。

英伟达铁幕之后,谷歌 AI 芯片已成气候

TPU v1 的诞生过程极不寻常。

它并非一个循序渐进的研发项目,更像是一项紧急的「救火」措施。

据报道,谷歌在构建芯片的同时才开始招聘团队,这表明该项目风险极高,但也具有最高优先级。

这种「冲刺」塑造了 TPU 的 DNA:实用主义和领域特定优化压倒一切。

谷歌为了成功,牺牲了所有与神经网络无关的功能。

当 AI 由神经网络组成,TPU 就是 AI 而诞生的。

架构哲学,摒弃通用性

谷歌 TPU v1 是一款「仅限推理」的 ASIC,专为 TensorFlow 框架设计。(另一个深度学习框架就是 Meta 的 PyTorch)

它与 CPU 和 GPU 的关键区别在于:TPU 专为高吞吐量的低精度计算(如 8 位整数)而设计。

与 CPU(通用处理器)和 GPU(当时主要为图形渲染优化)不同,TPU 彻底摒弃了非必需的硬件,如缓存、乱序执行和纹理映射单元。

英伟达铁幕之后,谷歌 AI 芯片已成气候

该芯片的核心是一个庞大的矩阵乘法单元,拥有 65,536 个(256×256) 8 位 MAC 单元,峰值性能达到每秒 92 万亿次操作(TOPS)。

v1 采用了 28nm 工艺,时钟频率为 700MHz,而其热设计功耗(TDP)仅为 40W,远低于同期的 GPU。

它被设计为一块 PCIe 卡,可安装在 SATA 硬盘插槽中,以便快速集成到现有服务器。

早期胜利,AlphaGo 与惊人的能效比

2016 年,DeepMind 的 AlphaGo 击败世界围棋冠军李世石,这一历史性事件的背后正是 TPU v1 在提供算力支持。

2017 年发表的一篇具有里程碑意义的论文详细阐述了其性能。

在谷歌的生产工作负载(占数据中心 NN 推理需求的 95%)中,TPU v1 的速度比同期的 Intel Haswell CPU 和英伟达 K80 GPU 快 15 至 30 倍

英伟达铁幕之后,谷歌 AI 芯片已成气候

然而,更关键的指标是能效比(TOPS / Watt),TPU v1 比 CPU 和 GPU 高出 30 至 80 倍

这一数据揭示了谷歌从一开始的战略意图。

在超大规模数据中心的环境中,成本不仅由芯片的采购成本(CapEx)决定,更由其运行的电力成本(OpEx)决定。

TPU v1 的胜利不仅在于速度,更在于它解决了 AI 计算的总体拥有成本(TCO)问题。

中期规模化演进

TPU v1 验证了 ASIC 的概念,但其「仅限推理」的特性意味着谷歌在模型训练方面仍依赖英伟达。

TPU v2 (2017 年推出)标志着谷歌向训练领域的战略转向。

关键的架构转变是:从 8 位整数计算转向浮点计算,特别是引入并推广了由 Google Brain 发明的 bfloat16 (bf16)格式。

英伟达铁幕之后,谷歌 AI 芯片已成气候

bfloat16 是一个巧妙的工程妥协:它保留了与 32 位浮点数(FP32)相同的 8 位指数,但将尾数截短至 7 位。

这一设计在大幅降低内存占用和带宽需求的同时,保留了训练所需的动态范围,有效防止了梯度消失或爆炸。

规格方面,v2 采用 16nm 工艺,搭载 16GB 高带宽内存(HBM)(v1 为 DDR3),内存带宽飙升至 600 GB/s,算力达到 45 TFLOPS。

TPU v2 引入了 Pod(集群)概念,但在此之前与之后,GPU 长期以集群 / 超算形态扩展

英伟达随后在 2018 年推出 DGX POD 参考架构,2019 年起推出 DGX SuperPOD 并在 2020–2025 年持续更新(H200/GB200 等版本),这些都属于标准化的 GPU 集群解决方案。

英伟达铁幕之后,谷歌 AI 芯片已成气候

谷歌不再将 TPU 视为独立的加速器,而是设计了 4 芯片模块(180 TFLOPS)。

64 个这样的模块被组装成一个 256 芯片的 Pod,总性能达到 11.5 PFLOPS 6。

这是 TPU 历史上最重要的时刻之一。

谷歌停止了在「芯片竞赛」中追赶,转而开辟了「系统竞赛」的新战场。

TPU v3 (2018 年)延续了这一思路。

芯片性能提升至 123T-ops,HBM 增加到 32GB。更重要的是,Pod 的规模扩大了 4 倍,达到 1024 个芯片,使每个 Pod 的性能增加了 8 倍。

为了应对急剧增加的功率密度,液冷技术被引入并成为 TPU Pod 的标准配置,这使谷歌能够进一步挑战性能极限。

英伟达铁幕之后,谷歌 AI 芯片已成气候

到了第四代,TPU v4 (2021)可以和与 A100 并驾齐驱,实现规模化领先。

TPU v4(2021 年)是一次重大飞跃。采用 7nm 工艺,性能提升至 275T-ops(T-ops 是 tera-operations per second 的缩写,表示每秒执行的万亿次操作。)。

Pod 规模再次扩大,达到 4096 个芯片。

关键改进在于互连:v4 芯片的互连带宽达到了上一代的 10 倍。

到 2021 年,TPU 不再只是一个「高 TCO 效益」的选项。

它在原始性能上已经可以与英伟达的最佳产品正面竞争。

现代 TPU 产品,多元化和专业化

TPU v5 的发布标志着谷歌从单一架构转向成熟、多元化的产品线。

v5 有两个版本 TPU v5e(Efficiency)和 TPU v5p(Performance),v5e 针对主流推理、微调和中小型训练负载设计;TPU v5p 是训练谷歌 Gemini 1.0 模型所使用的核心系统。

与 TPU v4 相比,TPU v5p 的 FLOPS 提高了 2 倍以上,高带宽内存(HBM)提高了 3 倍

英伟达铁幕之后,谷歌 AI 芯片已成气候

TPU v5p 专为性能、灵活性和规模而设计,可以训练大型 LLM 模型 ,速度比上一代 TPU v4 快 2.8 倍。

TPU v6,代号 Trillium,于 2024 年 5 月宣布,并于同年 10 月提供预览。

v6 性能实现了 918TFLOPS 和 1836TOPS (Int8) 的巨大飞跃。

这比 v5e 高出 4.7 倍,比 v5p 高出约 2 倍。规格 32GB HBM,1600 GB/s 带宽。

英伟达铁幕之后,谷歌 AI 芯片已成气候

v6 引入了关键架构:第三代 SparseCore

SparseCore 的引入表明谷歌正在解决 Transformer 模型中的特定瓶颈。

SparseCore 是一种专门用于处理嵌入 (embeddings) 的加速器。

嵌入在排名和推荐模型中普遍存在,并且对传统的 MXU 来说计算效率低下。

Trillium 是一款专为训练 Transformer 和 MoE(Mixture of Experts)模型而打造的芯片。

谷歌的 Gemini 2.0 是在 Trillium (v6) 上训练的

英伟达铁幕之后,谷歌 AI 芯片已成气候

谷歌 CEO 劈柴明确表示:「TPU 为 Gemini 2.0 的训练和推理提供了 100% 的动力」。

TPU v7 推理时代的专业芯片

TPU v7,代号 Ironwood,于 2025 年 4 月发布。

Ironwood 是首款专为推理而设计的 TPU,而 Trillium 则是训练冠军。

英伟达铁幕之后,谷歌 AI 芯片已成气候

在战略和资本层面,这反映了一种钟摆策略。谷歌使用 v6 (Trillium) 来构建前沿模型 (CapEx 投入),现在发布 v7 (Ironwood) 来规模化服务这些模型 (OpEx 消耗)。

Ironwood 旨在优化推理的 TCO。(毕竟我们人类已经进入 AI 推理时代)

Ironwood 达到 4614 TFLOPS (FP8),比 Trillium 的 Int8 性能高出 2.5 倍以上。能效比是 Trillium 的 2 倍

英伟达铁幕之后,谷歌 AI 芯片已成气候

Ironwood 将在未来几周年内全面上市。市场对 Ironwood 的早期反响极为热烈。

比如,谷歌列出了一些已经下订单的企业,Anthropic、Lightricks、essential AI。

英伟达铁幕之后,谷歌 AI 芯片已成气候

英伟达铁幕之后,谷歌 AI 芯片已成气候

英伟达铁幕之后,谷歌 AI 芯片已成气候

CPU 也造,还有最新虚拟机

除了 TPU,谷歌还造了自己的第一颗通用处理器 Axion。

用谷歌自己的话:构建和运维现代应用既需要高度专业化的加速器,也离不开强大高效的通用计算能力。

英伟达铁幕之后,谷歌 AI 芯片已成气候

基于这颗 CPU,谷歌还发布了最新的 Axion 虚拟机,N4A。

基于 Arm 架构的全新 Axion 实例现已开放预览。

与当前同代基于 x86 架构的虚拟机相比,N4A 可提供高达 2 倍的价格性能优势。

除了虚拟机,还推出了裸金属实例,C4A。

C4A 裸金属实例(即将进入预览阶段)是谷歌首款基于 Arm 架构的裸金属实例,为专用工作负载提供专属物理服务器,适用于 Android 开发、汽车车载系统、严格许可要求的软件、规模化测试农场或运行复杂模拟等场景。

谷歌的云服务在 2025 年 3 季度处于世界第 3,前面是亚马逊和微软。

英伟达铁幕之后,谷歌 AI 芯片已成气候

正如文章开头所说,谷歌是现在 AI 领域唯一一家全栈技术公司,数据、算法、模型、云服务、CPU、GPU,需要什么就自己造什么。

英伟达铁幕之后,谷歌 AI 芯片已成气候

虽然在很多时候,谷歌没有排在第一,但是在任何领域,谷歌都榜上有名。

也许这才是真正的闷声发大财。

英伟达铁幕之后,谷歌 AI 芯片已成气候

2025 年 10 月,Anthropic 宣布扩大合作,获得高达 100 万个 TPU 芯片的使用权。

该协议价值数百亿美元,并将在 2026 年提供超过 1 吉瓦 (Gigawatt) 的计算容量。

虽然全球的聚光灯几乎都照在英伟达身上,但在聚光之外,谷歌的 AI 基础设施版图已经悄然成形,甚至形成了自己独立的「气候系统」。

谷歌给自己这套系统起了个名字:AI Hypercomputer。

英伟达铁幕之后,谷歌 AI 芯片已成气候

英伟达是舞台中央的光芒,谷歌则隐藏在大幕之后。

当所有 AI 公司都在抢购 H 系列 GPU 时,谷歌早已在自己的 TPU 集群上完成了自我造血循环 —— 训练、部署、推理、优化,全都在自己的系统内部完成。

谷歌 AI 基金(Google AI Infrastructure Fund) 便是在这种体系下自然诞生的产物。

它不仅是投资基金,更像是一个生态基金池,用以扶持所有基于谷歌云与 TPU 生态的 AI 公司。

英伟达铁幕之后,谷歌 AI 芯片已成气候

Anthropic、Cohere、Character.AI、Essential AI……

这些名字在外界看来是独立的创业公司,但它们在算力与模型底座上,都深度绑定谷歌的 TPU 集群与 Gemini 模型家族。

换句话说,谷歌的 AI 基金并非简单的「投资人」,而是用资本作为粘合剂,将算力、云服务与生态绑定在一起

当这些公司成长、融资、甚至上市时,谷歌都在背后分得红利。

这就是谷歌真正的护城河:

不是某一代 TPU 芯片的领先;

也不是 Gemini 模型的参数量;(Gemini 3 马上要发布了)

而是一个可自我进化、自我繁殖的 AI 生态系统

在未来的几年中,当市场仍在讨论 GPU 的供需、算力的溢价、芯片的带宽时,谷歌的 TPU 与 AI 基金正以稳健的方式持续扩张。

它的节奏不快,但势能深厚,气候已成。

参考资料:

  • https://cloud.google.com/blog/products/compute/ironwood-tpus-and-new-axion-based-vms-for-your-ai-workloads

本文来自微信公众号:新智元(ID:AI_era)

© 版权声明

相关文章