谷歌優化升級網絡架構，打造生成式 AI 推理與訓練高效利器

作者：時間：2026-04-29 來源：

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

谷歌一位網絡領域專家晉升至核心管理層、執掌這家搜索引擎、廣告巨頭（如今更是 AI 巨頭）的基礎設施研發業務，這絕非偶然。尤其關鍵的是，谷歌幾乎已經落地了解耦式數據中心基礎設施架構 —— 過去十余年間，我們一直在持續探討、追蹤這一技術方向。

在解耦、可組合的數據中心架構體系中，網絡始終處于核心樞紐位置。企業不僅需要對網絡進行性能調優，更要針對性定制專用網絡，使其高度適配特定業務負載，這也是差異化網絡架構誕生的核心原因。

傳統一體化服務器被拆解為獨立硬件單元，以機架模塊化方式部署，算力、內存、I/O、加速卡、存儲資源可自由組合，靈活構建不同規格的虛擬集群：小集群承載輕量化分布式任務，超大規模集群專注單一巨型 AI 作業。這套復雜架構，絕非僅靠在機架內堆疊 PCIe 交換芯片就能實現。

從傳統分布式計算、存儲系統，到跨區域、全球化數據中心互聯，專用網絡與通信協議正迎來全面普及。谷歌自研網絡技術布局已久：2019 年，谷歌公開基于 Linux 自研的網絡操作系統Snap，以及配套數據面引擎 Pony Express，該套方案早在 2016 年便已投入量產部署。

四年前，谷歌推出Aquila協議，可為小規模緊耦合集群提供媲美 InfiniBand 的超低時延能力；同步配套研發機架頂置網卡芯片 TiN，基于蜻蜓全互聯拓撲，實現千節點集群的定制化組網。此外，谷歌與英特爾聯合為 “芒特埃文斯” DPU 打造Falcon低時延網絡傳輸接口，進一步豐富低延遲算力互聯方案。

上周谷歌正式發布TPU 8系列芯片，面向推理場景的 TPU 8i 與面向訓練場景的 TPU 8t 同步亮相。本文將深度解析兩大核心技術：一是谷歌自研的Boardfly 芯片間互聯（ICI）全新拓撲，用于 TPU 算力集群組網，并實現跨芯片一定程度的內存一致性；二是全新室女座（Virgo）橫向擴展級以太網架構，面向全域數據中心規模部署，全面適配 TPU 集群及各類服務器機架互聯。

此前歷代 TPU 集群均采用環形拓撲組網：中小規模集群使用二維環網，搭載數千顆 TPU 的超大規模計算集群則升級為三維環網。

環形拓撲具備多維度互聯特性，廣泛應用于超級計算機架構：IBM 藍色基因大型并行超算、富士通研發的 “K 超算” 與 “富岳超算” 搭載的六維 Tofu 互聯架構，均是典型案例。

環形拓撲適合海量硬件節點組網，但橫向擴容難度極高。二維環網最大僅支持 256 顆加速卡互聯；谷歌上一代鐵木 TPU v7e 采用的三維環網，上限為 9216 顆加速卡；而全新太陽魚 TPU 8t 訓練集群，依托升級版三維環網，將單系統鏡像互聯規模提升至 9600 顆 TPU。

環形拓撲適配分布式并行計算，但設備間數據轉發跳數過多，會顯著增加傳輸時延，該特性勉強滿足大模型訓練需求，卻完全無法適配推理業務。推理場景的核心目標是極致降本，且存在大量全規約、全互聯通信需求，當前主流混合專家（MoE）大模型尤為依賴高頻低延遲互聯。

為此，谷歌為斑馬魚 TPU 8i 推理芯片量身打造Boardfly 全新拓撲架構。該架構單集群可實現 1152 顆 TPU 8i 一體化內存與算力協同組網；同等規模下，網絡轉發跳數從三維環網的 16 跳壓縮至 7 跳。

Boardfly 拓撲借鑒近十五年超算領域普及的蜻蜓拓撲設計，推理集群網絡直徑降低 56%，大幅削減數據傳輸尾延遲。谷歌實測數據顯示，在推理負載下，Boardfly 架構的數據傳輸平均時延，較三維環網直接降低 50%。

時延優化能夠充分釋放 TPU 8i 內置的集合通信加速引擎（CAE）卸載芯片性能，保障硬件算力持續滿載輸出。更強的原生算力、扁平化Boardfly 互聯架構與專用 CAE 加速單元形成協同，讓全新推理集群的整體吞吐性能，較上一代鐵木平臺實現三倍及以上躍升。

下面是另一個

在 Boardfly 架構中，單塊斑馬魚系統板搭載 8 顆 TPU 8i，通過芯片間互聯端口實現板內全互聯；每顆芯片預留冗余互聯端口，可將 8 塊系統板進一步級聯，構建機架級 32 顆 TPU 全互聯體系，機架內任意兩顆芯片僅需 1~2 跳即可完成通信，且全程采用低成本銅纜互聯。

如需擴展至 1152 顆 TPU、合計 36 組算力單元的超大規模推理集群，谷歌接入阿波羅（Apollo）光電路交換設備（隸屬木星數據中心骨干網絡），實現跨集群高速互聯。

這套「芯片間互聯 + 光電路交換」組合架構，是跳數大幅壓縮的關鍵：光交換設備搭載海量光口，推理系統板可集成更多光收發模塊，大幅提升板間光纖互聯密度。對比上一代三維環網，32 節點集群的光電互聯鏈路數量提升約 4~8 倍，硬件互聯瓶頸徹底解除。

面向 AI 訓練的規模化組網升級

AI 訓練與推理的負載需求截然不同，谷歌會盡可能減少光電路交換設備的使用 —— 相較于博通、思科、英偉達 ASIC 架構的以太網交換機，光交換硬件成本更高、供給更稀缺。

谷歌并未完整披露室女座（Virgo）橫向擴展網絡的底層硬件參數，但明確了核心設計思路：不再單純追求單端口超高速率，而是平衡帶寬需求、高基數端口密度與扁平化網絡架構，通過減少轉發跳數控制整體部署成本。

技術層面，Virgo 架構為 GPU、TPU 等加速卡機架，構建扁平化、無阻塞雙層全域互聯拓撲。阿波羅光交換設備不再用于訓練集群橫向擴容，僅負責對接谷歌數據中心內通用算力、存儲資源池。

官方數據顯示，單套 Virgo 網絡架構可無縫互聯多達 13.4 萬顆 TPU 8t 芯片，提供 47PB/s 無阻塞二分帶寬；太陽魚 TPU 8t 單芯片橫向擴展帶寬達 400Gb/s，是上一代鐵木 v7e 100Gb/s 端口帶寬的四倍，網絡架構時延同步降低 40%。

谷歌超大規格 TPU 訓練集群的構建邏輯清晰：單集群內，依托三維環網芯片間互聯，最高可容納 9600 顆 TPU 8t 算力芯片；結合深度優化 RDMA 協議、借鑒 Aquila 協議與 TiN 混合交換網卡技術的 Virgo 數據中心網絡，再疊加 JAX、Pathways 兩大 AI 框架專屬優化，單套 Virgo 組網可支撐 13.4 萬顆TPU 協同訓練。

多套 Virgo 架構通過光電路交換設備級聯后，可組建百萬級 TPU超大型邏輯訓練集群，滿足萬億參數大模型、通用人工智能的極限訓練需求。

除此之外，谷歌為 TPU 8t 新增原生 RDMA 支持，推出兩大關鍵技術：TPU 直連 RDMA與TPU 直連存儲。兩項技術對標英偉達 GPU 生態成熟方案，補齊了 TPU 長期缺失的高速互聯能力。

實測結果顯示，在谷歌托管級 Lustre 10T 存儲服務中，TPU 直連存儲技術可將存儲訪問性能提升 10 倍，徹底解決上一代 TPU 平臺存儲 IO 瓶頸。而TPU 內存 RDMA 互聯的具體性能提升幅度，谷歌暫未公開細節。

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

谷歌優化升級網絡架構，打造生成式 AI 推理與訓練高效利器

評論

相關推薦

技術專區