ARM Axion 處理器加持谷歌第八代 TPU，云端全面轉(zhuǎn)向智能體 AI 架構(gòu)

作者：時(shí)間：2026-05-11 來(lái)源：EEPW編譯

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

谷歌云將 TPU 產(chǎn)品線拆分為訓(xùn)練版與推理版，全新第八代 TPU 全系采用基于 Arm Neoverse 架構(gòu)的Axion CPU作為宿主機(jī)主控處理器。與此同時(shí)，Arm 正式推出免費(fèi)性能分析工具 Performix，面向日益壯大的 Arm 生態(tài)開發(fā)者群體。

在谷歌云 Next 大會(huì)上，谷歌正式發(fā)布第八代 TPU，分為 TPU 8t 訓(xùn)練型與 TPU 8i 推理型兩大版本，并大規(guī)模采用 Arm Axion 處理器作為全新算力集群的主控主機(jī) CPU。

谷歌云第八代 TPU 產(chǎn)品布局

谷歌第八代 TPU 劃分出兩套獨(dú)立系統(tǒng)：TPU 8t 面向 AI 預(yù)訓(xùn)練場(chǎng)景，TPU 8i 專注推理與任務(wù)決策場(chǎng)景。

與此同時(shí)，Arm 發(fā)布了Performix免費(fèi)性能分析工具，專為 Arm 架構(gòu)服務(wù)器打造。兩大動(dòng)作都圍繞行業(yè)核心趨勢(shì)：智能體 AI。這類應(yīng)用不再是單次模型查詢，而是可以自主完成連續(xù)推理、工具調(diào)用、信息檢索的鏈?zhǔn)饺蝿?wù)調(diào)度。

TPU 8t 與 TPU 8i：同代雙架構(gòu)分工

以往 TPU 采用單顆芯片兼顧訓(xùn)練與推理，第八代首次將訓(xùn)練、推理硬件架構(gòu)徹底拆分。

TPU 8t

面向大規(guī)模預(yù)訓(xùn)練、高嵌入?yún)?shù)負(fù)載場(chǎng)景，超算集群最高可擴(kuò)容至 9600 顆芯片，采用 3D 環(huán)網(wǎng)互聯(lián)架構(gòu)。單芯片配置 216GB HBM 顯存，帶寬高達(dá) 6528GB/s，片上 SRAM 容量 128MB，峰值 FP4 算力達(dá) 12.6 PFLOPs。內(nèi)置專用稀疏核 SparseCore，負(fù)責(zé)處理嵌入檢索帶來(lái)的不規(guī)則內(nèi)存訪問(wèn)，避免矩陣運(yùn)算單元因數(shù)據(jù)等待卡頓；新增 LLM 解碼引擎，專門加速自回歸大模型推理流程。

TPU 8t ASIC 架構(gòu)框圖

TPU 8i

定位推理與智能體任務(wù)推理，單集群最高支持 1152 顆芯片，采用谷歌自研Boardfly新型互聯(lián)拓?fù)洌瑢ｉT降低專家混合模型（MoE）全互聯(lián)通信的網(wǎng)絡(luò)直徑延遲。搭載 288GB HBM 顯存，帶寬 8601GB/s，約為 TPU 8t 的 1.3 倍；片上 SRAM 384MB，達(dá)到上一代產(chǎn)品三倍。超大片上緩存非常適配超長(zhǎng)上下文解碼場(chǎng)景，可將 KV 緩存駐留在片內(nèi)，無(wú)需頻繁溢出到 HBM 顯存。集成全新集合通信加速引擎，優(yōu)化 Boardfly 架構(gòu)下多芯片同步通信效率。

TPU 8i ASIC 架構(gòu)框圖

谷歌官方數(shù)據(jù)顯示：相比第七代 Ironwood TPU，TPU 8t 訓(xùn)練性價(jià)比提升 2.7 倍，TPU 8i 推理性價(jià)比提升 80%；兩代新品能效比均最高提升至原來(lái) 2 倍。原有運(yùn)行在 Ironwood 上的 JAX、PyTorch、Keras 代碼可無(wú)縫遷移適配新一代 TPU。

整套系統(tǒng)的核心變化，是全面采用 Arm 架構(gòu)作為宿主機(jī) CPU。TPU 8t 與 TPU 8i 首次統(tǒng)一搭載基于 Neoverse V2 架構(gòu)的谷歌定制 Axion CPU。對(duì)于智能體 AI 負(fù)載而言，數(shù)據(jù)預(yù)處理、工具調(diào)用、任務(wù)編排等 CPU 側(cè)任務(wù)，直接決定 AI 加速單元的有效利用率，Axion 的引入補(bǔ)齊了全棧協(xié)同能力。

Axion 處理器在谷歌云的全面落地

除作為 TPU 宿主機(jī)外，Axion 正在全面覆蓋谷歌云通用計(jì)算實(shí)例：C4A 虛擬機(jī)與 C4A Metal 裸金屬實(shí)例，主打低時(shí)延 AI 推理通用算力場(chǎng)景；最新 N4A 實(shí)例面向成本敏感型規(guī)模化業(yè)務(wù)，適配網(wǎng)頁(yè)服務(wù)、API 接口、數(shù)據(jù)流水線等場(chǎng)景。

C4A 谷歌云首款基于 Axion 架構(gòu)的處理器平臺(tái)

谷歌還將 Axion 與全新GKE 智能體沙箱深度綁定，基于 gVisor 和 Kata 容器技術(shù)，安全運(yùn)行 AI 智能體生成的不可信代碼。沙箱支持智能體快速創(chuàng)建臨時(shí)容器、執(zhí)行工具調(diào)用并即時(shí)銷毀，在高并發(fā)場(chǎng)景下可滿足嚴(yán)格時(shí)延要求，性能優(yōu)于傳統(tǒng) x86 架構(gòu)主機(jī)。

歐洲旅游平臺(tái) Loveholidays 已率先落地商用，在 C4A 實(shí)例上運(yùn)行 PB 級(jí)嵌入計(jì)算與 AI 推理業(yè)務(wù)，相比專用加速器方案大幅降低成本。

面向智能體全棧的性能調(diào)優(yōu)

Arm 同步推出Performix性能分析工具，免費(fèi)適配 Arm 架構(gòu)服務(wù)器，深度融入智能體 AI 開發(fā)工作流。

工具可直接從 Arm 硬件底層采集運(yùn)行數(shù)據(jù)，包含性能計(jì)數(shù)器、程序追蹤、微架構(gòu)事件等信息；通過(guò)預(yù)設(shè)分析模板輸出結(jié)構(gòu)化數(shù)據(jù)，既方便工程師人工排查，也可直接供給 AI 智能體自動(dòng)分析。輸出格式支持接入自動(dòng)化性能調(diào)優(yōu)閉環(huán)，實(shí)現(xiàn)由 AI 輔助完成硬件與業(yè)務(wù)負(fù)載的智能優(yōu)化。

對(duì)于自研或采購(gòu) Arm 服務(wù)器平臺(tái)的硬件設(shè)計(jì)廠商，Performix 是首款覆蓋完整 Neoverse 全棧的官方性能分析工具，適配云端芯片以及下一代 Arm AGI 智能處理器。

微軟、MongoDB、Redis、SAP 已成為首批合作生態(tài)伙伴。Arm 透露，2025 年全球頂級(jí)云廠商采購(gòu)的 CPU 算力中，已有 50% 采用 Arm 架構(gòu)。