英偉達 Groq 3：AI 推理時代已至

作者：時間：2026-03-24 來源：IEEE

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

在 2026 年英偉達 GTC 大會上，英偉達 CEO 黃仁勛（Jensen Huang）發布了首款專為 AI 推理設計的芯片 ——Groq 3 語言處理單元（LPU）。該芯片融合了英偉達去年圣誕夜以 200 億美元收購初創公司 Groq 獲得的知識產權，將與 Vera Rubin GPU 協同工作，加速 AI 推理 workload。

推理時代的拐點

黃仁勛在大會上表示：“AI 終于能夠進行生產性工作，推理的拐點已經到來。AI 現在必須思考，而思考需要推理；AI 現在必須行動，而行動同樣需要推理。”

訓練與推理的計算需求差異顯著：訓練可并行處理海量數據、耗時數周；推理則需即時響應用戶查詢，無需反向傳播，核心訴求是低延遲。隨著 AI 從模型訓練轉向規模化應用，推理成為算力需求的核心。

內存帶寬與數據流設計

Groq 的核心技術在于片上 SRAM + 線性數據流架構，而非傳統 GPU 依賴的片外 HBM。芯片將處理單元與內存單元交錯布局，數據直接通過 SRAM 線性流動，無需頻繁進出芯片，大幅簡化數據通路、降低延遲。

單顆 Groq 3 LPU 集成500MB 片上 SRAM，內存帶寬達150TB/s，是 Vera Rubin GPU（22TB/s）的近 7 倍；FP8 算力為1.2PFlops，晶體管數約 980 億。相比之下，Vera Rubin GPU 擁有 288GB HBM4、50PFlops（4-bit）算力，更適合并行計算與長上下文處理。

異構協同：解耦推理

英偉達推出Groq 3 LPX計算托盤，每托盤集成 8 顆 Groq 3 LPU 與 1 顆 Vera Rubin GPU，通過Dynamo 軟件框架實現分工：

Vera Rubin GPU：負責預填充（prefill）、注意力計算等計算密集型任務；
Groq 3 LPU：負責低延遲的 Token 生成解碼。

這種解耦推理方案兼顧了 GPU 的高吞吐與 LPU 的低延遲，單顆 LPU 解碼速度可達 500 token/s，組合方案可將智能體間通信吞吐量從約 100 token/s 提升至 1500 token/s 以上，每瓦特推理吞吐量較前代提升35 倍，單位 Token 成本降至傳統方案的 1/5~1/10。

市場與競爭格局

推理專用芯片賽道此前涌現出 D-matrix、Etched、RainAI 等多家初創公司，采用存內計算、模擬計算、對數數學等差異化技術。英偉達 Groq 3 的發布，標志著行業頭部廠商正式入局推理芯片市場。

AWS 也推出了由 Tranium AI 加速器與 Cerebras CS-3 芯片組成的推理系統，通過分離預填充與解碼階段優化性能。而英偉達通過異構協同方案，將 LPU 與 GPU 的優勢結合，形成差異化競爭力。

量產與應用前景

Groq 3 LPU 已進入量產階段，由三星代工，預計 2026 年下半年出貨。其應用場景覆蓋大語言模型推理、智能體系統、自動駕駛、機器人等，尤其適合需要低延遲、高并發的實時交互場景。

這一發布不僅是英偉達在推理芯片領域的技術突破，更預示著 AI 計算的重心從訓練全面轉向推理，異構計算成為未來算力架構的核心方向。