英偉達 Groq 3:AI 推理時代已至
在 2026 年英偉達 GTC 大會上,英偉達 CEO 黃仁勛(Jensen Huang)發布了首款專為 AI 推理設計的芯片 ——Groq 3 語言處理單元(LPU)。該芯片融合了英偉達去年圣誕夜以 200 億美元收購初創公司 Groq 獲得的知識產權,將與 Vera Rubin GPU 協同工作,加速 AI 推理 workload。

推理時代的拐點
黃仁勛在大會上表示:“AI 終于能夠進行生產性工作,推理的拐點已經到來。AI 現在必須思考,而思考需要推理;AI 現在必須行動,而行動同樣需要推理。”
訓練與推理的計算需求差異顯著:訓練可并行處理海量數據、耗時數周;推理則需即時響應用戶查詢,無需反向傳播,核心訴求是低延遲。隨著 AI 從模型訓練轉向規模化應用,推理成為算力需求的核心。
內存帶寬與數據流設計
Groq 的核心技術在于片上 SRAM + 線性數據流架構,而非傳統 GPU 依賴的片外 HBM。芯片將處理單元與內存單元交錯布局,數據直接通過 SRAM 線性流動,無需頻繁進出芯片,大幅簡化數據通路、降低延遲。
單顆 Groq 3 LPU 集成500MB 片上 SRAM,內存帶寬達150TB/s,是 Vera Rubin GPU(22TB/s)的近 7 倍;FP8 算力為1.2PFlops,晶體管數約 980 億。相比之下,Vera Rubin GPU 擁有 288GB HBM4、50PFlops(4-bit)算力,更適合并行計算與長上下文處理。
異構協同:解耦推理
英偉達推出Groq 3 LPX計算托盤,每托盤集成 8 顆 Groq 3 LPU 與 1 顆 Vera Rubin GPU,通過Dynamo 軟件框架實現分工:
Vera Rubin GPU:負責預填充(prefill)、注意力計算等計算密集型任務;
Groq 3 LPU:負責低延遲的 Token 生成解碼。
這種解耦推理方案兼顧了 GPU 的高吞吐與 LPU 的低延遲,單顆 LPU 解碼速度可達 500 token/s,組合方案可將智能體間通信吞吐量從約 100 token/s 提升至 1500 token/s 以上,每瓦特推理吞吐量較前代提升35 倍,單位 Token 成本降至傳統方案的 1/5~1/10。
市場與競爭格局
推理專用芯片賽道此前涌現出 D-matrix、Etched、RainAI 等多家初創公司,采用存內計算、模擬計算、對數數學等差異化技術。英偉達 Groq 3 的發布,標志著行業頭部廠商正式入局推理芯片市場。
AWS 也推出了由 Tranium AI 加速器與 Cerebras CS-3 芯片組成的推理系統,通過分離預填充與解碼階段優化性能。而英偉達通過異構協同方案,將 LPU 與 GPU 的優勢結合,形成差異化競爭力。
量產與應用前景
Groq 3 LPU 已進入量產階段,由三星代工,預計 2026 年下半年出貨。其應用場景覆蓋大語言模型推理、智能體系統、自動駕駛、機器人等,尤其適合需要低延遲、高并發的實時交互場景。
這一發布不僅是英偉達在推理芯片領域的技術突破,更預示著 AI 計算的重心從訓練全面轉向推理,異構計算成為未來算力架構的核心方向。











評論