久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 智能計算 > 設計應用 > 英偉達 Groq 3:AI 推理時代已至

英偉達 Groq 3:AI 推理時代已至

作者: 時間:2026-03-24 來源:IEEE 收藏

在 2026 年 GTC 大會上, CEO 黃仁勛(Jensen Huang)發布了首款專為 設計的芯片 —— 語言處理單元()。該芯片融合了去年圣誕夜以 200 億美元收購初創公司 Groq 獲得的知識產權,將與 Vera Rubin GPU 協同工作,加速 workload。

1774316032826240.png

推理時代的拐點

黃仁勛在大會上表示:“AI 終于能夠進行生產性工作,推理的拐點已經到來。AI 現在必須思考,而思考需要推理;AI 現在必須行動,而行動同樣需要推理。”

訓練與推理的計算需求差異顯著:訓練可并行處理海量數據、耗時數周;推理則需即時響應用戶查詢,無需反向傳播,核心訴求是低延遲。隨著 AI 從模型訓練轉向規模化應用,推理成為算力需求的核心。

內存帶寬與數據流設計

Groq 的核心技術在于片上 SRAM + 線性數據流架構,而非傳統 GPU 依賴的片外 HBM。芯片將處理單元與內存單元交錯布局,數據直接通過 SRAM 線性流動,無需頻繁進出芯片,大幅簡化數據通路、降低延遲。

單顆 集成500MB 片上 SRAM,內存帶寬達150TB/s,是 Vera Rubin GPU(22TB/s)的近 7 倍;FP8 算力為1.2PFlops,晶體管數約 980 億。相比之下,Vera Rubin GPU 擁有 288GB HBM4、50PFlops(4-bit)算力,更適合并行計算與長上下文處理。

異構協同:解耦推理

英偉達推出 LPX計算托盤,每托盤集成 8 顆 Groq 3 與 1 顆 Vera Rubin GPU,通過Dynamo 軟件框架實現分工:

  • Vera Rubin GPU:負責預填充(prefill)、注意力計算等計算密集型任務;

  • Groq 3 LPU:負責低延遲的 Token 生成解碼。

這種解耦推理方案兼顧了 GPU 的高吞吐與 LPU 的低延遲,單顆 LPU 解碼速度可達 500 token/s,組合方案可將智能體間通信吞吐量從約 100 token/s 提升至 1500 token/s 以上,每瓦特推理吞吐量較前代提升35 倍,單位 Token 成本降至傳統方案的 1/5~1/10。

市場與競爭格局

推理專用芯片賽道此前涌現出 D-matrix、Etched、RainAI 等多家初創公司,采用存內計算、模擬計算、對數數學等差異化技術。英偉達 Groq 3 的發布,標志著行業頭部廠商正式入局推理芯片市場。

AWS 也推出了由 Tranium AI 加速器與 Cerebras CS-3 芯片組成的推理系統,通過分離預填充與解碼階段優化性能。而英偉達通過異構協同方案,將 LPU 與 GPU 的優勢結合,形成差異化競爭力。

量產與應用前景

Groq 3 LPU 已進入量產階段,由三星代工,預計 2026 年下半年出貨。其應用場景覆蓋大語言模型推理、智能體系統、自動駕駛、機器人等,尤其適合需要低延遲、高并發的實時交互場景。

這一發布不僅是英偉達在推理芯片領域的技術突破,更預示著 AI 計算的重心從訓練全面轉向推理,異構計算成為未來算力架構的核心方向。


關鍵詞: 英偉達 Groq 3 LPU AI 推理

評論


相關推薦

技術專區

關閉