AI 硬件設計如何破解 “內存墻” 瓶頸?
從通用計算轉向 AI 專用硬件,其核心驅動力是深度學習模型特有的計算與能耗需求。隨著模型規模擴展至萬億級參數,傳統架構面臨內存墻困境:在存儲器與處理單元之間搬運數據所消耗的能量,已遠超計算本身的能耗。
本文梳理了當前用于解決這類瓶頸的設計策略,覆蓋從數據中心脈動陣列到功耗受限的邊緣端加速器等各類場景。
問:標準 CPU 與 GPU 架構為何無法滿足 AI 負載需求?
答:中央處理器(CPU)受限于面向通用任務設計的窄位寬向量處理單元與復雜緩存層次結構,在高并發 AI 運算中會產生顯著延遲。
圖形處理器(GPU)雖然并行度更高,但仍基于馮?諾依曼架構,存在明顯的功耗與內存帶寬瓶頸。
為解決這些問題,硬件架構師正采用跨材料、電路、架構與封裝的多層級設計方法,如圖 1 所示。

圖 1. 先進 AI 芯片的多層級設計空間:覆蓋材料、電路、架構與封裝(圖片來源:施普林格?自然)
設計工作通常圍繞四大技術支柱展開:
計算吞吐量:采用光子計算、大規模并行化等架構提升每秒運算次數。
能效:使用存內計算(CIM)與阻變存儲器(ReRAM)、相變存儲器(PCM)等非易失性存儲技術,降低數據搬運能耗。
架構可重構性:設計可針對不同神經網絡拓撲與持續演進算法進行優化的硬件。
多模態數據融合:采用 3D 單片集成技術整合不同處理單元,實現低延遲同時處理視覺、聽覺與文本數據。
問:AI 硬件加速的核心架構組件有哪些?
答:向領域專用架構轉型需要多個基礎模塊,表 1 按功能與應用場景對其進行了分類:
并行處理單元:用數千個小型并發單元替代通用控制邏輯,最大化矩陣密集型任務的吞吐量。
內存層次優化:采用高帶寬互聯與大容量片上緩存,保證計算單元的數據供給,盡量減少片外 DRAM 訪問。
能效管理:通過動態電壓頻率調節、低精度運算(如 INT8、FP8、FP4)等技術,使硬件在限定熱功耗范圍內工作,同時不明顯降低推理精度。
表 1. 領域專用 AI 加速器的關鍵架構組件與功能定位

問:數據中心環境如何實現高吞吐量?
答:數據中心推理通常采用專用集成電路(ASIC),如谷歌張量處理單元(TPU)。圖 2 框圖詳細展示了該架構的內部數據通路與控制接口。
云端 ASIC 中的矩陣乘法單元采用脈動數據流架構:數據按固定節律在算術邏輯單元陣列中流動,中間結果在 ALU 之間直接傳遞,再寫回內存。
該設計最大化數據復用,使處理器每個周期可執行數萬次運算,滿足大規模矩陣 - 向量乘法需求。

問:邊緣加速器在功耗管理上與云端系統有何不同?
答:邊緣加速器的功耗限制極為嚴格,通常低于 25mW,因此必須采用算法 - 硬件協同設計,即軟件與芯片同步設計以優化資源使用。典型案例是 MIT 的 Navion 芯片,如圖 3 所示。
為擺脫對片外 DRAM 的依賴,Navion 采用了幾項關鍵策略:
硬件級數據壓縮:在圖像采集端直接壓縮視覺數據,減少內存占用。
稀疏性利用:針對視覺慣性里程計(VIO)計算中位姿圖與線性求解器的天然稀疏性做硬件優化,降低片上內存需求與處理周期。
前端緊耦合:視覺前端與慣性測量單元前端深度集成、共享內存,將片上存儲需求壓縮至約 854KB。

總結
AI 硬件設計的進步,本質上是為了應對馮?諾依曼架構固有的內存墻問題。
通過多層級設計理念,工程師可在材料、電路與封裝層面全面優化性能:在云端,實現基于脈動陣列的高吞吐量 ASIC,支撐大規模并行矩陣運算;
在邊緣端,受限于極低功耗預算,必須采用緊密的算法 - 硬件協同設計,通過幀壓縮與稀疏性利用,在無需片外內存的情況下保證功能精度。
該領域的未來方向是協同異構計算,并全面轉向存內計算(CIM),從根本上消除數據搬運瓶頸。











評論