AI 硬件設(shè)計(jì)如何破解 “內(nèi)存墻” 瓶頸？

作者：時(shí)間：2026-03-20 來源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

從通用計(jì)算轉(zhuǎn)向 AI 專用硬件，其核心驅(qū)動(dòng)力是深度學(xué)習(xí)模型特有的計(jì)算與能耗需求。隨著模型規(guī)模擴(kuò)展至萬億級參數(shù)，傳統(tǒng)架構(gòu)面臨內(nèi)存墻困境：在存儲器與處理單元之間搬運(yùn)數(shù)據(jù)所消耗的能量，已遠(yuǎn)超計(jì)算本身的能耗。

本文梳理了當(dāng)前用于解決這類瓶頸的設(shè)計(jì)策略，覆蓋從數(shù)據(jù)中心脈動(dòng)陣列到功耗受限的邊緣端加速器等各類場景。

問：標(biāo)準(zhǔn) CPU 與 GPU 架構(gòu)為何無法滿足 AI 負(fù)載需求？

答：中央處理器（CPU）受限于面向通用任務(wù)設(shè)計(jì)的窄位寬向量處理單元與復(fù)雜緩存層次結(jié)構(gòu)，在高并發(fā) AI 運(yùn)算中會(huì)產(chǎn)生顯著延遲。

圖形處理器（GPU）雖然并行度更高，但仍基于馮?諾依曼架構(gòu)，存在明顯的功耗與內(nèi)存帶寬瓶頸。

為解決這些問題，硬件架構(gòu)師正采用跨材料、電路、架構(gòu)與封裝的多層級設(shè)計(jì)方法，如圖 1 所示。

圖 1. 先進(jìn) AI 芯片的多層級設(shè)計(jì)空間：覆蓋材料、電路、架構(gòu)與封裝（圖片來源：施普林格?自然）

設(shè)計(jì)工作通常圍繞四大技術(shù)支柱展開：

計(jì)算吞吐量：采用光子計(jì)算、大規(guī)模并行化等架構(gòu)提升每秒運(yùn)算次數(shù)。
能效：使用存內(nèi)計(jì)算（CIM）與阻變存儲器（ReRAM）、相變存儲器（PCM）等非易失性存儲技術(shù)，降低數(shù)據(jù)搬運(yùn)能耗。
架構(gòu)可重構(gòu)性：設(shè)計(jì)可針對不同神經(jīng)網(wǎng)絡(luò)拓?fù)渑c持續(xù)演進(jìn)算法進(jìn)行優(yōu)化的硬件。
多模態(tài)數(shù)據(jù)融合：采用 3D 單片集成技術(shù)整合不同處理單元，實(shí)現(xiàn)低延遲同時(shí)處理視覺、聽覺與文本數(shù)據(jù)。

問：AI 硬件加速的核心架構(gòu)組件有哪些？

答：向領(lǐng)域?qū)Ｓ眉軜?gòu)轉(zhuǎn)型需要多個(gè)基礎(chǔ)模塊，表 1 按功能與應(yīng)用場景對其進(jìn)行了分類：

并行處理單元：用數(shù)千個(gè)小型并發(fā)單元替代通用控制邏輯，最大化矩陣密集型任務(wù)的吞吐量。
內(nèi)存層次優(yōu)化：采用高帶寬互聯(lián)與大容量片上緩存，保證計(jì)算單元的數(shù)據(jù)供給，盡量減少片外 DRAM 訪問。
能效管理：通過動(dòng)態(tài)電壓頻率調(diào)節(jié)、低精度運(yùn)算（如 INT8、FP8、FP4）等技術(shù)，使硬件在限定熱功耗范圍內(nèi)工作，同時(shí)不明顯降低推理精度。

表 1. 領(lǐng)域?qū)Ｓ?AI 加速器的關(guān)鍵架構(gòu)組件與功能定位

問：數(shù)據(jù)中心環(huán)境如何實(shí)現(xiàn)高吞吐量？

答：數(shù)據(jù)中心推理通常采用專用集成電路（ASIC），如谷歌張量處理單元（TPU）。圖 2 框圖詳細(xì)展示了該架構(gòu)的內(nèi)部數(shù)據(jù)通路與控制接口。

云端 ASIC 中的矩陣乘法單元采用脈動(dòng)數(shù)據(jù)流架構(gòu)：數(shù)據(jù)按固定節(jié)律在算術(shù)邏輯單元陣列中流動(dòng)，中間結(jié)果在 ALU 之間直接傳遞，再寫回內(nèi)存。

該設(shè)計(jì)最大化數(shù)據(jù)復(fù)用，使處理器每個(gè)周期可執(zhí)行數(shù)萬次運(yùn)算，滿足大規(guī)模矩陣 - 向量乘法需求。

問：邊緣加速器在功耗管理上與云端系統(tǒng)有何不同？

答：邊緣加速器的功耗限制極為嚴(yán)格，通常低于 25mW，因此必須采用算法 - 硬件協(xié)同設(shè)計(jì)，即軟件與芯片同步設(shè)計(jì)以優(yōu)化資源使用。典型案例是 MIT 的 Navion 芯片，如圖 3 所示。

為擺脫對片外 DRAM 的依賴，Navion 采用了幾項(xiàng)關(guān)鍵策略：

硬件級數(shù)據(jù)壓縮：在圖像采集端直接壓縮視覺數(shù)據(jù)，減少內(nèi)存占用。
稀疏性利用：針對視覺慣性里程計(jì)（VIO）計(jì)算中位姿圖與線性求解器的天然稀疏性做硬件優(yōu)化，降低片上內(nèi)存需求與處理周期。
前端緊耦合：視覺前端與慣性測量單元前端深度集成、共享內(nèi)存，將片上存儲需求壓縮至約 854KB。