AI 硬件設(shè)計(jì)如何破解 “內(nèi)存墻” 瓶頸?
從通用計(jì)算轉(zhuǎn)向 AI 專用硬件,其核心驅(qū)動(dòng)力是深度學(xué)習(xí)模型特有的計(jì)算與能耗需求。隨著模型規(guī)模擴(kuò)展至萬億級參數(shù),傳統(tǒng)架構(gòu)面臨內(nèi)存墻困境:在存儲器與處理單元之間搬運(yùn)數(shù)據(jù)所消耗的能量,已遠(yuǎn)超計(jì)算本身的能耗。
本文梳理了當(dāng)前用于解決這類瓶頸的設(shè)計(jì)策略,覆蓋從數(shù)據(jù)中心脈動(dòng)陣列到功耗受限的邊緣端加速器等各類場景。
問:標(biāo)準(zhǔn) CPU 與 GPU 架構(gòu)為何無法滿足 AI 負(fù)載需求?
答:中央處理器(CPU)受限于面向通用任務(wù)設(shè)計(jì)的窄位寬向量處理單元與復(fù)雜緩存層次結(jié)構(gòu),在高并發(fā) AI 運(yùn)算中會(huì)產(chǎn)生顯著延遲。
圖形處理器(GPU)雖然并行度更高,但仍基于馮?諾依曼架構(gòu),存在明顯的功耗與內(nèi)存帶寬瓶頸。
為解決這些問題,硬件架構(gòu)師正采用跨材料、電路、架構(gòu)與封裝的多層級設(shè)計(jì)方法,如圖 1 所示。

圖 1. 先進(jìn) AI 芯片的多層級設(shè)計(jì)空間:覆蓋材料、電路、架構(gòu)與封裝(圖片來源:施普林格?自然)
設(shè)計(jì)工作通常圍繞四大技術(shù)支柱展開:
計(jì)算吞吐量:采用光子計(jì)算、大規(guī)模并行化等架構(gòu)提升每秒運(yùn)算次數(shù)。
能效:使用存內(nèi)計(jì)算(CIM)與阻變存儲器(ReRAM)、相變存儲器(PCM)等非易失性存儲技術(shù),降低數(shù)據(jù)搬運(yùn)能耗。
架構(gòu)可重構(gòu)性:設(shè)計(jì)可針對不同神經(jīng)網(wǎng)絡(luò)拓?fù)渑c持續(xù)演進(jìn)算法進(jìn)行優(yōu)化的硬件。
多模態(tài)數(shù)據(jù)融合:采用 3D 單片集成技術(shù)整合不同處理單元,實(shí)現(xiàn)低延遲同時(shí)處理視覺、聽覺與文本數(shù)據(jù)。
問:AI 硬件加速的核心架構(gòu)組件有哪些?
答:向領(lǐng)域?qū)S眉軜?gòu)轉(zhuǎn)型需要多個(gè)基礎(chǔ)模塊,表 1 按功能與應(yīng)用場景對其進(jìn)行了分類:
并行處理單元:用數(shù)千個(gè)小型并發(fā)單元替代通用控制邏輯,最大化矩陣密集型任務(wù)的吞吐量。
內(nèi)存層次優(yōu)化:采用高帶寬互聯(lián)與大容量片上緩存,保證計(jì)算單元的數(shù)據(jù)供給,盡量減少片外 DRAM 訪問。
能效管理:通過動(dòng)態(tài)電壓頻率調(diào)節(jié)、低精度運(yùn)算(如 INT8、FP8、FP4)等技術(shù),使硬件在限定熱功耗范圍內(nèi)工作,同時(shí)不明顯降低推理精度。
表 1. 領(lǐng)域?qū)S?AI 加速器的關(guān)鍵架構(gòu)組件與功能定位

問:數(shù)據(jù)中心環(huán)境如何實(shí)現(xiàn)高吞吐量?
答:數(shù)據(jù)中心推理通常采用專用集成電路(ASIC),如谷歌張量處理單元(TPU)。圖 2 框圖詳細(xì)展示了該架構(gòu)的內(nèi)部數(shù)據(jù)通路與控制接口。
云端 ASIC 中的矩陣乘法單元采用脈動(dòng)數(shù)據(jù)流架構(gòu):數(shù)據(jù)按固定節(jié)律在算術(shù)邏輯單元陣列中流動(dòng),中間結(jié)果在 ALU 之間直接傳遞,再寫回內(nèi)存。
該設(shè)計(jì)最大化數(shù)據(jù)復(fù)用,使處理器每個(gè)周期可執(zhí)行數(shù)萬次運(yùn)算,滿足大規(guī)模矩陣 - 向量乘法需求。

問:邊緣加速器在功耗管理上與云端系統(tǒng)有何不同?
答:邊緣加速器的功耗限制極為嚴(yán)格,通常低于 25mW,因此必須采用算法 - 硬件協(xié)同設(shè)計(jì),即軟件與芯片同步設(shè)計(jì)以優(yōu)化資源使用。典型案例是 MIT 的 Navion 芯片,如圖 3 所示。
為擺脫對片外 DRAM 的依賴,Navion 采用了幾項(xiàng)關(guān)鍵策略:
硬件級數(shù)據(jù)壓縮:在圖像采集端直接壓縮視覺數(shù)據(jù),減少內(nèi)存占用。
稀疏性利用:針對視覺慣性里程計(jì)(VIO)計(jì)算中位姿圖與線性求解器的天然稀疏性做硬件優(yōu)化,降低片上內(nèi)存需求與處理周期。
前端緊耦合:視覺前端與慣性測量單元前端深度集成、共享內(nèi)存,將片上存儲需求壓縮至約 854KB。

總結(jié)
AI 硬件設(shè)計(jì)的進(jìn)步,本質(zhì)上是為了應(yīng)對馮?諾依曼架構(gòu)固有的內(nèi)存墻問題。
通過多層級設(shè)計(jì)理念,工程師可在材料、電路與封裝層面全面優(yōu)化性能:在云端,實(shí)現(xiàn)基于脈動(dòng)陣列的高吞吐量 ASIC,支撐大規(guī)模并行矩陣運(yùn)算;
在邊緣端,受限于極低功耗預(yù)算,必須采用緊密的算法 - 硬件協(xié)同設(shè)計(jì),通過幀壓縮與稀疏性利用,在無需片外內(nèi)存的情況下保證功能精度。
該領(lǐng)域的未來方向是協(xié)同異構(gòu)計(jì)算,并全面轉(zhuǎn)向存內(nèi)計(jì)算(CIM),從根本上消除數(shù)據(jù)搬運(yùn)瓶頸。











評論