久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 智能計(jì)算 > 設(shè)計(jì)應(yīng)用 > AI 硬件設(shè)計(jì)如何破解 “內(nèi)存墻” 瓶頸?

AI 硬件設(shè)計(jì)如何破解 “內(nèi)存墻” 瓶頸?

作者: 時(shí)間:2026-03-20 來源: 收藏

從通用計(jì)算轉(zhuǎn)向 專用硬件,其核心驅(qū)動(dòng)力是深度學(xué)習(xí)模型特有的計(jì)算與能耗需求。隨著模型規(guī)模擴(kuò)展至萬億級參數(shù),傳統(tǒng)架構(gòu)面臨困境:在存儲器與處理單元之間搬運(yùn)數(shù)據(jù)所消耗的能量,已遠(yuǎn)超計(jì)算本身的能耗。

本文梳理了當(dāng)前用于解決這類瓶頸的設(shè)計(jì)策略,覆蓋從數(shù)據(jù)中心脈動(dòng)陣列到功耗受限的邊緣端加速器等各類場景。

問:標(biāo)準(zhǔn) CPU 與 GPU 架構(gòu)為何無法滿足 負(fù)載需求?

:中央處理器(CPU)受限于面向通用任務(wù)設(shè)計(jì)的窄位寬向量處理單元與復(fù)雜緩存層次結(jié)構(gòu),在高并發(fā) 運(yùn)算中會(huì)產(chǎn)生顯著延遲。

圖形處理器(GPU)雖然并行度更高,但仍基于馮?諾依曼架構(gòu),存在明顯的功耗與內(nèi)存帶寬瓶頸。

為解決這些問題,硬件架構(gòu)師正采用跨材料、電路、架構(gòu)與封裝的多層級設(shè)計(jì)方法,如圖 1 所示。

1773991684233966.png

圖 1. 先進(jìn) AI 芯片的多層級設(shè)計(jì)空間:覆蓋材料、電路、架構(gòu)與封裝(圖片來源:施普林格?自然)

設(shè)計(jì)工作通常圍繞四大技術(shù)支柱展開:

  1. 計(jì)算吞吐量:采用光子計(jì)算、大規(guī)模并行化等架構(gòu)提升每秒運(yùn)算次數(shù)。

  2. 能效:使用存內(nèi)計(jì)算(CIM)與阻變存儲器(ReRAM)、相變存儲器(PCM)等非易失性存儲技術(shù),降低數(shù)據(jù)搬運(yùn)能耗。

  3. 架構(gòu)可重構(gòu)性:設(shè)計(jì)可針對不同神經(jīng)網(wǎng)絡(luò)拓?fù)渑c持續(xù)演進(jìn)算法進(jìn)行優(yōu)化的硬件。

  4. 多模態(tài)數(shù)據(jù)融合:采用 3D 單片集成技術(shù)整合不同處理單元,實(shí)現(xiàn)低延遲同時(shí)處理視覺、聽覺與文本數(shù)據(jù)。

問:AI 硬件加速的核心架構(gòu)組件有哪些?

:向領(lǐng)域?qū)S眉軜?gòu)轉(zhuǎn)型需要多個(gè)基礎(chǔ)模塊,表 1 按功能與應(yīng)用場景對其進(jìn)行了分類:

  • 并行處理單元:用數(shù)千個(gè)小型并發(fā)單元替代通用控制邏輯,最大化矩陣密集型任務(wù)的吞吐量。

  • 內(nèi)存層次優(yōu)化:采用高帶寬互聯(lián)與大容量片上緩存,保證計(jì)算單元的數(shù)據(jù)供給,盡量減少片外 DRAM 訪問。

  • 能效管理:通過動(dòng)態(tài)電壓頻率調(diào)節(jié)、低精度運(yùn)算(如 INT8、FP8、FP4)等技術(shù),使硬件在限定熱功耗范圍內(nèi)工作,同時(shí)不明顯降低推理精度。

表 1. 領(lǐng)域?qū)S?AI 加速器的關(guān)鍵架構(gòu)組件與功能定位

1773991724376019.png

問:數(shù)據(jù)中心環(huán)境如何實(shí)現(xiàn)高吞吐量?

:數(shù)據(jù)中心推理通常采用專用集成電路(ASIC),如谷歌張量處理單元(TPU)。圖 2 框圖詳細(xì)展示了該架構(gòu)的內(nèi)部數(shù)據(jù)通路與控制接口。

云端 ASIC 中的矩陣乘法單元采用脈動(dòng)數(shù)據(jù)流架構(gòu):數(shù)據(jù)按固定節(jié)律在算術(shù)邏輯單元陣列中流動(dòng),中間結(jié)果在 ALU 之間直接傳遞,再寫回內(nèi)存。

該設(shè)計(jì)最大化數(shù)據(jù)復(fù)用,使處理器每個(gè)周期可執(zhí)行數(shù)萬次運(yùn)算,滿足大規(guī)模矩陣 - 向量乘法需求。

1773991768807679.png

問:邊緣加速器在功耗管理上與云端系統(tǒng)有何不同?

:邊緣加速器的功耗限制極為嚴(yán)格,通常低于 25mW,因此必須采用算法 - 硬件協(xié)同設(shè)計(jì),即軟件與芯片同步設(shè)計(jì)以優(yōu)化資源使用。典型案例是 MIT 的 Navion 芯片,如圖 3 所示。

為擺脫對片外 DRAM 的依賴,Navion 采用了幾項(xiàng)關(guān)鍵策略:

  1. 硬件級數(shù)據(jù)壓縮:在圖像采集端直接壓縮視覺數(shù)據(jù),減少內(nèi)存占用。

  2. 稀疏性利用:針對視覺慣性里程計(jì)(VIO)計(jì)算中位姿圖與線性求解器的天然稀疏性做硬件優(yōu)化,降低片上內(nèi)存需求與處理周期。

  3. 前端緊耦合:視覺前端與慣性測量單元前端深度集成、共享內(nèi)存,將片上存儲需求壓縮至約 854KB。

1773991790171782.png

總結(jié)

AI 的進(jìn)步,本質(zhì)上是為了應(yīng)對馮?諾依曼架構(gòu)固有的問題。

通過多層級設(shè)計(jì)理念,工程師可在材料、電路與封裝層面全面優(yōu)化性能:在云端,實(shí)現(xiàn)基于脈動(dòng)陣列的高吞吐量 ASIC,支撐大規(guī)模并行矩陣運(yùn)算;

在邊緣端,受限于極低功耗預(yù)算,必須采用緊密的算法 - 硬件協(xié)同設(shè)計(jì),通過幀壓縮與稀疏性利用,在無需片外內(nèi)存的情況下保證功能精度。

該領(lǐng)域的未來方向是協(xié)同異構(gòu)計(jì)算,并全面轉(zhuǎn)向存內(nèi)計(jì)算(CIM),從根本上消除數(shù)據(jù)搬運(yùn)瓶頸。


評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉