硬件革新：借助稀疏計算讓AI算力提質降耗

作者：時間：2026-04-29 來源：EEPW編譯

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

談及人工智能模型，模型規模至關重要。盡管部分人工智能專家警示，大語言模型持續擴容的性能邊際收益正在遞減，但科技企業仍在不斷推出體量愈發龐大的AI工具。Meta最新發布的Llama模型，參數量更是達到了驚人的2萬億。

模型規模越大，能力越強，但能耗、運行耗時也隨之攀升，碳足跡進一步增加。為緩解這些問題，行業開始轉向采用體量更小、性能稍弱的模型，并盡可能對模型參數使用低精度數值。

而還有另一條可行路徑：在保留超大模型高性能的同時，大幅降低運行耗時與能耗。核心思路，就是善用大型AI模型中大量存在的零值。

對多數AI模型而言，絕大多數參數（權重與激活值）本質上都是零，或是無限趨近于零——將這類數值直接視作零處理，完全不會損失模型精度。這一特性被稱為稀疏性。

稀疏性為算力節約創造了巨大空間：無需浪費算力和能耗對零值做加減乘除運算，這類計算可直接跳過；內存中也無需存儲海量零值，僅需保存非零參數即可。

遺憾的是，目前主流硬件（多核CPU、GPU）天生無法充分利用稀疏性優勢。想要徹底釋放稀疏計算潛力，科研人員與工程師需要對整個設計架構棧進行重新設計，涵蓋硬件、底層固件以及應用軟件全層級。

斯坦福大學研究團隊研發出一款硬件芯片，據我們所知，這是首款可高效適配各類稀疏及傳統計算負載的專用硬件。不同負載場景下的節能效果差異較大，但平均來看，這款芯片的能耗僅為普通CPU的七十分之一，運算速度平均提升7倍。

為實現這一效果，我們從零開始重構了硬件、底層固件與軟件體系，深度適配稀疏性特性。我們希望這只是一個開端，未來硬件與AI模型的協同研發，將推動人工智能走向更高能效。

什么是稀疏性

神經網絡及其輸入數據，均以數字數組形式呈現。這些數組可以是一維（向量）、二維（矩陣）或更高維（張量）。稀疏向量、稀疏矩陣、稀疏張量的共同特征是：絕大多數元素都為零。稀疏程度沒有固定標準，只要某類數組中零值占比超過50%，就可以借助稀疏專用計算方法獲得效率提升。與之相對，元素中零值占比極低的數組，則稱為稠密數組。

稀疏性分為天然稀疏和人為誘導稀疏兩類。例如社交網絡圖譜就是典型的天然稀疏結構：把每個人看作一個節點，好友關系看作節點間的連線。由于絕大多數人彼此并非好友，用來表征所有關聯關系的矩陣中，絕大部分數值都是零。圖學習、推薦模型等主流AI應用，也普遍存在天然稀疏特性。

常規情況下，一個4×4矩陣無論包含多少零值，都會占用內存中16個存儲單元。而稀疏矩陣可通過纖維樹結構實現高效存儲：先記錄包含非零元素的行坐標組，再關聯對應非零元素的列坐標組，最終精準定位并存儲非零數值本身。在計算機內存中存儲纖維樹時，會同步保存每組坐標的分段標識、坐標信息以及對應數值。

除天然稀疏外，還可通過技術手段人為誘導AI模型產生稀疏性。兩年前，賽布拉斯公司的研究團隊證實：可將大語言模型中70%~80%的參數置零，且完全不損失模型精度。

該成果率先在Meta開源的Llama7B模型上得到驗證，同樣也適用于ChatGPT、克勞德等主流大語言模型。

稀疏計算的價值所在

稀疏計算的高效性，源于兩大核心特性：零值可壓縮存儲、零值具備特殊數學運算屬性。稀疏計算算法與專用硬件，均圍繞這兩大特性設計。

第一，稀疏數據可壓縮，通過稀疏數據類型存儲，大幅節省內存空間；處理海量數據時，數據傳輸的能耗也隨之降低。

舉個例子：一個4×4矩陣僅有3個非零元素。傳統稠密存儲方式會占用16個內存單元；采用稀疏壓縮存儲后，僅需保存3個非零值，可節省13個內存單元。且矩陣規模越大、稀疏度越高，內存節省效果越明顯。

向量與矩陣相乘，傳統稠密計算需要完成16次乘法、16次加法；而采用稀疏格式后，計算量僅取決于非零元素的重合數量，本例中僅需3次索引查找、2次乘法即可完成運算。

稀疏壓縮數據除了存儲數值本身，還需要配套元數據：必須記錄每個非零元素的行列位置。纖維樹就是典型的元數據組織形式：先羅列含非零值的行標識，關聯對應列標識，再映射到具體數值。

內存存儲邏輯則更為復雜：除行列坐標外，還要記錄分段標識，用來界定元數據與實際數值的邊界，實現二者清晰劃分。

稠密無壓縮矩陣支持單值讀取或并行讀取，可通過簡單公式直接定位元素位置；但稀疏壓縮數據需要間接索引：先查找行坐標，再依托行信息檢索列坐標，最后定位數值。

受稀疏數據隨機分布特性影響，這類間接索引往往毫無規律，計算過程高度依賴數據分布，還需要實時分配內存索引資源。

第二，零值的數學特性，讓軟硬件可以直接跳過大量無效計算。任何數乘以零結果仍為零，無需實際執行乘法運算；任何數加零數值不變，也無需執行加法運算。

矩陣-向量乘法是AI最常用的運算之一，除兩個非零元素相乘相加的場景外，其余所有計算都可直接省略。

仍以4×4矩陣和四維向量為例：稠密計算需完成16次乘法、16次加法（4次累加運算）；稀疏計算僅需考量向量中的非零元素，通過間接索引匹配矩陣非零元素后，僅需執行2次乘法即可，大幅減少運算量。

CPU與GPU的固有短板

現代通用硬件并不適配稀疏計算加速需求。

以矩陣-向量乘法為例：在單核CPU中，向量元素只能逐次串行相乘、寫入內存，效率極低。因此行業普遍采用支持向量運算的CPU或GPU，實現所有元素并行計算，大幅提速。

但如果矩陣和向量都是超高稀疏數據，向量CPU與GPU仍會機械地對大量零值做乘加運算，產生大量無效算力消耗。

軟件層面執行稀疏計算時，現代CPU因架構靈活性，反而比GPU更有優勢。但CPU的短板在于間接索引瓶頸：CPU會基于預判主動預加載內存數據，可隨機分布的稀疏數據完全無法預判，預加載經常失效，CPU只能浪費運算周期反復調取所需數據。

蘋果率先在A14、M1芯片的預取器中支持指針數組訪問模式，優化了間接索引效率。盡管預取技術升級讓蘋果CPU在稀疏計算中更具競爭力，但CPU作為通用計算架構，天生存在固有開銷，無法比肩專為稀疏計算設計的專用架構。

多家企業也在研發稀疏機器學習專用硬件，包括賽布拉斯的晶圓級引擎、Meta的訓練推理加速器MTIA。

晶圓級引擎搭配專屬稀疏編程框架，可讓大語言模型實現高達70%的稀疏度，但僅支持權重稀疏，不支持對諸多應用至關重要的激活值稀疏。

第二代MTIA宣稱稀疏計算性能較初代提升6倍，但公開資料僅證實其支持矩陣乘法稀疏加速，暫不覆蓋向量、張量運算。

盡管矩陣乘法占據現代機器學習模型絕大部分算力耗時，但全流程稀疏支持必不可少。若運算環節部分稀疏、部分稠密，頻繁切換數據類型會額外增加開銷，理想狀態是全鏈路運算均適配稀疏架構。

奧尼克斯（Onyx）專用加速架構

斯坦福團隊摒棄這種折中方案，研發出硬件加速器Onyx，從底層原生適配結構化與非結構化稀疏計算。它是首款同時可編程支持稀疏與稠密雙模式計算的加速器，可高效加速兩類場景下的核心運算。

想要理解Onyx，首先要了解粗粒度可重構陣列（CGRA），以及它與CPU、現場可編程門陣列（FPGA）的差異。

CPU、CGRA、FPGA代表著算力效率與架構靈活性的三重取舍：

CPU單個邏輯單元功能固定，專用任務運算效率極高；

FPGA每一個比特位均可自由配置，靈活性拉滿，但算力效率極低；

CGRA的設計目標，是兼顧FPGA的靈活性與CPU的運算效率。

CGRA由高效可配置單元（內存、計算單元為主）組成，面向特定應用領域定制優化。核心優勢在于：開發者可對CGRA架構進行高層級重構，實現效率優于FPGA、靈活性強于CPU的雙重特性。

奧尼克斯（Onyx）芯片基于粗粒度可重構陣列（CGRA）架構打造，據我們所知，它是業內首款同時支持稀疏計算與稠密計算的芯片。圖片來源：Olivia Hsu

Onyx由靈活且可編程的處理單元（PE）陣列與存儲單元（MEM）陣列構成。存儲單元負責存放壓縮矩陣及其他格式數據；處理單元則直接對壓縮矩陣進行運算，剔除所有冗余、無效的計算步驟。

Onyx編譯器負責將軟件指令轉換為CGRA架構配置。首先，輸入運算表達式（例如稀疏向量乘法）會被轉化為由抽象存儲節點和計算節點組成的運算圖。以稀疏向量乘法為例：包含輸入向量與輸出向量對應的存儲節點、用于匹配非零元素交集的計算節點，以及執行乘法運算的計算節點。

編譯器會完成兩項核心工作：一是將抽象存儲節點、計算節點映射到CGRA硬件的存儲單元與處理單元上；二是規劃節點間的數據通路，實現單元之間的數據傳輸。最后，編譯器生成所需指令集，完成對CGRA的功能配置。

得益于可編程特性，工程師可將各類運算任務部署到這款加速器上，既包括向量逐元素相乘等基礎運算，也包含矩陣–向量乘法、矩陣–矩陣乘法等人工智能核心運算。

研究團隊采用能量延遲積（EDP）指標評估硬件能效提升，該指標為能耗與運算耗時的乘積，可綜合衡量速度與能耗的權衡關系。單純降低能耗會導致設備運算速度極慢，而一味追求速度則會造成芯片面積與功耗飆升。

實測數據顯示，對比搭載專用稀疏計算庫的12核英特爾至強CPU，Onyx的能量延遲積性能最高可達后者的565倍。

Onyx也可通過配置，像GPU、TPU一樣為常規稠密計算任務加速：面對稀疏計算時，啟用稀疏運算原語；面對稠密計算時，則重構硬件配置以挖掘并行計算能力，工作模式與GPU類似。該架構向著單芯片統一加速稀疏與稠密計算邁出了關鍵一步。

同樣重要的是，Onyx也推動了算法層面的全新思考。稀疏加速硬件不僅能提升AI的性能與能效，還能助力科研人員和工程師探索全新算法，有望進一步大幅革新人工智能技術。

稀疏計算的未來展望

團隊已著手研發基于Onyx架構的下一代芯片。機器學習模型除矩陣乘法外，還包含非線性層、歸一化、Softmax函數等大量運算，下一代加速器及配套編譯器將全面兼容這類全品類運算。

鑒于稀疏機器學習模型往往同時包含稀疏層與稠密層，團隊正優化芯片內部稠密與稀疏加速架構的深度融合，實現不同數據格式之間的快速轉換。同時，研究更高效的稀疏數據拆分方案，突破內存容量限制，支持多顆稀疏加速器芯片協同運算。

此外，團隊正在搭建加速器性能預測系統，為面向稀疏AI的硬件設計提供優化依據。長遠來看，我們關注兩大方向：一是高稀疏度能否在更多AI模型類型中普及；二是稀疏加速器能否實現大規模產業落地。

研發適配非結構化稀疏、極致利用模型零值的專用硬件，僅僅是開端。有了這類硬件支撐，AI科研與工程人員能夠以全新思路挖掘稀疏性價值，探索創新模型與算法。在AI運行開銷、使用成本及環境負擔持續攀升的當下，稀疏計算已成為極具關鍵價值的核心研究方向。

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

硬件革新：借助稀疏計算讓AI算力提質降耗

評論

相關推薦

技術專區