久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 智能計算 > 設計應用 > 硬件革新:借助稀疏計算讓AI算力提質降耗

硬件革新:借助稀疏計算讓AI算力提質降耗

作者: 時間:2026-04-29 來源:EEPW編譯 收藏

談及模型,模型規模至關重要。盡管部分專家警示,大語言模型持續擴容的性能邊際收益正在遞減,但科技企業仍在不斷推出體量愈發龐大的AI工具。Meta最新發布的Llama模型,參數量更是達到了驚人的2萬億。

模型規模越大,能力越強,但能耗、運行耗時也隨之攀升,碳足跡進一步增加。為緩解這些問題,行業開始轉向采用體量更小、性能稍弱的模型,并盡可能對模型參數使用低精度數值。

而還有另一條可行路徑:在保留超大模型高性能的同時,大幅降低運行耗時與能耗。核心思路,就是善用大型AI模型中大量存在的零值。

對多數AI模型而言,絕大多數參數(權重與激活值)本質上都是零,或是無限趨近于零——將這類數值直接視作零處理,完全不會損失模型精度。這一特性被稱為稀疏性。

稀疏性為算力節約創造了巨大空間:無需浪費算力和能耗對零值做加減乘除運算,這類計算可直接跳過;內存中也無需存儲海量零值,僅需保存非零參數即可。

遺憾的是,目前主流硬件(多核CPU、GPU)天生無法充分利用稀疏性優勢。想要徹底釋放稀疏計算潛力,科研人員與工程師需要對整個設計架構棧進行重新設計,涵蓋硬件、底層固件以及應用軟件全層級。

斯坦福大學研究團隊研發出一款硬件芯片,據我們所知,這是首款可高效適配各類稀疏及傳統計算負載的專用硬件。不同負載場景下的節能效果差異較大,但平均來看,這款芯片的能耗僅為普通CPU的七十分之一,運算速度平均提升7倍。

為實現這一效果,我們從零開始重構了硬件、底層固件與軟件體系,深度適配稀疏性特性。我們希望這只是一個開端,未來硬件與AI模型的協同研發,將推動走向更高能效。

什么是稀疏性

神經網絡及其輸入數據,均以數字數組形式呈現。這些數組可以是一維(向量)、二維(矩陣)或更高維(張量)。稀疏向量、稀疏矩陣、稀疏張量的共同特征是:絕大多數元素都為零。稀疏程度沒有固定標準,只要某類數組中零值占比超過50%,就可以借助稀疏專用計算方法獲得效率提升。與之相對,元素中零值占比極低的數組,則稱為稠密數組。

稀疏性分為天然稀疏和人為誘導稀疏兩類。例如社交網絡圖譜就是典型的天然稀疏結構:把每個人看作一個節點,好友關系看作節點間的連線。由于絕大多數人彼此并非好友,用來表征所有關聯關系的矩陣中,絕大部分數值都是零。圖學習、推薦模型等主流AI應用,也普遍存在天然稀疏特性。

24831794e045aa9bf5812ae5e1f013be.png

常規情況下,一個4×4矩陣無論包含多少零值,都會占用內存中16個存儲單元。而稀疏矩陣可通過纖維樹結構實現高效存儲:先記錄包含非零元素的行坐標組,再關聯對應非零元素的列坐標組,最終精準定位并存儲非零數值本身。在計算機內存中存儲纖維樹時,會同步保存每組坐標的分段標識、坐標信息以及對應數值。

除天然稀疏外,還可通過技術手段人為誘導AI模型產生稀疏性。兩年前,賽布拉斯公司的研究團隊證實:可將大語言模型中70%~80%的參數置零,且完全不損失模型精度。

該成果率先在Meta開源的Llama7B模型上得到驗證,同樣也適用于ChatGPT、克勞德等主流大語言模型。

稀疏計算的價值所在

稀疏計算的高效性,源于兩大核心特性:零值可壓縮存儲、零值具備特殊數學運算屬性。稀疏計算算法與專用硬件,均圍繞這兩大特性設計。

第一,稀疏數據可壓縮,通過稀疏數據類型存儲,大幅節省內存空間;處理海量數據時,數據傳輸的能耗也隨之降低。

舉個例子:一個4×4矩陣僅有3個非零元素。傳統稠密存儲方式會占用16個內存單元;采用稀疏壓縮存儲后,僅需保存3個非零值,可節省13個內存單元。且矩陣規模越大、稀疏度越高,內存節省效果越明顯。

54ab9e3a783e07c7dd591ed9ab78f6b4.png

向量與矩陣相乘,傳統稠密計算需要完成16次乘法、16次加法;而采用稀疏格式后,計算量僅取決于非零元素的重合數量,本例中僅需3次索引查找、2次乘法即可完成運算。

稀疏壓縮數據除了存儲數值本身,還需要配套元數據:必須記錄每個非零元素的行列位置。纖維樹就是典型的元數據組織形式:先羅列含非零值的行標識,關聯對應列標識,再映射到具體數值。

內存存儲邏輯則更為復雜:除行列坐標外,還要記錄分段標識,用來界定元數據與實際數值的邊界,實現二者清晰劃分。

稠密無壓縮矩陣支持單值讀取或并行讀取,可通過簡單公式直接定位元素位置;但稀疏壓縮數據需要間接索引:先查找行坐標,再依托行信息檢索列坐標,最后定位數值。

受稀疏數據隨機分布特性影響,這類間接索引往往毫無規律,計算過程高度依賴數據分布,還需要實時分配內存索引資源。

第二,零值的數學特性,讓軟硬件可以直接跳過大量無效計算。任何數乘以零結果仍為零,無需實際執行乘法運算;任何數加零數值不變,也無需執行加法運算。

矩陣-向量乘法是AI最常用的運算之一,除兩個非零元素相乘相加的場景外,其余所有計算都可直接省略。

仍以4×4矩陣和四維向量為例:稠密計算需完成16次乘法、16次加法(4次累加運算);稀疏計算僅需考量向量中的非零元素,通過間接索引匹配矩陣非零元素后,僅需執行2次乘法即可,大幅減少運算量。

CPU與GPU的固有短板

現代通用硬件并不適配稀疏計算加速需求。

以矩陣-向量乘法為例:在單核CPU中,向量元素只能逐次串行相乘、寫入內存,效率極低。因此行業普遍采用支持向量運算的CPU或GPU,實現所有元素并行計算,大幅提速。

但如果矩陣和向量都是超高稀疏數據,向量CPU與GPU仍會機械地對大量零值做乘加運算,產生大量無效算力消耗。

軟件層面執行稀疏計算時,現代CPU因架構靈活性,反而比GPU更有優勢。但CPU的短板在于間接索引瓶頸:CPU會基于預判主動預加載內存數據,可隨機分布的稀疏數據完全無法預判,預加載經常失效,CPU只能浪費運算周期反復調取所需數據。

蘋果率先在A14、M1芯片的預取器中支持指針數組訪問模式,優化了間接索引效率。盡管預取技術升級讓蘋果CPU在稀疏計算中更具競爭力,但CPU作為通用計算架構,天生存在固有開銷,無法比肩專為稀疏計算設計的專用架構。

多家企業也在研發稀疏機器學習專用硬件,包括賽布拉斯的晶圓級引擎、Meta的訓練推理加速器MTIA。

晶圓級引擎搭配專屬稀疏編程框架,可讓大語言模型實現高達70%的稀疏度,但僅支持權重稀疏,不支持對諸多應用至關重要的激活值稀疏。

第二代MTIA宣稱稀疏計算性能較初代提升6倍,但公開資料僅證實其支持矩陣乘法稀疏加速,暫不覆蓋向量、張量運算。

盡管矩陣乘法占據現代機器學習模型絕大部分算力耗時,但全流程稀疏支持必不可少。若運算環節部分稀疏、部分稠密,頻繁切換數據類型會額外增加開銷,理想狀態是全鏈路運算均適配稀疏架構。

奧尼克斯(Onyx)專用加速架構

斯坦福團隊摒棄這種折中方案,研發出硬件加速器Onyx,從底層原生適配結構化與非結構化稀疏計算。它是首款同時可編程支持稀疏與稠密雙模式計算的加速器,可高效加速兩類場景下的核心運算。

想要理解Onyx,首先要了解粗粒度可重構陣列(CGRA),以及它與CPU、現場可編程門陣列(FPGA)的差異。

CPU、CGRA、FPGA代表著算力效率與架構靈活性的三重取舍:

CPU單個邏輯單元功能固定,專用任務運算效率極高;

FPGA每一個比特位均可自由配置,靈活性拉滿,但算力效率極低;

CGRA的設計目標,是兼顧FPGA的靈活性與CPU的運算效率。

CGRA由高效可配置單元(內存、計算單元為主)組成,面向特定應用領域定制優化。核心優勢在于:開發者可對CGRA架構進行高層級重構,實現效率優于FPGA、靈活性強于CPU的雙重特性。

cb373c96604d23e45a1594709407e8c5.png

奧尼克斯(Onyx)芯片基于粗粒度可重構陣列(CGRA)架構打造,據我們所知,它是業內首款同時支持稀疏計算與稠密計算的芯片。圖片來源:Olivia Hsu

Onyx由靈活且可編程的處理單元(PE)陣列與存儲單元(MEM)陣列構成。存儲單元負責存放壓縮矩陣及其他格式數據;處理單元則直接對壓縮矩陣進行運算,剔除所有冗余、無效的計算步驟。

Onyx編譯器負責將軟件指令轉換為CGRA架構配置。首先,輸入運算表達式(例如稀疏向量乘法)會被轉化為由抽象存儲節點和計算節點組成的運算圖。以稀疏向量乘法為例:包含輸入向量與輸出向量對應的存儲節點、用于匹配非零元素交集的計算節點,以及執行乘法運算的計算節點。

編譯器會完成兩項核心工作:一是將抽象存儲節點、計算節點映射到CGRA硬件的存儲單元與處理單元上;二是規劃節點間的數據通路,實現單元之間的數據傳輸。最后,編譯器生成所需指令集,完成對CGRA的功能配置。

得益于可編程特性,工程師可將各類運算任務部署到這款加速器上,既包括向量逐元素相乘等基礎運算,也包含矩陣–向量乘法、矩陣–矩陣乘法等人工智能核心運算。

研究團隊采用能量延遲積(EDP)指標評估硬件能效提升,該指標為能耗與運算耗時的乘積,可綜合衡量速度與能耗的權衡關系。單純降低能耗會導致設備運算速度極慢,而一味追求速度則會造成芯片面積與功耗飆升。

實測數據顯示,對比搭載專用稀疏計算庫的12核英特爾至強CPU,Onyx的能量延遲積性能最高可達后者的565倍。

Onyx也可通過配置,像GPU、TPU一樣為常規稠密計算任務加速:面對稀疏計算時,啟用稀疏運算原語;面對稠密計算時,則重構硬件配置以挖掘并行計算能力,工作模式與GPU類似。該架構向著單芯片統一加速稀疏與稠密計算邁出了關鍵一步。

同樣重要的是,Onyx也推動了算法層面的全新思考。稀疏加速硬件不僅能提升AI的性能與能效,還能助力科研人員和工程師探索全新算法,有望進一步大幅革新人工智能技術。

稀疏計算的未來展望

團隊已著手研發基于Onyx架構的下一代芯片。機器學習模型除矩陣乘法外,還包含非線性層、歸一化、Softmax函數等大量運算,下一代加速器及配套編譯器將全面兼容這類全品類運算。

鑒于稀疏機器學習模型往往同時包含稀疏層與稠密層,團隊正優化芯片內部稠密與稀疏加速架構的深度融合,實現不同數據格式之間的快速轉換。同時,研究更高效的稀疏數據拆分方案,突破內存容量限制,支持多顆稀疏加速器芯片協同運算。

此外,團隊正在搭建加速器性能預測系統,為面向稀疏AI的硬件設計提供優化依據。長遠來看,我們關注兩大方向:一是高稀疏度能否在更多AI模型類型中普及;二是稀疏加速器能否實現大規模產業落地。

研發適配非結構化稀疏、極致利用模型零值的專用硬件,僅僅是開端。有了這類硬件支撐,AI科研與工程人員能夠以全新思路挖掘稀疏性價值,探索創新模型與算法。在AI運行開銷、使用成本及環境負擔持續攀升的當下,稀疏計算已成為極具關鍵價值的核心研究方向。


評論


相關推薦

技術專區

關閉