久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 智能計算 > 設計應用 > 谷歌全新TurboQuant壓縮算法:降低AI內存占用,且不損失模型性能

谷歌全新TurboQuant壓縮算法:降低AI內存占用,且不損失模型性能

作者: 時間:2026-03-26 來源: 收藏

核心提要: 人工智能可將大語言模型的內存占用降低 6 倍,在提升模型運行效率的同時,不會像其他壓縮方法那樣導致輸出質量下降。

1774492249387947.png

(圖片來源:

即便你對生成式人工智能模型的底層運作原理了解不多,想必也知道這類模型需要占用海量內存 —— 這也是如今哪怕買一根普通的內存條,價格也高得離譜的原因。研究院近期推出了一款名為 ,既能縮減大語言模型的內存占用,又能提升運行速度,同時還能保證模型的推理精度。

的優化核心是大語言模型的鍵值緩存,谷歌將這一緩存比作一份數字速查手冊,專門存儲關鍵信息,避免模型對同類信息重復計算。這份 “手冊” 對大語言模型而言不可或缺,因為這類模型本身并不具備真正的 “認知能力”,其看似能理解各類信息的表現,實則是通過向量實現的 —— 這些向量會對分詞后的文本進行語義映射,當兩個向量相似度較高時,就代表它們對應的概念存在關聯。

高維向量可包含數百甚至數千個嵌入維度,能夠描述圖像像素、大型數據集等復雜信息,但同時也會占用大量內存,讓鍵值緩存的體積大幅膨脹,進而成為的瓶頸。為了讓模型更輕量化、運行更高效,開發者通常會采用量化技術,以更低的精度運行模型,但其弊端也十分明顯:模型的輸出效果會變差,分詞預測的準確性會下降。而谷歌的早期測試結果顯示,TurboQuant 在部分測試中實現了8 倍的性能提升和 6 倍的內存占用縮減,且全程無任何精度損失。

極坐標變換與誤差修正:TurboQuant 的兩步壓縮法

為 AI 模型部署 TurboQuant 算法分為兩個核心步驟。為實現高質量的壓縮效果,谷歌研發了一套名為 PolarQuant 的極坐標量化系統。傳統 AI 模型的向量均采用標準的直角坐標系(XYZ)編碼,而 PolarQuant 會將笛卡爾坐標系中的向量轉換為極坐標形式,在圓形坐標系中,原本的高維向量會被簡化為兩個核心信息:半徑(代表核心數據的強度)和方向(代表數據的語義內涵)。

PolarQuant 就像一座高效的壓縮橋梁,將直角坐標系的輸入數據轉換為簡潔的極坐標 “簡寫形式”,再進行存儲和運算。

谷歌用一個生動的現實場景類比這一轉換過程:如果把向量坐標比作行進方向,傳統的直角坐標編碼描述可能是 “向東走 3 個街區,再向北走 4 個街區”,而用極坐標描述則簡單直接 ——“沿 37 度方向走 5 個街區”。這種編碼方式不僅占用的存儲空間更少,還能讓系統省去繁瑣且耗時的數據歸一化步驟。

PolarQuant 承擔了算法大部分的壓縮工作,而第二步則是對壓縮過程中產生的細微誤差進行修正。盡管 PolarQuant 的壓縮效果顯著,但仍會產生少量殘余誤差,谷歌為此提出了量化約翰遜 - 林德斯特勞斯(QJL) 技術來消除這一問題。該技術會為模型添加一個 1 比特的誤差校正層,將每個向量簡化為單個比特值(+1 或 - 1),同時完整保留描述向量間關聯的核心數據,最終讓模型輸出更精準的注意力分數—— 這一分數是神經網絡判斷數據重要性的核心依據。若想了解該算法的更多技術細節,可下載相關預印論文。

1774492281424024.png

(配圖:TurboQuant 量化性能基準測試圖 圖片來源:谷歌)

該圖展示了在不同比特精度下,TurboQuant 算法在鍵值緩存中計算注意力對數幾率時的性能提升幅度,所有數據均以高度優化的 JAX 基準模型為參照。

實測表現:6 倍內存縮減,8 倍速度提升,無精度損失

這套復雜的算法設計實際效果如何?谷歌表示,團隊已基于 Gemma 和 Mistral 兩款開源大語言模型,在多款長上下文基準測試中對該進行了驗證。測試結果顯示,TurboQuant 在所有測試中均實現了完美的下游任務表現,同時將鍵值緩存的內存占用降低了 6 倍。該算法可在無需額外訓練的前提下,將緩存量化至僅 3 比特,這意味著它能直接部署在現有各類模型上。此外,在英偉達 H100 加速器上,采用 4 比特 TurboQuant 算法計算注意力分數的速度,較 32 比特未量化的鍵值計算快了 8 倍。

一旦落地應用,TurboQuant 不僅能降低 AI 模型的運行成本、減少內存消耗,企業還能利用算法釋放出的內存資源,運行更復雜的大模型。未來大概率會是兩種應用場景并存,而移動人工智能領域將成為該算法的最大受益方 —— 受智能手機硬件性能的限制,TurboQuant 這類壓縮技術能讓移動端 AI 在無需將數據上傳至云端的情況下,大幅提升本地推理的輸出質量。


評論


相關推薦

技術專區

關閉