谷歌全新TurboQuant壓縮算法：降低AI內存占用，且不損失模型性能

作者：時間：2026-03-26 來源：

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

核心提要：谷歌 TurboQuant 人工智能壓縮算法可將大語言模型的內存占用降低 6 倍，在提升模型運行效率的同時，不會像其他壓縮方法那樣導致輸出質量下降。

（圖片來源：谷歌）

即便你對生成式人工智能模型的底層運作原理了解不多，想必也知道這類模型需要占用海量內存 —— 這也是如今哪怕買一根普通的內存條，價格也高得離譜的原因。谷歌研究院近期推出了一款名為 TurboQuant 的壓縮算法，既能縮減大語言模型的內存占用，又能提升運行速度，同時還能保證模型的推理精度。

TurboQuant 的優化核心是大語言模型的鍵值緩存，谷歌將這一緩存比作一份數字速查手冊，專門存儲關鍵信息，避免模型對同類信息重復計算。這份 “手冊” 對大語言模型而言不可或缺，因為這類模型本身并不具備真正的 “認知能力”，其看似能理解各類信息的表現，實則是通過向量實現的 —— 這些向量會對分詞后的文本進行語義映射，當兩個向量相似度較高時，就代表它們對應的概念存在關聯。

高維向量可包含數百甚至數千個嵌入維度，能夠描述圖像像素、大型數據集等復雜信息，但同時也會占用大量內存，讓鍵值緩存的體積大幅膨脹，進而成為模型性能的瓶頸。為了讓模型更輕量化、運行更高效，開發者通常會采用量化技術，以更低的精度運行模型，但其弊端也十分明顯：模型的輸出效果會變差，分詞預測的準確性會下降。而谷歌的早期測試結果顯示，TurboQuant 在部分測試中實現了8 倍的性能提升和 6 倍的內存占用縮減，且全程無任何精度損失。

極坐標變換與誤差修正：TurboQuant 的兩步壓縮法

為 AI 模型部署 TurboQuant 算法分為兩個核心步驟。為實現高質量的壓縮效果，谷歌研發了一套名為 PolarQuant 的極坐標量化系統。傳統 AI 模型的向量均采用標準的直角坐標系（XYZ）編碼，而 PolarQuant 會將笛卡爾坐標系中的向量轉換為極坐標形式，在圓形坐標系中，原本的高維向量會被簡化為兩個核心信息：半徑（代表核心數據的強度）和方向（代表數據的語義內涵）。

PolarQuant 就像一座高效的壓縮橋梁，將直角坐標系的輸入數據轉換為簡潔的極坐標 “簡寫形式”，再進行存儲和運算。

谷歌用一個生動的現實場景類比這一轉換過程：如果把向量坐標比作行進方向，傳統的直角坐標編碼描述可能是 “向東走 3 個街區，再向北走 4 個街區”，而用極坐標描述則簡單直接 ——“沿 37 度方向走 5 個街區”。這種編碼方式不僅占用的存儲空間更少，還能讓系統省去繁瑣且耗時的數據歸一化步驟。

PolarQuant 承擔了算法大部分的壓縮工作，而第二步則是對壓縮過程中產生的細微誤差進行修正。盡管 PolarQuant 的壓縮效果顯著，但仍會產生少量殘余誤差，谷歌為此提出了量化約翰遜 - 林德斯特勞斯（QJL） 技術來消除這一問題。該技術會為模型添加一個 1 比特的誤差校正層，將每個向量簡化為單個比特值（+1 或 - 1），同時完整保留描述向量間關聯的核心數據，最終讓模型輸出更精準的注意力分數—— 這一分數是神經網絡判斷數據重要性的核心依據。若想了解該算法的更多技術細節，可下載相關預印論文。

（配圖：TurboQuant 量化性能基準測試圖圖片來源：谷歌）

該圖展示了在不同比特精度下，TurboQuant 算法在鍵值緩存中計算注意力對數幾率時的性能提升幅度，所有數據均以高度優化的 JAX 基準模型為參照。

實測表現：6 倍內存縮減，8 倍速度提升，無精度損失

這套復雜的算法設計實際效果如何？谷歌表示，團隊已基于 Gemma 和 Mistral 兩款開源大語言模型，在多款長上下文基準測試中對該壓縮算法進行了驗證。測試結果顯示，TurboQuant 在所有測試中均實現了完美的下游任務表現，同時將鍵值緩存的內存占用降低了 6 倍。該算法可在無需額外訓練的前提下，將緩存量化至僅 3 比特，這意味著它能直接部署在現有各類模型上。此外，在英偉達 H100 加速器上，采用 4 比特 TurboQuant 算法計算注意力分數的速度，較 32 比特未量化的鍵值計算快了 8 倍。

一旦落地應用，TurboQuant 不僅能降低 AI 模型的運行成本、減少內存消耗，企業還能利用算法釋放出的內存資源，運行更復雜的大模型。未來大概率會是兩種應用場景并存，而移動人工智能領域將成為該算法的最大受益方 —— 受智能手機硬件性能的限制，TurboQuant 這類壓縮技術能讓移動端 AI 在無需將數據上傳至云端的情況下，大幅提升本地推理的輸出質量。

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

谷歌全新TurboQuant壓縮算法：降低AI內存占用，且不損失模型性能

評論

相關推薦

技術專區