網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

谷歌沖破內(nèi)存墻！新算法內(nèi)存占用暴砍83%，速度提升8倍！

2026-03-26 22:11:09　來(lái)源: 智東西

北京舉報(bào)

分享至

智東西
編譯劉煜
編輯陳駿達(dá)

智東西3月26日?qǐng)?bào)道，昨天，谷歌于發(fā)布了一款針對(duì)大語(yǔ)言模型鍵值緩存（KV Cache）的無(wú)損極限壓縮算法TurboQuant，它能夠從根本上解決向量量化中內(nèi)存開(kāi)銷問(wèn)題。谷歌稱，TurboQuant可將大語(yǔ)言模型鍵值緩存內(nèi)存占用至少降至原來(lái)的1/6，推理速度最高提升8倍，同時(shí)保持100%精確程度。

Cloudflare的聯(lián)合創(chuàng)始人、CEO兼執(zhí)行主席Matthew Prince稱，谷歌推出TurboQuant堪稱“谷歌的DeepSeek時(shí)刻”。

▲Matthew Prince的推文（圖源：X）

向量量化一直是企業(yè)為AI數(shù)據(jù) “瘦身” 的主流技術(shù)，主要用于壓縮高維向量、節(jié)省內(nèi)存、提升檢索與推理效率。但傳統(tǒng)壓縮方法通常會(huì)引入額外的內(nèi)存開(kāi)銷（每一小塊數(shù)據(jù)都要單獨(dú)算、單獨(dú)存一套完整的“壓縮參數(shù)”），這些參數(shù)很占內(nèi)存，每個(gè)數(shù)字都要多占1-2 bit，這樣反而會(huì)影響向量量化的效果。

谷歌稱，此次推出的TurboQuant借助了谷歌提出的1 bit無(wú)偏誤差校正算法QJL與極坐標(biāo)量化壓縮技術(shù)PolarQuant，實(shí)現(xiàn)了壓縮算法的突破。

谷歌官宣推出TurboQuant后，引發(fā)資本市場(chǎng)短期內(nèi)對(duì)該技術(shù)會(huì)降低存儲(chǔ)芯片采購(gòu)需求的擔(dān)憂，導(dǎo)致存儲(chǔ)芯片板塊集體回調(diào)。

當(dāng)天美股盤中，美光股票跌幅超過(guò)5%，收盤時(shí)下跌3.4%，市值蒸發(fā)約151.6億美元（約合人民幣1047.37億元）。閃迪股票下跌幅度更大，一度超過(guò)7%，收盤時(shí)下跌3.5%，市值蒸發(fā)約36.44億美元（約合人民幣251.75億元）。韓股收盤時(shí)，SK海力士股價(jià)下跌了6.23%。

▲美光、閃迪股價(jià)圖（圖源：騰訊自選股）SK海力士股價(jià)圖（圖源：Investing）

博客鏈接：

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

一、TurboQuant的工作原理：高質(zhì)量壓縮與誤差修正

TurboQuant能夠在零精度損失下實(shí)現(xiàn)模型尺寸的大幅縮小，非常適合支持鍵值緩存壓縮和向量搜索。它主要通過(guò)兩個(gè)關(guān)鍵步驟實(shí)現(xiàn)這一目標(biāo)。

TurboQuant首先對(duì)數(shù)據(jù)向量進(jìn)行隨機(jī)旋轉(zhuǎn)變換，這樣處理簡(jiǎn)化了數(shù)據(jù)的幾何結(jié)構(gòu)，使得TurboQuant可以對(duì)向量的每個(gè)部分單獨(dú)應(yīng)用標(biāo)準(zhǔn)的高質(zhì)量量化器（量化器是一種將大量連續(xù)數(shù)值映射為更少并且離散的符號(hào)或數(shù)值的工具，比如音頻量化與JPEG壓縮）。

第一階段，PolarQuant利用大部分壓縮算力（絕大多數(shù)比特位）來(lái)捕捉原始向量的核心語(yǔ)義與特征強(qiáng)度，完成主體壓縮。

PolarQuant不再使用表示各軸距離的標(biāo)準(zhǔn)坐標(biāo)系（即X、Y、Z坐標(biāo)）來(lái)描述向量，而是通過(guò)笛卡爾坐標(biāo)系將向量轉(zhuǎn)換為極坐標(biāo)。這就好比把“向東走3個(gè)街區(qū)，向北走4個(gè)街區(qū)”，替換成“沿37度方向走5個(gè)街區(qū)”。

PolarQuant轉(zhuǎn)換后只會(huì)保留半徑（代表核心數(shù)據(jù)的強(qiáng)度）和角度（代表數(shù)據(jù)的方向或語(yǔ)義）。由于角度的分布規(guī)律已知且高度集中，模型不再需要執(zhí)行計(jì)算代價(jià)高昂的數(shù)據(jù)歸一化操作。它將數(shù)據(jù)映射到一個(gè)邊界固定、可預(yù)測(cè)的圓形網(wǎng)格上，PolarQuant就不用再存那些“用來(lái)表示數(shù)據(jù)范圍”的額外信息，從而省下了一大塊內(nèi)存空間。

▲PolarQuant工作概念圖（圖源：谷歌官網(wǎng)）

第二階段，TurboQuant僅以1 bit的極小額外內(nèi)存開(kāi)銷，將QJL作用于第一階段壓縮后殘留的微小誤差上，消除誤差。

QJL采用一種名為約翰遜–林登斯特勞斯變換（Johnson-Lindenstrauss Transform）的數(shù)學(xué)方法，在保留數(shù)據(jù)點(diǎn)之間基本距離與關(guān)聯(lián)關(guān)系的前提下，把復(fù)雜的數(shù)據(jù)壓縮成了一種超級(jí)簡(jiǎn)單、幾乎不占額外內(nèi)存、計(jì)算又特別快的格式。

QJL在高精度查詢與低精度簡(jiǎn)化數(shù)據(jù)之間進(jìn)行結(jié)構(gòu)化平衡，相當(dāng)于一個(gè)數(shù)學(xué)誤差校正器，能夠消除壓縮帶來(lái)的偏差。這使得模型能夠精準(zhǔn)計(jì)算注意力分?jǐn)?shù)（即判斷輸入信息中哪些部分重要、哪些部分可安全忽略的核心過(guò)程）。

二、拆解測(cè)試：TurboQuant強(qiáng)在哪？

谷歌稱，在實(shí)驗(yàn)中，TurboQuant能在完全不降低AI模型效果、不損失精度的前提下，顯著解決鍵值緩存給模型推理帶來(lái)的性能瓶頸。

谷歌拿Meta開(kāi)源的Llama-3.1-8B模型做測(cè)試，將TurboQuant、PolarQuant和KIVI算法相比較，可以看到，與官方基準(zhǔn)線Full Cache相比，TurboQuant能夠?qū)㈡I值緩存量化至僅3.5 bit，并且沒(méi)有損失模型精度。同時(shí)，PolarQuant也幾乎實(shí)現(xiàn)了無(wú)損壓縮。

▲TurboQuant的緩存壓縮性能圖（橫軸為性能得分，縱軸為量化方案）（圖源：谷歌官網(wǎng)）

谷歌對(duì)3種不同量化位寬的TurboQuant進(jìn)行測(cè)試，結(jié)果表明，在下圖的所有序列長(zhǎng)度（模型處理的文本token數(shù)量）中，TurboQuant 1 bit版本加速比最高，4 bit版本加速比最低。在1M超長(zhǎng)上下文中，TurboQuant 1 bit版本加速比在13倍左右，4 bit版本在7倍左右。

同時(shí)，谷歌稱TurboQuant在JAX框架（谷歌的超級(jí)加速框架）的基礎(chǔ)上，仍能實(shí)現(xiàn)顯著加速。在英偉達(dá)的H100 GPU上，TurboQuant 4 bit版本相比不壓縮的32bit原版鍵值緩存，速度最高提升8倍，不僅能加速大模型推理，還能大幅優(yōu)化向量搜索、索引構(gòu)建等關(guān)鍵場(chǎng)景。

▲TurboQuant計(jì)算注意力logits的加速效果圖（橫軸為序列長(zhǎng)度，縱軸為加速比）（圖源：谷歌官網(wǎng)）

在高維向量搜索任務(wù)中，谷歌以1@k召回率（1@k召回率用于衡量算法在其前k個(gè)近似結(jié)果中，壓縮后的向量和不壓縮時(shí)算出“最相似結(jié)果”一樣的概率。）為指標(biāo)，將TurboQuant與當(dāng)前最優(yōu)方法PQ和RabbiQ進(jìn)行了效果對(duì)比。

從下圖可以看到，不管是2 bit還是4 bit版本的TurboQuant，都在召回率指標(biāo)上持續(xù)取得了更優(yōu)表現(xiàn)。這證實(shí)了TurboQuant在高維搜索任務(wù)中的穩(wěn)健性與高效性。

同時(shí)，谷歌稱，在GloVe數(shù)據(jù)集（維度d=200）（斯坦福大學(xué)發(fā)布的經(jīng)典預(yù)訓(xùn)練詞向量數(shù)據(jù)集）上，TurboQuant在與當(dāng)前多種主流先進(jìn)量化方法的對(duì)比中，展現(xiàn)出穩(wěn)健的檢索性能，并實(shí)現(xiàn)了最優(yōu)的1@k召回率。

▲TurboQuant的召回率圖（橫軸是檢索范圍，縱軸是召回率）（圖源：谷歌官網(wǎng)）

由此可見(jiàn)，TurboQuant在PolarQuant主體壓縮的基礎(chǔ)上，通過(guò)極低比特量化與誤差校正，使鍵值緩存的存儲(chǔ)空間顯著減少，讓模型能夠在相同硬件條件下處理更長(zhǎng)的上下文、更大的批量數(shù)據(jù)，同時(shí)降低推理成本。

此外，TurboQuant的推理速度極快，精度幾乎達(dá)到無(wú)損效果，即使在超長(zhǎng)文本下其推理能力依然穩(wěn)定高效。

結(jié)語(yǔ)：算法博弈下的存儲(chǔ)焦慮，企業(yè)推動(dòng)大模型“瘦身”革命

TurboQuant在谷歌的測(cè)試中表現(xiàn)出了出色的出成績(jī)，它能夠以極低的內(nèi)存占用、近乎為零的預(yù)處理耗時(shí)，完成大規(guī)模向量索引的構(gòu)建與查詢，這讓“谷歌級(jí)別”的語(yǔ)義搜索變得更加快速高效。

早在2025年，英偉達(dá)于在arXiv上公開(kāi)了第一版KVTC，證明它能把大模型的鍵值緩存壓縮到原來(lái)的 1/20，同時(shí)精度損失不到1%。近期，英偉達(dá)更新了實(shí)測(cè)數(shù)據(jù)，稱在H100 GPU上處理8000 Token的長(zhǎng)提示時(shí)，模型生成第一個(gè)詞的時(shí)間，從傳統(tǒng)方案的3秒左右，縮短至380毫秒，速度提升8倍。

科技大廠正通過(guò)持續(xù)的算法創(chuàng)新與迭代，不斷提升AI大模型的推理效率。在當(dāng)前存儲(chǔ)芯片供應(yīng)緊張的背景下，企業(yè)通過(guò)對(duì)大模型推理過(guò)程中的鍵值緩存進(jìn)行高效壓縮，來(lái)提升大模型自身的推理效率，或許可以在一定程度上緩解存儲(chǔ)芯片產(chǎn)能跟不上AI算力發(fā)展速度的局面。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.