国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

谷歌沖破內(nèi)存墻!新算法內(nèi)存占用暴砍83%,速度提升8倍!

0
分享至


智東西
編譯 劉煜
編輯 陳駿達(dá)

智東西3月26日?qǐng)?bào)道,昨天,谷歌于發(fā)布了一款針對(duì)大語(yǔ)言模型鍵值緩存(KV Cache)的無(wú)損極限壓縮算法TurboQuant,它能夠從根本上解決向量量化中內(nèi)存開(kāi)銷問(wèn)題。谷歌稱,TurboQuant可將大語(yǔ)言模型鍵值緩存內(nèi)存占用至少降至原來(lái)的1/6,推理速度最高提升8倍,同時(shí)保持100%精確程度。

Cloudflare的聯(lián)合創(chuàng)始人、CEO兼執(zhí)行主席Matthew Prince稱,谷歌推出TurboQuant堪稱“谷歌的DeepSeek時(shí)刻”。


▲Matthew Prince的推文(圖源:X)

向量量化一直是企業(yè)為AI數(shù)據(jù) “瘦身” 的主流技術(shù),主要用于壓縮高維向量、節(jié)省內(nèi)存、提升檢索與推理效率。但傳統(tǒng)壓縮方法通常會(huì)引入額外的內(nèi)存開(kāi)銷(每一小塊數(shù)據(jù)都要單獨(dú)算、單獨(dú)存一套完整的“壓縮參數(shù)”),這些參數(shù)很占內(nèi)存,每個(gè)數(shù)字都要多占1-2 bit,這樣反而會(huì)影響向量量化的效果。

谷歌稱,此次推出的TurboQuant借助了谷歌提出的1 bit無(wú)偏誤差校正算法QJL極坐標(biāo)量化壓縮技術(shù)PolarQuant,實(shí)現(xiàn)了壓縮算法的突破。

谷歌官宣推出TurboQuant后,引發(fā)資本市場(chǎng)短期內(nèi)對(duì)該技術(shù)會(huì)降低存儲(chǔ)芯片采購(gòu)需求的擔(dān)憂,導(dǎo)致存儲(chǔ)芯片板塊集體回調(diào)。

當(dāng)天美股盤中,美光股票跌幅超過(guò)5%,收盤時(shí)下跌3.4%,市值蒸發(fā)約151.6億美元(約合人民幣1047.37億元)。閃迪股票下跌幅度更大,一度超過(guò)7%,收盤時(shí)下跌3.5%,市值蒸發(fā)約36.44億美元(約合人民幣251.75億元)。韓股收盤時(shí),SK海力士股價(jià)下跌了6.23%。


▲美光、閃迪股價(jià)圖(圖源:騰訊自選股)SK海力士股價(jià)圖(圖源:Investing)

博客鏈接:

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

一、TurboQuant的工作原理:高質(zhì)量壓縮與誤差修正

TurboQuant能夠在零精度損失下實(shí)現(xiàn)模型尺寸的大幅縮小,非常適合支持鍵值緩存壓縮和向量搜索。它主要通過(guò)兩個(gè)關(guān)鍵步驟實(shí)現(xiàn)這一目標(biāo)。

TurboQuant首先對(duì)數(shù)據(jù)向量進(jìn)行隨機(jī)旋轉(zhuǎn)變換,這樣處理簡(jiǎn)化了數(shù)據(jù)的幾何結(jié)構(gòu),使得TurboQuant可以對(duì)向量的每個(gè)部分單獨(dú)應(yīng)用標(biāo)準(zhǔn)的高質(zhì)量量化器(量化器是一種將大量連續(xù)數(shù)值映射為更少并且離散的符號(hào)或數(shù)值的工具,比如音頻量化與JPEG壓縮)。

第一階段,PolarQuant利用大部分壓縮算力(絕大多數(shù)比特位)來(lái)捕捉原始向量的核心語(yǔ)義與特征強(qiáng)度,完成主體壓縮。

PolarQuant不再使用表示各軸距離的標(biāo)準(zhǔn)坐標(biāo)系(即X、Y、Z坐標(biāo))來(lái)描述向量,而是通過(guò)笛卡爾坐標(biāo)系將向量轉(zhuǎn)換為極坐標(biāo)。這就好比把“向東走3個(gè)街區(qū),向北走4個(gè)街區(qū)”,替換成“沿37度方向走5個(gè)街區(qū)”。

PolarQuant轉(zhuǎn)換后只會(huì)保留半徑(代表核心數(shù)據(jù)的強(qiáng)度)和角度(代表數(shù)據(jù)的方向或語(yǔ)義)。由于角度的分布規(guī)律已知且高度集中,模型不再需要執(zhí)行計(jì)算代價(jià)高昂的數(shù)據(jù)歸一化操作。它將數(shù)據(jù)映射到一個(gè)邊界固定、可預(yù)測(cè)的圓形網(wǎng)格上,PolarQuant就不用再存那些“用來(lái)表示數(shù)據(jù)范圍”的額外信息,從而省下了一大塊內(nèi)存空間。


▲PolarQuant工作概念圖(圖源:谷歌官網(wǎng))

第二階段,TurboQuant僅以1 bit的極小額外內(nèi)存開(kāi)銷,將QJL作用于第一階段壓縮后殘留的微小誤差上,消除誤差。

QJL采用一種名為約翰遜–林登斯特勞斯變換(Johnson-Lindenstrauss Transform)的數(shù)學(xué)方法,在保留數(shù)據(jù)點(diǎn)之間基本距離與關(guān)聯(lián)關(guān)系的前提下,把復(fù)雜的數(shù)據(jù)壓縮成了一種超級(jí)簡(jiǎn)單、幾乎不占額外內(nèi)存、計(jì)算又特別快的格式。

QJL在高精度查詢與低精度簡(jiǎn)化數(shù)據(jù)之間進(jìn)行結(jié)構(gòu)化平衡,相當(dāng)于一個(gè)數(shù)學(xué)誤差校正器,能夠消除壓縮帶來(lái)的偏差。這使得模型能夠精準(zhǔn)計(jì)算注意力分?jǐn)?shù)(即判斷輸入信息中哪些部分重要、哪些部分可安全忽略的核心過(guò)程)。

二、拆解測(cè)試:TurboQuant強(qiáng)在哪?

谷歌稱,在實(shí)驗(yàn)中,TurboQuant能在完全不降低AI模型效果、不損失精度的前提下,顯著解決鍵值緩存給模型推理帶來(lái)的性能瓶頸。

谷歌拿Meta開(kāi)源的Llama-3.1-8B模型做測(cè)試,將TurboQuant、PolarQuant和KIVI算法相比較,可以看到,與官方基準(zhǔn)線Full Cache相比,TurboQuant能夠?qū)㈡I值緩存量化至僅3.5 bit,并且沒(méi)有損失模型精度。同時(shí),PolarQuant也幾乎實(shí)現(xiàn)了無(wú)損壓縮。


▲TurboQuant的緩存壓縮性能圖(橫軸為性能得分,縱軸為量化方案)(圖源:谷歌官網(wǎng))

谷歌對(duì)3種不同量化位寬的TurboQuant進(jìn)行測(cè)試,結(jié)果表明,在下圖的所有序列長(zhǎng)度(模型處理的文本token數(shù)量)中,TurboQuant 1 bit版本加速比最高,4 bit版本加速比最低。在1M超長(zhǎng)上下文中,TurboQuant 1 bit版本加速比在13倍左右,4 bit版本在7倍左右。

同時(shí),谷歌稱TurboQuant在JAX框架(谷歌的超級(jí)加速框架)的基礎(chǔ)上,仍能實(shí)現(xiàn)顯著加速。在英偉達(dá)的H100 GPU上,TurboQuant 4 bit版本相比不壓縮的32bit原版鍵值緩存,速度最高提升8倍,不僅能加速大模型推理,還能大幅優(yōu)化向量搜索、索引構(gòu)建等關(guān)鍵場(chǎng)景。


▲TurboQuant計(jì)算注意力logits的加速效果圖(橫軸為序列長(zhǎng)度,縱軸為加速比)(圖源:谷歌官網(wǎng))

在高維向量搜索任務(wù)中,谷歌以1@k召回率(1@k召回率用于衡量算法在其前k個(gè)近似結(jié)果中,壓縮后的向量和不壓縮時(shí)算出“最相似結(jié)果”一樣的概率。)為指標(biāo),將TurboQuant與當(dāng)前最優(yōu)方法PQ和RabbiQ進(jìn)行了效果對(duì)比。

從下圖可以看到,不管是2 bit還是4 bit版本的TurboQuant,都在召回率指標(biāo)上持續(xù)取得了更優(yōu)表現(xiàn)。這證實(shí)了TurboQuant在高維搜索任務(wù)中的穩(wěn)健性與高效性。

同時(shí),谷歌稱,在GloVe數(shù)據(jù)集(維度d=200)(斯坦福大學(xué)發(fā)布的經(jīng)典預(yù)訓(xùn)練詞向量數(shù)據(jù)集)上,TurboQuant在與當(dāng)前多種主流先進(jìn)量化方法的對(duì)比中,展現(xiàn)出穩(wěn)健的檢索性能,并實(shí)現(xiàn)了最優(yōu)的1@k召回率。


▲TurboQuant的召回率圖(橫軸是檢索范圍,縱軸是召回率)(圖源:谷歌官網(wǎng))

由此可見(jiàn),TurboQuant在PolarQuant主體壓縮的基礎(chǔ)上,通過(guò)極低比特量化與誤差校正,使鍵值緩存的存儲(chǔ)空間顯著減少,讓模型能夠在相同硬件條件下處理更長(zhǎng)的上下文、更大的批量數(shù)據(jù),同時(shí)降低推理成本。

此外,TurboQuant的推理速度極快,精度幾乎達(dá)到無(wú)損效果,即使在超長(zhǎng)文本下其推理能力依然穩(wěn)定高效。

結(jié)語(yǔ):算法博弈下的存儲(chǔ)焦慮,企業(yè)推動(dòng)大模型“瘦身”革命

TurboQuant在谷歌的測(cè)試中表現(xiàn)出了出色的出成績(jī),它能夠以極低的內(nèi)存占用、近乎為零的預(yù)處理耗時(shí),完成大規(guī)模向量索引的構(gòu)建與查詢,這讓“谷歌級(jí)別”的語(yǔ)義搜索變得更加快速高效。

早在2025年,英偉達(dá)于在arXiv上公開(kāi)了第一版KVTC,證明它能把大模型的鍵值緩存壓縮到原來(lái)的 1/20,同時(shí)精度損失不到1%。近期,英偉達(dá)更新了實(shí)測(cè)數(shù)據(jù),稱在H100 GPU上處理8000 Token的長(zhǎng)提示時(shí),模型生成第一個(gè)詞的時(shí)間,從傳統(tǒng)方案的3秒左右,縮短至380毫秒,速度提升8倍。

科技大廠正通過(guò)持續(xù)的算法創(chuàng)新與迭代,不斷提升AI大模型的推理效率。在當(dāng)前存儲(chǔ)芯片供應(yīng)緊張的背景下,企業(yè)通過(guò)對(duì)大模型推理過(guò)程中的鍵值緩存進(jìn)行高效壓縮,來(lái)提升大模型自身的推理效率,或許可以在一定程度上緩解存儲(chǔ)芯片產(chǎn)能跟不上AI算力發(fā)展速度的局面。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
萊萬(wàn)最后1屆世界杯懸了:波蘭0-1輸球就出局

萊萬(wàn)最后1屆世界杯懸了:波蘭0-1輸球就出局

我是一個(gè)養(yǎng)蝦人
2026-03-27 01:05:31
四川多所中學(xué)發(fā)布嚴(yán)正聲明

四川多所中學(xué)發(fā)布嚴(yán)正聲明

四川省教育廳
2026-03-26 10:57:12
2001年愛(ài)子公主出生后,皇室非常失望,天皇一句話讓雅子淚流滿面

2001年愛(ài)子公主出生后,皇室非常失望,天皇一句話讓雅子淚流滿面

夜深愛(ài)雜談
2026-03-26 20:07:39
不甘心的羅玉鳳,令人敬佩

不甘心的羅玉鳳,令人敬佩

廖保平
2026-03-22 10:49:24
致敬父親,麥卡利斯特曬寸頭照:有其父必有其子

致敬父親,麥卡利斯特曬寸頭照:有其父必有其子

懂球帝
2026-03-26 16:51:21
黃金,注意!無(wú)敵掃蕩又要開(kāi)始了!

黃金,注意!無(wú)敵掃蕩又要開(kāi)始了!

楊子黃金
2026-03-26 09:06:53
穎兒太敢了!素顏曝光臉頰凹陷,做醫(yī)美全程不藏著,疼到五官扭曲

穎兒太敢了!素顏曝光臉頰凹陷,做醫(yī)美全程不藏著,疼到五官扭曲

圓夢(mèng)的小老頭
2026-03-26 21:31:03
龍年生娃的熱乎勁兒算是徹底涼了

龍年生娃的熱乎勁兒算是徹底涼了

歲月有情1314
2026-03-26 13:51:03
小波特:為了表達(dá)對(duì)科比的尊重 我必須超越阿德巴約的紀(jì)錄

小波特:為了表達(dá)對(duì)科比的尊重 我必須超越阿德巴約的紀(jì)錄

北青網(wǎng)-北京青年報(bào)
2026-03-26 09:35:35
雙方條件大曝光!伊朗不承認(rèn)在跟美國(guó)談判,卻又點(diǎn)名要跟萬(wàn)斯談

雙方條件大曝光!伊朗不承認(rèn)在跟美國(guó)談判,卻又點(diǎn)名要跟萬(wàn)斯談

鷹眼Defence
2026-03-26 16:03:32
第一集就上尺度,這部狗血神作太生猛了

第一集就上尺度,這部狗血神作太生猛了

來(lái)看美劇
2026-03-26 22:57:14
最近全網(wǎng)都在夸陳若琳長(zhǎng)得好看,我真的想說(shuō):別光看臉啊

最近全網(wǎng)都在夸陳若琳長(zhǎng)得好看,我真的想說(shuō):別光看臉啊

小光侃娛樂(lè)
2026-03-26 06:55:03
連蔡依林都在玩,“雪山救狐貍”到底是什么梗?對(duì)話視頻原創(chuàng)作者:最初只是為了賣醬板鴨,特意設(shè)置反轉(zhuǎn)劇情,沒(méi)想到會(huì)這么火

連蔡依林都在玩,“雪山救狐貍”到底是什么梗?對(duì)話視頻原創(chuàng)作者:最初只是為了賣醬板鴨,特意設(shè)置反轉(zhuǎn)劇情,沒(méi)想到會(huì)這么火

極目新聞
2026-03-25 19:37:57
國(guó)家在全力反腐,人民解放軍除統(tǒng)一大業(yè)之外,還暗藏著哪些硬仗?

國(guó)家在全力反腐,人民解放軍除統(tǒng)一大業(yè)之外,還暗藏著哪些硬仗?

李昕言溫度空間
2026-03-26 19:48:46
巴媒:德佩因在替補(bǔ)席使用手機(jī)被巴西體育司法法院起訴

巴媒:德佩因在替補(bǔ)席使用手機(jī)被巴西體育司法法院起訴

懂球帝
2026-03-27 00:17:13
謹(jǐn)以此文獻(xiàn)給 “1970~1979” 出生的人,說(shuō)好了只許看,不許哭??!

謹(jǐn)以此文獻(xiàn)給 “1970~1979” 出生的人,說(shuō)好了只許看,不許哭??!

心中的麥田
2026-03-13 21:01:14
突然爆火,一天一個(gè)價(jià)!“原來(lái)值10元,現(xiàn)在漲到500元”,網(wǎng)友:家里有好幾個(gè)呢

突然爆火,一天一個(gè)價(jià)!“原來(lái)值10元,現(xiàn)在漲到500元”,網(wǎng)友:家里有好幾個(gè)呢

中國(guó)經(jīng)濟(jì)網(wǎng)
2026-03-26 17:33:04
朝鮮權(quán)力格局再洗牌!金正恩連任背后

朝鮮權(quán)力格局再洗牌!金正恩連任背后

新浪財(cái)經(jīng)
2026-03-26 00:04:55
伊朗最高領(lǐng)袖顧問(wèn)重申結(jié)束戰(zhàn)爭(zhēng)條件

伊朗最高領(lǐng)袖顧問(wèn)重申結(jié)束戰(zhàn)爭(zhēng)條件

界面新聞
2026-03-24 15:44:17
生下畸形兒真相大白僅3月,闞清子近照曝出,擔(dān)心的事還是發(fā)生了

生下畸形兒真相大白僅3月,闞清子近照曝出,擔(dān)心的事還是發(fā)生了

小曙說(shuō)娛
2026-03-24 14:15:29
2026-03-27 01:39:00
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。
11443文章數(shù) 117016關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)發(fā)布外賣大戰(zhàn)后成績(jī)單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂(lè)要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開(kāi)啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

教育
數(shù)碼
時(shí)尚
本地
旅游

教育要聞

精準(zhǔn)研判,提質(zhì)增效丨我校召開(kāi)2026屆畢業(yè)生就業(yè)工作研判會(huì)

數(shù)碼要聞

英特爾發(fā)Q1.26版Arc Pro專業(yè)顯卡驅(qū)動(dòng),支持B70 / B65顯卡

400萬(wàn)人愛(ài)過(guò)的女孩,被黃謠網(wǎng)暴180天后

本地新聞

救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬(wàn)遍

旅游要聞

河南開(kāi)封萬(wàn)歲山武俠城,游客買300元門票:給妻子拍照被保安阻攔

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版