国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

谷歌新論文證明LLM可以少吃80%內(nèi)存,閃迪盤中跌去50億美元

0
分享至

3 月 24 日,Google Research 發(fā)布了一套名為 TurboQuant 的向量量化壓縮算法,宣稱能將大語言模型的 KV 緩存(Key-Value Cache)壓縮至僅 3 比特,同時實現(xiàn)零精度損失。

在 NVIDIA H100 GPU 上的測試中,4 比特精度的 TurboQuant 在計算注意力 logits 時取得了相比 32 位未量化基線高達 8 倍的性能提升。這篇論文將于下月在 ICLR 2026 上正式發(fā)表,第一作者 Amir Zandieh 是 Google Research 的研究科學家,通訊作者 Vahab Mirrokni 是 Google Research 副總裁兼 Google Fellow。


圖丨相關(guān)論文(來源:arXiv)

消息發(fā)布當天,資本市場給出了自己的解讀。內(nèi)存芯片廠商 SanDisk(SNDK)股價在周三交易時段下跌約 5%,收于 677.86 美元。分析師指出,TurboQuant 所代表的極端壓縮技術(shù)路線,對于一家憑借 AI 驅(qū)動的內(nèi)存需求在 2025 年股價飆漲近 196% 的芯片公司而言,構(gòu)成了直接的敘事威脅。這個市場反應或許有些過度,但華爾街的焦慮也不無道理,畢竟 KV 緩存的內(nèi)存開銷,確實已經(jīng)是 LLM 運營者賬單上最大的單項成本之一。

大語言模型在生成文本時,每處理一個 token 都需要計算并存儲一組 key 和 value 向量,以便后續(xù)生成時不必從頭重算。這些向量逐 token 累積,內(nèi)存占用隨上下文長度線性增長。

以 Llama 3 70B 參數(shù)模型為例,當并發(fā)服務 512 個請求、每個請求的 prompt 長度為 2,048 個 token 時,僅 KV 緩存就需要大約 512GB 的存儲空間,幾乎是模型權(quán)重本身所需內(nèi)存的四倍。上下文窗口越長,這個數(shù)字就越夸張。對于任何在生產(chǎn)環(huán)境中運行 LLM 的團隊來說,KV 緩存的內(nèi)存開銷早已從技術(shù)細節(jié)升級為成本核心。

傳統(tǒng)的向量量化方法確實可以壓縮 KV 緩存,把浮點數(shù)映射到低比特的整數(shù)表示,但大多數(shù)方案都面臨一個共同的尷尬:為了保證量化精度,每個數(shù)據(jù)塊都需要額外存儲一組全精度的量化常數(shù)(比如縮放因子和零點),這些常數(shù)本身會增加 1 到 2 個比特的額外開銷,相當于一邊壓縮一邊又把空間還回去。TurboQuant 瞄準的正是這個問題。

TurboQuant 本質(zhì)上是三篇論文的組合成果。第一個組件叫 PolarQuant,將在 AISTATS 2026 上發(fā)表。它的核心思路是對輸入向量做一次隨機旋轉(zhuǎn),將數(shù)據(jù)從標準的笛卡爾坐標系轉(zhuǎn)換到極坐標系。傳統(tǒng)量化方法在笛卡爾坐標下工作,需要為每個數(shù)據(jù)塊單獨計算歸一化參數(shù),而極坐標變換后,向量被分解為一個半徑(代表信號強度)和一組角度(代表方向信息)。

關(guān)鍵在于,旋轉(zhuǎn)后每個坐標的分布會收斂到一個已知的 Beta 分布(高維下近似高斯分布),且不同坐標之間近似獨立。這意味著可以對每個坐標獨立地使用最優(yōu)的標量量化器(通過經(jīng)典的 Lloyd-Max 算法求解連續(xù)一維 k-means 問題),不再需要存儲逐塊的量化常數(shù),從根本上消除了傳統(tǒng)方法的內(nèi)存開銷。

第二個組件是 QJL(Quantized Johnson-Lindenstrauss,量化 JL 變換),已于 AAAI 2025 發(fā)表。QJL 利用經(jīng)典的 Johnson-Lindenstrauss 變換將高維數(shù)據(jù)降維,同時把每個結(jié)果值壓到只剩一個符號位(+1 或 -1),整個過程零額外內(nèi)存開銷。它的價值在于提供無偏的內(nèi)積估計,這對注意力計算至關(guān)重要。

TurboQuant 將兩者組合成一個兩階段流水線:先用 PolarQuant 以 b-1 比特的精度完成主體壓縮,吃掉絕大部分誤差;再對殘差(主體壓縮后剩余的微小誤差)施加 1 比特的 QJL 變換,消除內(nèi)積估計中的偏差。論文從信息論角度證明,這種組合方案的失真率與 Shannon 下界之間只差一個約 2.7 的常數(shù)因子。換句話說,TurboQuant 在理論上已經(jīng)非常接近任何壓縮算法所能達到的最優(yōu)邊界。

實驗結(jié)果的亮點集中在幾個方面。在“大海撈針”(Needle-in-a-Haystack)測試中,TurboQuant 在將 KV 緩存壓縮至少 6 倍的情況下,取得了與未壓縮基線完全一致的 0.997 分,而此前廣泛使用的 KIVI 方法在同等壓縮條件下得分為 0.981,SnapKV 和 PyramidKV 等 token 級剪枝方案的表現(xiàn)則更弱。

在 LongBench 基準上,覆蓋問答、摘要、代碼補全和 few-shot 學習等任務,3.5 比特的 TurboQuant 在 Llama-3.1-8B-Instruct 上取得了 50.06 的平均分,與 16 比特全精度緩存的 50.06 持平;即便壓到 2.5 比特,平均分也只微降至 49.44。


圖丨大海撈針基準測試結(jié)果(來源:arXiv)

在向量搜索場景中,TurboQuant 同樣表現(xiàn)突出。研究團隊在 GloVe(200 維)和 OpenAI 嵌入(1536 維、3072 維)數(shù)據(jù)集上將其與 Product Quantization(PQ)和 RabitQ 做了對比。TurboQuant 在各個維度和比特精度下的 1@k 召回率均優(yōu)于兩個基線,且完全不需要離線構(gòu)建碼本,PQ 需要 37 秒的碼本構(gòu)建時間(200 維、4 比特),RabitQ 需要 597 秒,TurboQuant 只需 0.0007 秒,幾乎可以忽略。這意味著它天然適合數(shù)據(jù)持續(xù)更新的在線索引場景。


圖丨GloVe 數(shù)據(jù)集(d=200)基準測試結(jié)果(來源:Google Researc)

值得一提的是,近期英偉達發(fā)布的 KVTC(KV Cache Transform Coding)也致力于這一方向(同樣被 ICLR 2026 接收),且宣稱可達 20 倍壓縮,精度損失控制在 1 個百分點以內(nèi)。不過兩者嚴格來說解決的是不同環(huán)節(jié)的問題。

TurboQuant 是向量量化路線,目標是在推理過程中即時把 KV cache 壓到低比特,然后直接用量化后的數(shù)據(jù)計算注意力,同時還兼顧向量搜索場景。 KVTC 走的是變換編碼路線,借鑒 JPEG 圖像壓縮的思路:先用 PCA 去相關(guān),再做自適應量化,最后用 DEFLATE 熵編碼進一步壓縮。它更側(cè)重于 KV cache 的緊湊存儲與傳輸,典型場景是多輪對話之間把 cache 卸載到 CPU 或 SSD 再恢復,或者跨請求復用 cache。

NVIDIA 研究員 Adrian Lancucki 在接受 VentureBeat 采訪時也明確表示,KVTC 針對的是長上下文、多輪對話場景。相比較而言,TurboQuant則針對的是推理計算路徑上的實時壓縮。

在此之前,KV 緩存量化領(lǐng)域的標準基線是 2024 年發(fā)表于 ICML 的 KIVI,它引入了非對稱 2 比特量化方案,實現(xiàn)了約 2.6 倍的內(nèi)存壓縮。KIVI 已經(jīng)集成進了 HuggingFace Transformers,是目前部署最廣泛的方案之一。TurboQuant 在同類向量量化路線上直接把壓縮比從 2.6 倍拉到 6 倍以上,且不需要任何校準數(shù)據(jù),進步幅度相當明顯。

需要指出的是,TurboQuant 論文中的實驗模型規(guī)模止步于 8B 參數(shù)左右(Llama-3.1-8B-Instruct、Ministral-7B-Instruct),尚未在 70B 或更大規(guī)模的模型上驗證。而恰恰是在這些大模型上,KV 緩存的壓縮才最迫切、收益也最大。

另外,這篇論文最早于 2025 年 4 月就出現(xiàn)在 arXiv 上,到現(xiàn)在快一年了,谷歌也沒有公布官方的代碼實現(xiàn)或與現(xiàn)有推理框架(如 vLLM、TensorRT-LLM)的集成計劃,雖然社區(qū)已經(jīng)出現(xiàn)了基于 Triton、MLX 和 llama.cpp 的第三方實現(xiàn)嘗試。

Mirrokni 團隊此前的 Titans 架構(gòu)和 Nested Learning 范式也是類似情況,論文效果亮眼,學術(shù)社區(qū)討論熱烈,但官方代碼始終沒有釋出,落地全靠第三方復現(xiàn)。TurboQuant 是否會重復這個模式,目前還不好說。

從這一點上來說,內(nèi)存股價跌得可能有點太早了,更何況,AI 模型對內(nèi)存的胃口,總是會迅速膨脹到填滿所有可用空間。SemiAnalysis 此前在分析 HBM 發(fā)展路線時提過一個觀察,可以叫“內(nèi)存帕金森定律”:每一輪硬件升級或軟件優(yōu)化釋放出來的余量,很快就會被更長的上下文窗口、更大的批處理規(guī)模、更復雜的推理管線吞掉。

所以,TurboQuant 省下來的那 5 倍內(nèi)存,大概率不會讓 GPU 閑著,它會被用來服務更多并發(fā)請求、處理更長的文檔,或者跑原本塞不下的大模型。壓縮技術(shù)擴大的是推理效率的供給側(cè),不是在縮減內(nèi)存的需求總量。

參考資料:

1.https://arxiv.org/pdf/2504.19874

2.https://arxiv.org/pdf/2511.01815

3.https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
新中國十位國家級女領(lǐng)導人

新中國十位國家級女領(lǐng)導人

祁州校尉
2026-04-11 09:00:31
A股:股民做好準備了,下周一,4月13日,很可能將迎來更大的轉(zhuǎn)變

A股:股民做好準備了,下周一,4月13日,很可能將迎來更大的轉(zhuǎn)變

丁丁鯉史紀
2026-04-11 10:55:54
24小時連收6大噩耗:以色列天塌了,內(nèi)塔尼亞胡或被關(guān)進大牢!

24小時連收6大噩耗:以色列天塌了,內(nèi)塔尼亞胡或被關(guān)進大牢!

咣當?shù)厍?/span>
2026-04-11 12:04:13
謝娜回應直播裙子被踩掉:幸好只掉了一半,臺上那首歌還叫《一半一半》,綜藝之神真的很會找我??;此前黃燦燦道歉,謝娜稱等你一起縫裙子

謝娜回應直播裙子被踩掉:幸好只掉了一半,臺上那首歌還叫《一半一半》,綜藝之神真的很會找我啊;此前黃燦燦道歉,謝娜稱等你一起縫裙子

極目新聞
2026-04-11 17:39:58
時隔半世紀人類再出發(fā),美國繞月展示的技術(shù)差距,中國必須正視

時隔半世紀人類再出發(fā),美國繞月展示的技術(shù)差距,中國必須正視

無人傾聽無人傾聽
2026-04-10 22:43:33
政變只是一個開始,伊朗要變天了,中國最擔心的事情,恐將發(fā)生

政變只是一個開始,伊朗要變天了,中國最擔心的事情,恐將發(fā)生

阿坹武器裝備科普
2026-04-11 18:32:07
三天閃電訪華!蘇林急得直跺腳,東南亞集體掉頭靠向中國

三天閃電訪華!蘇林急得直跺腳,東南亞集體掉頭靠向中國

靚仔情感
2026-04-11 13:33:24
73歲的普京恐怕沒想到,和烏克蘭打了四年,最支持他的反而是這國

73歲的普京恐怕沒想到,和烏克蘭打了四年,最支持他的反而是這國

小小科普員
2026-04-10 16:37:53
知名網(wǎng)站宣布:即將停止服務!趕緊備份,退費

知名網(wǎng)站宣布:即將停止服務!趕緊備份,退費

環(huán)球網(wǎng)資訊
2026-04-10 13:35:16
正式達標!你好,倫納德!戰(zhàn)神卡重現(xiàn)NBA

正式達標!你好,倫納德!戰(zhàn)神卡重現(xiàn)NBA

籃球?qū)崙?zhàn)寶典
2026-04-11 16:54:45
震驚!網(wǎng)傳山東梁山一女子聚集多人威逼男方給20萬彩禮,眾人圍觀

震驚!網(wǎng)傳山東梁山一女子聚集多人威逼男方給20萬彩禮,眾人圍觀

火山詩話
2026-04-11 06:41:36
守好錢袋子!2026年5月開始,存款30萬以上的家庭要注意了

守好錢袋子!2026年5月開始,存款30萬以上的家庭要注意了

墜入二次元的海洋
2026-04-11 13:19:45
11.2萬噸航母將登場,或搭載75架隱身戰(zhàn)機,俄:至少領(lǐng)先世界20年

11.2萬噸航母將登場,或搭載75架隱身戰(zhàn)機,俄:至少領(lǐng)先世界20年

聞識
2026-04-10 16:52:47
中國第一巨人鮑喜順:不聽醫(yī)生勸告非要生子,現(xiàn)在兒子長到多高?

中國第一巨人鮑喜順:不聽醫(yī)生勸告非要生子,現(xiàn)在兒子長到多高?

汪巗的創(chuàng)業(yè)之路
2026-04-11 07:15:22
廣西人口首次跌破5千萬!柳州南寧等14城,樓市迎來新大考

廣西人口首次跌破5千萬!柳州南寧等14城,樓市迎來新大考

柳州樓市觀察
2026-04-11 16:27:02
掘金11連勝送湖人進火坑!殘陣贏球,卻讓火箭偷笑

掘金11連勝送湖人進火坑!殘陣贏球,卻讓火箭偷笑

番茄體壇
2026-04-11 15:59:28
教育部通知!9月入學迎來顛覆性改革,孩子上學不用再拼家底了

教育部通知!9月入學迎來顛覆性改革,孩子上學不用再拼家底了

今朝牛馬
2026-04-10 22:35:42
53條中日航線3月取消全部航班

53條中日航線3月取消全部航班

每日經(jīng)濟新聞
2026-04-10 13:01:04
?;鸬谝惶欤毡敬蝽懺疄醯谝粯?,不到24小時,普京就給了下馬威

停火第一天,日本打響援烏第一槍,不到24小時,普京就給了下馬威

面包夾知識
2026-04-11 17:31:50
浙江一對老夫妻收廢品,在河邊撿到奇特“鐵疙瘩”,果斷上交!民警一查:竟是千年寶貝

浙江一對老夫妻收廢品,在河邊撿到奇特“鐵疙瘩”,果斷上交!民警一查:竟是千年寶貝

臺州交通廣播
2026-04-11 15:00:56
2026-04-11 19:55:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16567文章數(shù) 514863關(guān)注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

美國否認同意解凍伊朗資產(chǎn) 巴官員:美方急了 伊朗不急

頭條要聞

美國否認同意解凍伊朗資產(chǎn) 巴官員:美方急了 伊朗不急

體育要聞

換帥之后,他們從降級區(qū)沖到升級區(qū)

娛樂要聞

浪姐7淘汰 該走的沒走,不該走的走了

財經(jīng)要聞

從日本翻身看:這次誰能扛住高油價?

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

房產(chǎn)
健康
旅游
數(shù)碼
軍事航空

房產(chǎn)要聞

土地供應突然暴跌!2026??跇鞘校窬执笞?!

干細胞抗衰4大誤區(qū),90%的人都中招

旅游要聞

千城百縣看中國·賞花季|福建華安:繡球花開映山鄉(xiāng)

數(shù)碼要聞

消息稱華擎將推X870E Taichi White,補全AMD白色旗艦主板缺失

軍事要聞

伊朗議長帶四名遇難兒童照片赴美伊談判

無障礙瀏覽 進入關(guān)懷版