国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

谷歌新算法讓AI對話內(nèi)存暴降83%,手機(jī)跑大模型成真?

0
分享至

把一臺服務(wù)器才能扛得動(dòng)的AI對話系統(tǒng),塞進(jìn)一部普通手機(jī)的內(nèi)存里——這聽起來像是工程師的狂想,但谷歌最新公開的TurboQuant算法,正在把這個(gè)場景往現(xiàn)實(shí)拉近一大步。這家公司聲稱,他們的新技術(shù)能讓聊天機(jī)器人在對話時(shí)占用的工作內(nèi)存驟降到原來的六分之一,同時(shí)不損失任何性能。

六分之一是什么概念?假設(shè)你現(xiàn)在用的是一部12GB內(nèi)存的旗艦手機(jī),過去它根本帶不動(dòng)一個(gè)像樣的本地大模型;按谷歌的說法,同樣的硬件現(xiàn)在能騰出空間來干別的事,或者干脆讓中端機(jī)型也能流暢運(yùn)行復(fù)雜的AI對話。這背后的技術(shù)細(xì)節(jié),值得拆開看看。


AI的"短期記憶"有多占地方

要理解這個(gè)突破的意義,得先搞清楚AI對話時(shí)到底在消耗什么資源。

當(dāng)前的大語言模型——無論是ChatGPT、Claude還是谷歌自家的Gemini——在生成回答時(shí)都需要一塊叫"KV緩存"(Key-Value Cache)的工作區(qū)域。你可以把它想象成人類的短期記憶:當(dāng)你問"明天我這兒天氣怎么樣",模型會臨時(shí)存下"天氣""明天""你的位置"這些關(guān)鍵詞,還有中間猜測比如"可能會下雨",一邊回憶上下文一邊組織語言。

這些臨時(shí)信息以"token"為單位存儲。一個(gè)token大概對應(yīng)英文的半個(gè)單詞或中文的一個(gè)字,一句簡單的話可能只用幾十個(gè)token。但復(fù)雜的對話、長文檔分析、代碼生成,動(dòng)輒需要追蹤幾十萬token的上下文。谷歌的資料顯示,存儲這么多token的KV緩存,可能需要幾十GB的內(nèi)存。

更麻煩的是,這個(gè)內(nèi)存需求隨用戶數(shù)量線性增長。ChatGPT每天接收數(shù)十億次請求,每個(gè)請求背后都是一塊不小的KV緩存。這就是為什么你用手機(jī)訪問AI服務(wù)時(shí),實(shí)際運(yùn)算往往發(fā)生在云端數(shù)據(jù)中心——本地設(shè)備根本塞不下這堆"短期記憶"。

壓縮不是新鮮事,實(shí)時(shí)壓縮才是

減少數(shù)據(jù)體積的技術(shù),計(jì)算機(jī)領(lǐng)域早就有了。谷歌自己也在神經(jīng)網(wǎng)絡(luò)里用了多年"量化"(quantization)技術(shù),簡單說就是把原本用很多位(bit)表示的數(shù)值,換成用更少位表示,文件自然就小了。

但過去的量化通常是"靜態(tài)"的:模型訓(xùn)練或部署前壓縮一次,之后固定不變。TurboQuant的突破在于"動(dòng)態(tài)"——它在模型運(yùn)行過程中實(shí)時(shí)壓縮KV緩存,而且必須保證壓縮后的數(shù)據(jù)仍然準(zhǔn)確、隨時(shí)可更新。

這有點(diǎn)像一邊高速開車一邊換輪胎。AI生成回答的速度極快,每毫秒都在產(chǎn)生新token、更新緩存;TurboQuant得在這個(gè)過程中持續(xù)把新數(shù)據(jù)壓小,同時(shí)讓模型隨時(shí)能調(diào)取歷史信息而不失真。谷歌沒公開具體技術(shù)細(xì)節(jié),但提到了兩種方法的名字:PolarQuant和Quantized Johnson-Lindenstrauss(QJL)。

Johnson-Lindenstrauss引理是數(shù)學(xué)中一個(gè)經(jīng)典結(jié)果,大意是高維空間里的點(diǎn)集可以被投影到低維空間,同時(shí)大致保持點(diǎn)之間的距離關(guān)系。把它用在AI緩存上,可能意味著用更少的位數(shù)來近似表示原本龐大的向量數(shù)據(jù),而不丟失關(guān)鍵信息。PolarQuant的具體機(jī)制則未在公開材料中說明。

實(shí)測數(shù)據(jù)與"不犧牲性能"的承諾

谷歌在聲明中給出了測試范圍:Meta的Llama 3.1-8B、谷歌自家的Gemma,以及Mistral的模型。這些都是當(dāng)前開源社區(qū)最活躍的中等規(guī)模模型,參數(shù)量在80億級別,正好是邊緣設(shè)備可能承載的上限。

公司代表稱,TurboQuant在測試中"顯示出巨大潛力,能在不犧牲AI模型性能的前提下減少鍵值瓶頸"。這句話的措辭值得注意——"顯示出巨大潛力"(showed great promise)是進(jìn)展描述,不是終結(jié)論證;"不犧牲性能"(without sacrificing performance)是目標(biāo)宣稱,具體測試指標(biāo)未公開。

壓縮六倍后的模型,在標(biāo)準(zhǔn)評測基準(zhǔn)上是否保持了同樣的準(zhǔn)確率、響應(yīng)速度、多輪對話連貫性?谷歌沒有發(fā)布詳細(xì)技術(shù)論文,這些細(xì)節(jié)暫時(shí)無法核實(shí)。這也是業(yè)界對"突破性進(jìn)展"聲明的常規(guī)審慎態(tài)度:等獨(dú)立復(fù)現(xiàn),等同行評議。

為什么是搜索和AI"尤其"相關(guān)

谷歌代表在聲明末尾加了一句:"這對所有依賴壓縮的用例都有潛在深遠(yuǎn)影響,包括并在搜索和AI領(lǐng)域尤其如此。"

這個(gè)"尤其"耐人尋味。搜索是谷歌的核心業(yè)務(wù),而AI正在重塑搜索的產(chǎn)品形態(tài)——從傳統(tǒng)的"十條藍(lán)色鏈接"轉(zhuǎn)向直接生成答案的對話式界面。但生成式搜索的成本結(jié)構(gòu)很頭疼:每回答一個(gè)問題,模型都要維持龐大的KV緩存來理解查詢意圖、檢索相關(guān)信息、組織連貫回應(yīng)。

如果TurboQuant能把這部分內(nèi)存開銷砍掉六分之五,理論上意味著:同樣數(shù)量的服務(wù)器能支撐更多并發(fā)用戶,或者同樣的服務(wù)質(zhì)量可以用更便宜的硬件實(shí)現(xiàn)。對于每天處理數(shù)十億次查詢的搜索引擎,這種效率提升的商業(yè)價(jià)值不言而喻。

更長遠(yuǎn)地看,它可能改變AI服務(wù)的部署模式,F(xiàn)在的AI應(yīng)用大致分兩派:云端派追求最大能力,把重運(yùn)算扔給數(shù)據(jù)中心;本地派追求隱私和響應(yīng)速度,但受限于設(shè)備性能。TurboQuant如果屬實(shí),可能讓"中間路線"變得可行——復(fù)雜模型部分運(yùn)行在云端,部分下沉到手機(jī)、PC甚至物聯(lián)網(wǎng)設(shè)備,根據(jù)場景動(dòng)態(tài)分配。

與DeepSeek時(shí)刻的類比,以及其中的跳躍

一些報(bào)道把TurboQuant稱為谷歌的"DeepSeek時(shí)刻",指的是今年初中國公司DeepSeek以極低成本訓(xùn)練出高性能模型的沖擊。但這個(gè)類比需要拆解。

DeepSeek的核心敘事是"訓(xùn)練效率"——用更少的GPU、更低的預(yù)算,達(dá)到接近OpenAI頂尖模型的水平。這直接挑戰(zhàn)了"AI能力=算力堆砌"的行業(yè)共識,引發(fā)美股AI芯片板塊震蕩。

TurboQuant解決的是"推理效率"——模型已經(jīng)訓(xùn)練好了,怎么讓它在實(shí)際使用時(shí)更省資源。這是產(chǎn)業(yè)鏈的不同環(huán)節(jié):訓(xùn)練是一次性的大額投資,推理是持續(xù)運(yùn)營的日常開銷。兩者都重要,但技術(shù)路徑和商業(yè)影響不盡相同。

更關(guān)鍵的是,DeepSeek的進(jìn)展有公開的技術(shù)論文和可下載的模型權(quán)重供驗(yàn)證;TurboQuant目前只有谷歌的聲明和有限的測試披露。把兩者并列,可能高估了前者的完成度,也可能低估了后者需要的獨(dú)立驗(yàn)證。

量化技術(shù)的邊界與未解問題

即便TurboQuant的效果屬實(shí),壓縮六倍是否就是終點(diǎn)?很可能不是。

量化本質(zhì)是用近似換取效率。壓縮比例越高,信息損失的風(fēng)險(xiǎn)越大。谷歌強(qiáng)調(diào)"不犧牲性能",但"性能"的定義很靈活:是下一個(gè)token預(yù)測的準(zhǔn)確率?是長文本理解的連貫性?是多輪對話中不遺忘關(guān)鍵細(xì)節(jié)的能力?不同場景對"可接受的損失"有不同標(biāo)準(zhǔn)。

此外,TurboQuant目前公開的測試集中在80億參數(shù)級別的模型。更大規(guī)模的模型——比如千億參數(shù)的GPT-4級別系統(tǒng)——是否適用同樣的壓縮比例,尚未可知。大模型的KV緩存結(jié)構(gòu)更復(fù)雜,實(shí)時(shí)量化的計(jì)算開銷本身也可能成為新瓶頸。

還有一個(gè)未被提及的維度:能耗。內(nèi)存減少通常意味著功耗降低,這對移動(dòng)設(shè)備是好消息。但實(shí)時(shí)量化需要持續(xù)的計(jì)算投入,這筆賬怎么算,谷歌沒有給出數(shù)據(jù)。

對普通用戶意味著什么,以及什么時(shí)候能感知

如果你不是AI工程師或云服務(wù)商采購經(jīng)理,這項(xiàng)技術(shù)可能以幾種間接方式影響你的日常。

短期內(nèi),最可見的變化可能是AI服務(wù)的響應(yīng)速度和可用性。如果谷歌把TurboQuant部署到自家的Gemini和搜索產(chǎn)品中,高峰時(shí)段的排隊(duì)等待可能減少,或者免費(fèi) tier 的使用額度可能放寬。這些改進(jìn)很難歸因到單一技術(shù),但效率提升的累積效應(yīng)會體現(xiàn)在產(chǎn)品體驗(yàn)里。

中期看,它可能加速"端側(cè)AI"的普及。蘋果、高通、聯(lián)發(fā)科都在推主打AI算力的手機(jī)芯片,但硬件能力需要軟件配合。更高效的緩存管理,意味著同樣的芯片能跑更復(fù)雜的模型,或者同樣的模型能跑得更流暢。未來一兩年內(nèi),你手機(jī)里的語音助手、實(shí)時(shí)翻譯、圖像生成工具,可能因此變得更可用。

長期而言,它關(guān)系到AI服務(wù)的成本結(jié)構(gòu)和經(jīng)濟(jì)可持續(xù)性。當(dāng)前大模型的運(yùn)營成本高得驚人,OpenAI、Anthropic等公司的虧損規(guī)模是公開秘密。如果推理成本能系統(tǒng)性下降,訂閱價(jià)格可能下調(diào),免費(fèi)服務(wù)的質(zhì)量可能提升,或者至少——漲價(jià)的壓力會小一些。

一個(gè)需要保持的清醒

技術(shù)聲明和實(shí)際落地之間,往往隔著漫長的工程驗(yàn)證。谷歌有動(dòng)機(jī)在這個(gè)時(shí)點(diǎn)強(qiáng)調(diào)效率突破:一方面回應(yīng)DeepSeek帶來的成本焦慮,另一方面在Gemini與ChatGPT的競爭中塑造技術(shù)領(lǐng)先形象。

但"六倍壓縮"是一個(gè)可以被獨(dú)立測量的承諾。接下來的幾個(gè)月,關(guān)鍵看兩點(diǎn):一是谷歌是否會發(fā)布技術(shù)論文,接受學(xué)術(shù)界的 scrutiny;二是開源社區(qū)能否在公開模型上復(fù)現(xiàn)類似效果。如果兩者都發(fā)生,TurboQuant確實(shí)可能成為AI基礎(chǔ)設(shè)施的一個(gè)轉(zhuǎn)折點(diǎn);如果遲遲未見,它可能淪為又一份被過度解讀的企業(yè)新聞稿。

對于習(xí)慣在各類"突破"標(biāo)題中保持警惕的讀者,最穩(wěn)妥的態(tài)度或許是:這是一個(gè)值得關(guān)注的技術(shù)方向,但還不是可以下結(jié)論的成品。AI的效率革命正在多個(gè)維度同時(shí)發(fā)生,TurboQuant是其中一塊拼圖——重要,但不必急于賦予它改變一切的重量。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗公布打擊美軍艦視頻,導(dǎo)彈上貼著陣亡士兵照片,寫著“波斯灣是美軍墓地”!特朗普:只是小打小鬧,全都防住了

伊朗公布打擊美軍艦視頻,導(dǎo)彈上貼著陣亡士兵照片,寫著“波斯灣是美軍墓地”!特朗普:只是小打小鬧,全都防住了

每日經(jīng)濟(jì)新聞
2026-05-08 14:16:29
日高層訪華無果,高市萌生大膽想法:親自訪問中國!中方態(tài)度堅(jiān)決

日高層訪華無果,高市萌生大膽想法:親自訪問中國!中方態(tài)度堅(jiān)決

阿胂是吃瓜群眾
2026-05-08 11:17:33
美3艘軍艦成功駛出海峽、伊朗沒攔住,川普稱不簽協(xié)議就繼續(xù)打

美3艘軍艦成功駛出海峽、伊朗沒攔住,川普稱不簽協(xié)議就繼續(xù)打

邵旭峰域
2026-05-08 10:02:59
五個(gè)水兵死在英格蘭,清廷花15英鎊買地下葬,這塊地如今還屬中國

五個(gè)水兵死在英格蘭,清廷花15英鎊買地下葬,這塊地如今還屬中國

飯小妹說歷史
2026-05-07 08:56:08
歷史第一!詹姆斯迎季后賽300場里程碑 前十榜唯一現(xiàn)役球員

歷史第一!詹姆斯迎季后賽300場里程碑 前十榜唯一現(xiàn)役球員

醉臥浮生
2026-05-08 09:18:21
女子高反被救醒后反手打救命人一耳光,本人回應(yīng)毀三觀,網(wǎng)友怒罵

女子高反被救醒后反手打救命人一耳光,本人回應(yīng)毀三觀,網(wǎng)友怒罵

南城無雙
2026-05-07 09:24:42
隨著維拉4-1,英超成為本賽季歐戰(zhàn)最大贏家:3隊(duì)打入決賽

隨著維拉4-1,英超成為本賽季歐戰(zhàn)最大贏家:3隊(duì)打入決賽

側(cè)身凌空斬
2026-05-08 05:05:19
美議員:感謝中方

美議員:感謝中方

觀察者網(wǎng)
2026-05-08 08:29:30
你以為麻豆傳媒是賣片的,其實(shí)它是賣人的

你以為麻豆傳媒是賣片的,其實(shí)它是賣人的

創(chuàng)始人筆記
2026-04-23 21:44:50
汕頭、揭陽、潮州市委書記相繼觀看這部9.0分潮汕本土電影

汕頭、揭陽、潮州市委書記相繼觀看這部9.0分潮汕本土電影

澎湃新聞
2026-05-08 10:54:35
好日子到頭了?許家印背后的"保護(hù)傘",終于被重罰了

好日子到頭了?許家印背后的"保護(hù)傘",終于被重罰了

瀲滟晴方DAY
2026-05-07 12:12:51
伊朗導(dǎo)彈再次砸向阿聯(lián)酋!蝴蝶效應(yīng)開始,美國出現(xiàn)巨頭破產(chǎn)

伊朗導(dǎo)彈再次砸向阿聯(lián)酋!蝴蝶效應(yīng)開始,美國出現(xiàn)巨頭破產(chǎn)

說歷史的老牢
2026-05-07 14:51:15
倫敦世乒賽爆冷!乒乓名將怒摔球拍,痛哭退賽,孫穎莎的話真沒錯(cuò)

倫敦世乒賽爆冷!乒乓名將怒摔球拍,痛哭退賽,孫穎莎的話真沒錯(cuò)

國際阿嘗
2026-05-08 10:36:24
一場120-107讓西部季后賽大亂!雷霆巨星傷退,湖人沖擊決賽有望

一場120-107讓西部季后賽大亂!雷霆巨星傷退,湖人沖擊決賽有望

小青年淥淥
2026-05-07 23:01:19
國乒男隊(duì)破釜沉舟!溫瑞博火速上位成第三人,斷代計(jì)劃真要來了?

國乒男隊(duì)破釜沉舟!溫瑞博火速上位成第三人,斷代計(jì)劃真要來了?

體壇亦說
2026-05-08 12:34:17
董明珠尷尬了,家電3巨頭中,格力已墊底,離小米也越來越遠(yuǎn)了

董明珠尷尬了,家電3巨頭中,格力已墊底,離小米也越來越遠(yuǎn)了

互聯(lián)網(wǎng).亂侃秀
2026-05-05 15:58:41
Anthropic考慮以近萬億美元估值達(dá)成交易

Anthropic考慮以近萬億美元估值達(dá)成交易

財(cái)聯(lián)社
2026-05-08 12:22:04
爭議!鄭欽文委屈落淚:向裁判抗議安保人員亂走動(dòng) 反遭對方回懟

爭議!鄭欽文委屈落淚:向裁判抗議安保人員亂走動(dòng) 反遭對方回懟

風(fēng)過鄉(xiāng)
2026-05-07 19:49:48
王小騫也沒想到,患上矮小癥的女兒,會在自己52歲這年迎來逆襲

王小騫也沒想到,患上矮小癥的女兒,會在自己52歲這年迎來逆襲

流云隨風(fēng)去遠(yuǎn)方
2026-05-08 12:21:02
中印泰馬集體說不 !國際足聯(lián)緊急訪華,央視死守底線 贊助商急了

中印泰馬集體說不 !國際足聯(lián)緊急訪華,央視死守底線 贊助商急了

影像溫度
2026-05-07 10:26:34
2026-05-08 14:59:00
冷知識挖掘機(jī)21
冷知識挖掘機(jī)21
有態(tài)度網(wǎng)友ytd
21文章數(shù) 0關(guān)注度
往期回顧 全部

科技要聞

階躍星辰將完成25億美元融資 加速赴港IPO

頭條要聞

毒梟留下的80頭河馬被捕殺前獲救 亞洲富豪:我全要了

頭條要聞

毒梟留下的80頭河馬被捕殺前獲救 亞洲富豪:我全要了

體育要聞

巴黎再進(jìn)歐冠決賽,最尷尬的情況還是發(fā)生了

娛樂要聞

古天樂被曝隱婚生子,新娘竟是她

財(cái)經(jīng)要聞

一覺醒來,美伊又打起來了

汽車要聞

雷克薩斯全新純電三排SUV 全新TZ全球首發(fā)

態(tài)度原創(chuàng)

旅游
藝術(shù)
本地
公開課
軍事航空

旅游要聞

戶外玩水切莫大意 這些安全細(xì)節(jié)一定要牢記

藝術(shù)要聞

探索施密德的油畫,感受無法抵擋的藝術(shù)魅力!

本地新聞

用蘇繡的方式,打開江西婺源

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗:最高領(lǐng)袖穆杰塔巴全面掌控局勢

無障礙瀏覽 進(jìn)入關(guān)懷版