網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Jeff Dean新訪談：未來開發(fā)者人均50個(gè)智能體，寫需求成核心技能

2026-03-10 15:12:54　來源: 量子位

北京舉報(bào)

分享至

谷歌首席AI科學(xué)家、傳奇工程師Jeff Dean，在最新訪談中放出了一個(gè)炸裂預(yù)言：

未來每個(gè)工程師可能會(huì)各自管理50個(gè)智能體實(shí)習(xí)生，完成大量并行任務(wù)，而且溝通效率會(huì)比人更高效。

未來最重要的技能將會(huì)是“寫清楚需求”，因?yàn)锳gent的輸出質(zhì)量完全取決于你如何定義問題。

好家伙，那以后豈不是……寫需求比寫代碼還重要？

Jeff Dean還揭秘了谷歌目前遵循的帕累托前沿策略，新模型的推出主要有兩條路線：

一方面是高端前沿模型，用于深度推理、復(fù)雜數(shù)學(xué)問題等高難任務(wù)；

另一方面是高性價(jià)比模型，用于低延遲場景，比如更流暢的Agent式編程。

想必大家都知道了，Gemini 3 Flash能做到又快又智能，最大的秘訣就在于蒸餾

Jeff Dean在這期訪談中親口認(rèn)證：通過蒸餾，小模型可以非常接近大模型性能

他們讓小模型在大量訓(xùn)練數(shù)據(jù)上多次迭代學(xué)習(xí)，同時(shí)利用大模型輸出的logits信息，讓小模型學(xué)到更細(xì)膩的行為。

這就是為什么Gemini能夠做到“下一代Flash ≈ 上一代Pro，甚至更好”。并且他也透露，谷歌內(nèi)部會(huì)持續(xù)推進(jìn)這條路線

另外，Jeff Dean非常相信“低延遲”的價(jià)值：他認(rèn)為如果延遲降低20-50倍，用戶體驗(yàn)會(huì)徹底改變。

他還指出，內(nèi)部一開始就希望Gemini是個(gè)多模態(tài)模型，但多模態(tài)不只是文本、圖像、視頻、音頻這些，讓模型理解“非人類”的模態(tài)同樣非常有用。

比如Waymo車輛的LIDAR傳感器數(shù)據(jù)，或者機(jī)器人數(shù)據(jù)、醫(yī)療影像數(shù)據(jù)等等。未來可能有數(shù)百種模態(tài)。

AI生成

在這期訪談中，你還可以了解到：

Jeff Dean早在幾十年前就堅(jiān)信規(guī)?；K將取勝，以及“更大的模型、更多的數(shù)據(jù)、更好的結(jié)果”這一信條，這一信條持續(xù)了15年；
LLM訓(xùn)練與推理不僅關(guān)心計(jì)算量，也關(guān)心數(shù)據(jù)搬運(yùn)成本；對硬件優(yōu)化、batch size、延遲、吞吐量的設(shè)計(jì)，都可以用能量消耗作為第一性原則衡量；
TPU和ML研究團(tuán)隊(duì)必須緊密互動(dòng)、協(xié)同設(shè)計(jì)，硬件設(shè)計(jì)需預(yù)測未來2–6年的模型趨勢；
Gemini早期資源太分散，Jeff Dean稱“這是愚蠢的”；
Jeff Dean給出兩個(gè)預(yù)測：未來真正“個(gè)性化”的模型會(huì)極其重要，以及低延遲會(huì)改變很多應(yīng)用場景

以下為本場訪談重點(diǎn)內(nèi)容實(shí)錄，圍繞核心觀點(diǎn)做了摘選整理，部分文字在不改變原意的基礎(chǔ)上做了適度刪改，enjoy！

蒸餾是Flash模型突破的關(guān)鍵

Shawn Wang：首先得說一句，恭喜你們占據(jù)了帕累托前沿。

（編者注：帕累托前沿描述的是多個(gè)目標(biāo)之間權(quán)衡時(shí)的最優(yōu)解集合。此處指谷歌既能推出高性能的前沿模型，又能推出低成本、低延遲的高性價(jià)比模型，在性能 vs 成本/延遲這兩個(gè)維度上已經(jīng)達(dá)到了最優(yōu)權(quán)衡狀態(tài)）

Jeff Dean：謝謝。能站在帕累托前沿當(dāng)然是好事。

Shawn Wang：是的。我覺得你們做的不只是追求最強(qiáng)能力，還同時(shí)兼顧效率，真正“擁有”了帕累托前沿——既有頂級性能，也有成本與效率控制，還提供了完整的模型梯度供用戶選擇。

這里面有一部分來自你們的硬件工作，一部分來自模型設(shè)計(jì)，還有很多長期積累的“秘密武器”?？吹竭@一切整合起來，確實(shí)令人印象深刻。

Jeff Dean：確實(shí)，這不是單一因素，而是從硬件到軟件、從系統(tǒng)到模型的全棧協(xié)同。

所有這些結(jié)合在一起，才能既做出能力極強(qiáng)的大模型，也能通過軟件技術(shù)把這些能力“壓縮”到更小、更輕量、更低成本、更低延遲的模型里，同時(shí)仍然保持相當(dāng)強(qiáng)的能力。

Alessio Fanelli：你們內(nèi)部，會(huì)不會(huì)對帕累托前沿的“低端”也有很大壓力？

新實(shí)驗(yàn)室往往拼命往性能最前沿沖，因?yàn)樾枰谫Y。但你們有數(shù)十億用戶。早年做CPU規(guī)劃時(shí)，如果每個(gè)用戶每天多用三分鐘語音模型，算下來都需要翻倍的算力。

現(xiàn)在在谷歌內(nèi)部是怎么權(quán)衡的？如何在“追求前沿”和“必須規(guī)?；渴稹敝g做決策？

Jeff Dean：我們始終希望擁有站在前沿、甚至推動(dòng)前沿的模型，因?yàn)橹挥性谀抢?，你才能看到“新能力”的誕生——那些上一代模型不具備的能力。

但我們也清楚，這類模型通常更慢、更貴。很多廣泛場景其實(shí)更需要低延遲、低成本的模型。

所以我們的策略是同時(shí)做兩件事：一方面有高端前沿模型，用于深度推理、復(fù)雜數(shù)學(xué)問題等高難任務(wù)；

另一方面有高性價(jià)比模型，用于低延遲場景，比如更流暢的 Agent 式編程。兩者都重要。

而且通過蒸餾技術(shù)，我們可以把前沿模型的能力遷移到小模型上。因此這不是“二選一”，反而是相輔相成——沒有前沿模型，也很難得到高質(zhì)量的小模型。

Alessio Fanelli：蒸餾這個(gè)方法你和Geoffrey Hinton早在 2014 年就提出了。

Jeff Dean：別忘了Oriol Vinyals。

Alessio Fanelli：這么多年過去，你怎么看待這些技術(shù)理念的“周期性”？比如稀疏模型。很多想法在當(dāng)時(shí)未必看起來重要，但后來影響巨大。你們?nèi)绾闻袛嗄男┲档迷谙乱淮Ｐ椭兄匦聦徱暎?/p>

Jeff Dean：當(dāng)年做蒸餾，動(dòng)機(jī)其實(shí)來自圖像任務(wù)。

我們有一個(gè) 3 億張圖片的數(shù)據(jù)集。如果針對不同類別訓(xùn)練“專家模型”——比如一個(gè)專門識別哺乳動(dòng)物，一個(gè)專門識別室內(nèi)場景——然后做成 50 個(gè)模型的集成，效果會(huì)很好。但顯然不可能線上部署50個(gè)模型。

于是我們想：能否把這些專家模型“壓縮”進(jìn)一個(gè)更小、可部署的模型里？這就是蒸餾的由來。今天其實(shí)邏輯類似，只不過我們不是蒸餾50個(gè)模型，而是從一個(gè)極大規(guī)模模型蒸餾到小模型。

Shawn Wang：蒸餾和強(qiáng)化學(xué)習(xí)革命之間是不是也有關(guān)聯(lián)？比如RL會(huì)在某些能力分布上“打尖”，但可能犧牲其他區(qū)域。

如果能通過蒸餾把能力重新平衡回來，實(shí)現(xiàn)“能力合并而不退化”，那是不是理想狀態(tài)？

Jeff Dean：蒸餾的關(guān)鍵優(yōu)勢之一，是小模型可以在大量訓(xùn)練數(shù)據(jù)上多次迭代學(xué)習(xí)，同時(shí)利用大模型輸出的 logits 信息，而不僅是硬標(biāo)簽。這能引導(dǎo)小模型學(xué)到更細(xì)膩的行為。

實(shí)踐中我們確實(shí)發(fā)現(xiàn)，小模型可以非常接近大模型性能

這也是為什么在多個(gè)Gemini世代中，我們都能做到“下一代Flash ≈ 上一代Pro，甚至更好”。這是一條我們會(huì)持續(xù)推進(jìn)的路徑。

Shawn Wang：那Ultra呢？是不是內(nèi)部有一個(gè)“母體模型”一直在蒸餾？

Jeff Dean：我們有很多不同規(guī)模和用途的模型，有些不對外發(fā)布，有些是Pro級別。蒸餾可以來自不同來源。另外，推理階段擴(kuò)展也是提升能力的重要方式。

Shawn Wang：Flash的經(jīng)濟(jì)性確實(shí)帶來了規(guī)模優(yōu)勢。聽說已經(jīng)50萬億tokens？

Jeff Dean：市場份額方面，希望還在增長。

Shawn Wang：Flash現(xiàn)在幾乎無處不在——Gmail、YouTube、搜索AI模式。
Jeff Dean：是的。Flash的優(yōu)勢不僅是便宜，還有低延遲。而延遲非常關(guān)鍵

未來模型會(huì)被要求完成更復(fù)雜任務(wù)，比如寫整個(gè)軟件包，而不僅是一段循環(huán)代碼。這會(huì)生成大量token，因此低延遲系統(tǒng)至關(guān)重要。

Flash 是一個(gè)方向。硬件層面，比TPU芯片之間的高性能互聯(lián)，也對長上下文attention或稀疏專家模型的可部署性至關(guān)重要。

Alessio Fanelli：那你們會(huì)不會(huì)擔(dān)心某種“飽和”？比如兩代之后Flash就能覆蓋大多數(shù)需求，那還有動(dòng)力繼續(xù)推Pro前沿嗎？

Jeff Dean：如果人類提問的分布是靜態(tài)的，那可能會(huì)。但事實(shí)是，模型能力越強(qiáng)，人們問的問題越復(fù)雜。

一年前我只會(huì)讓模型做簡單coding，現(xiàn)在我會(huì)讓它做復(fù)雜系統(tǒng)分析。用戶需求本身在進(jìn)化。前沿模型推動(dòng)能力邊界，同時(shí)也讓我們看到瓶頸在哪里，從而改進(jìn)下一代。

Alessio Fanelli：內(nèi)部還依賴公開benchmark嗎？

Jeff Dean：公開benchmark有價(jià)值，但生命周期有限。理想benchmark初始分?jǐn)?shù)應(yīng)在 10%–30%，然后通過改進(jìn)提升到80%–90%。

超過95%就意義不大了，要么能力已掌握，要么可能出現(xiàn)數(shù)據(jù)泄露。我們有很多內(nèi)部保留測試集，專門評估未出現(xiàn)在訓(xùn)練數(shù)據(jù)中的能力。然后分析是數(shù)據(jù)問題、架構(gòu)問題還是能力缺口。

Shawn Wang：有沒有某個(gè)benchmark直接促成了架構(gòu)創(chuàng)新？

Jeff Dean：長上下文能力就是一個(gè)例子。Gemini 1.5開始我們明顯推進(jìn)了長上下文。像“needle in a haystack”這種單針測試現(xiàn)在基本飽和了。真正有意義的是更復(fù)雜的多針檢索或真實(shí)任務(wù)，比如從數(shù)千頁文本或數(shù)小時(shí)視頻中提取信息。

Shawn Wang：但會(huì)不會(huì)有“過擬合 benchmark”的風(fēng)險(xiǎn)？像Jason Wei說的，那是一種inductive bias，可能短期有效，長期未必可擴(kuò)展。

Jeff Dean：我們更關(guān)注的是“需要什么能力”，而不是某個(gè)具體解法。長上下文顯然有用，但當(dāng)前仍然太短。

理想狀態(tài)是“能在回答問題時(shí)訪問整個(gè)互聯(lián)網(wǎng)”。但現(xiàn)有二次復(fù)雜度attention不可能擴(kuò)展到萬億token。我們需要算法與系統(tǒng)層面的突破，創(chuàng)造“可訪問萬億 token 的幻覺”。

如果能做到，就可以訪問整個(gè)互聯(lián)網(wǎng)、YouTube視頻像素、個(gè)人郵件、照片、文檔（在用戶授權(quán)下）。那將極具價(jià)值。關(guān)鍵在于：如何在算法和系統(tǒng)層面實(shí)現(xiàn)這種規(guī)模躍遷。

Gemini一開始就強(qiáng)調(diào)多模態(tài)

Shawn Wang：順便說一句，我之前算過一筆賬——如果一個(gè)人每天連續(xù)講八個(gè)小時(shí)、天天講，最多也就生成大概10萬個(gè)token，這其實(shí)完全在可承受范圍內(nèi)。

Jeff Dean：對，不過如果你再進(jìn)一步說——好，我想要理解人們上傳到視頻里的所有內(nèi)容，那情況就不一樣了。

Shawn Wang：而且經(jīng)典的例子是，當(dāng)你從語言擴(kuò)展到其他模態(tài)，比如蛋白質(zhì)之類的信息，那信息密度就高得多了。

Jeff Dean：沒錯(cuò)。我覺得像Gemini這樣的模型之所以強(qiáng)調(diào)多模態(tài)，是因?yàn)?strong>我們從一開始就希望它是多模態(tài)的

很多人理解的多模態(tài)是文本、圖像、視頻、音頻這些“人類感知”的模態(tài)。但我認(rèn)為，讓模型理解“非人類”的模態(tài)同樣非常有用。

比如來自Waymo車輛的LIDAR傳感器數(shù)據(jù)，或者機(jī)器人數(shù)據(jù)、醫(yī)療影像數(shù)據(jù)，比如X光、MRI，以及基因組信息。

世界上可能有數(shù)百種不同的數(shù)據(jù)模態(tài)，我們希望模型至少能接觸到這些模態(tài)，知道它們是有意義的。

即使你沒有在所有LIDAR或MRI數(shù)據(jù)上大規(guī)模訓(xùn)練，僅僅少量納入，也會(huì)非常有價(jià)值，因?yàn)檫@會(huì)“暗示”模型：這些都是現(xiàn)實(shí)世界中的重要信號。

Shawn Wang：那你是否認(rèn)為存在某種“王者模態(tài)”？比如視覺可以在像素層面編碼文本；有篇DeepSeq CR的論文就是這么做的。

視覺還能通過頻譜圖來表示音頻。所以會(huì)不會(huì)視覺才是“統(tǒng)治一切”的模態(tài)？

Jeff Dean：視覺和運(yùn)動(dòng)（比如視頻而不是靜態(tài)圖像）確實(shí)非常重要。

進(jìn)化在 23 次獨(dú)立的過程中演化出了“眼睛”，這本身就說明視覺對理解世界是多么關(guān)鍵。

而我們希望這些模型也是在“感知世界”。所以關(guān)鍵在于：它們是否能解釋所看到或關(guān)注到的內(nèi)容，并利用這些信息幫助我們完成任務(wù)。

Shawn Wang：說到視頻，我得夸一句，Gemini目前可能還是唯一一個(gè)原生支持視頻理解的模型。我經(jīng)常用它分析YouTube。

Jeff Dean：是的，其實(shí)很多人并不了解Gemini到底能做什么。

我有個(gè)例子：一個(gè)YouTube視頻合集，包含過去20年18個(gè)經(jīng)典體育瞬間，比如Michael Jordan在總決賽最后時(shí)刻的跳投、一些足球進(jìn)球等等。

你可以直接把視頻給模型，說“請幫我做一個(gè)表格，列出每個(gè)事件是什么、發(fā)生日期以及簡要描述?！?/p>

結(jié)果你會(huì)得到一個(gè)18行的結(jié)構(gòu)化表格——這其實(shí)是把視頻轉(zhuǎn)成類似SQL表結(jié)構(gòu)的信息。很多人并不會(huì)把“視頻理解”聯(lián)想到這種能力。

谷歌搜索的演變：從分片到AI搜索

Alessio Fanelli：在谷歌內(nèi)部有沒有討論過“照料整個(gè)互聯(lián)網(wǎng)”這個(gè)問題？谷歌本身就是因?yàn)槿祟悷o法瀏覽整個(gè)互聯(lián)網(wǎng)而存在的，通過排序系統(tǒng)幫人篩選。

對于LLM來說，排序邏輯是不是不同？人類可能只看前5個(gè)鏈接，但LLM是否應(yīng)該關(guān)注20個(gè)高度相關(guān)的鏈接？你們內(nèi)部是怎么思考這種“更廣泛搜索模式”的？

Jeff Dean：其實(shí)在大語言模型出現(xiàn)之前，我們的排序系統(tǒng)就是這樣分層處理的。

首先從一個(gè)巨大的索引中篩出相關(guān)子集，可能從數(shù)十億網(wǎng)頁縮小到3萬份候選文檔，然后逐層使用更復(fù)雜的算法和信號精煉，最終展示前10個(gè)結(jié)果。LLM系統(tǒng)本質(zhì)上也類似。

你可以“關(guān)注”萬億級 token，但你需要先篩選出 3 萬份候選文檔（也許對應(yīng)3000萬token），然后進(jìn)一步縮減到 117份真正關(guān)鍵的文檔，再由最強(qiáng)的模型處理這117份。

這樣你就實(shí)現(xiàn)了一種“仿佛瀏覽了萬億token”的效果，就像谷歌搜索給人的感覺一樣——雖然你在搜索整個(gè)互聯(lián)網(wǎng)，但實(shí)際上只處理了一小部分最相關(guān)的內(nèi)容。

Shawn Wang：很多人不了解LLM在高流量系統(tǒng)里的滲透程度。比如 BERT 很早就進(jìn)入谷歌搜索系統(tǒng)，提升了質(zhì)量。

Jeff Dean：是的，引入LLM表示方式之后，我們可以跳出“必須精確匹配用戶輸入詞語”的限制，而更關(guān)注頁面的主題是否與查詢相關(guān)。

Shawn Wang：其實(shí)在LLM之前，你們就已經(jīng)在“軟化查詢詞”了吧？

Jeff Dean：沒錯(cuò)。我在2009年的一個(gè)會(huì)議上做過一次回顧演講，講1999到2004年搜索系統(tǒng)經(jīng)歷的五六次架構(gòu)重構(gòu)。

2001年是一個(gè)關(guān)鍵點(diǎn)。當(dāng)時(shí)我們?yōu)榱藬U(kuò)展規(guī)模，把索引分片，比如60個(gè)shard，每個(gè)shard多個(gè)副本。

當(dāng)副本數(shù)量足夠多時(shí)，我們意識到——整個(gè)索引其實(shí)可以全部放進(jìn)內(nèi)存！一旦索引在內(nèi)存中，你就可以對用戶原本三四個(gè)詞的查詢，擴(kuò)展出50個(gè)相關(guān)詞，比如restaurant、restaurants、cafe、bistro等等。

這是2001年的事情，遠(yuǎn)早于LLM，但本質(zhì)是一樣的——從“精確詞匹配”走向“語義理解”。

Alessio Fanelli：在系統(tǒng)設(shè)計(jì)上，你有什么原則？當(dāng)規(guī)模以倍數(shù)級增長時(shí)，你怎么思考？

Jeff Dean：首先要弄清楚最重要的設(shè)計(jì)參數(shù)：每秒查詢數(shù)、索引規(guī)模、每個(gè)文檔的數(shù)據(jù)量等等。

好的系統(tǒng)應(yīng)該能承受5到10倍的增長，但如果增長到100倍，可能就需要完全不同的架構(gòu)。比如從磁盤索引轉(zhuǎn)為內(nèi)存索引——這在流量足夠大時(shí)才合理。

設(shè)計(jì)前我喜歡在腦子里推演各種可能性，而不是一開始就寫代碼。

Shawn Wang：更新頻率是不是變化最大的參數(shù)？

Jeff Dean：對。最早我們一個(gè)月更新一次索引，后來可以做到單頁亞分鐘更新。

因?yàn)樾侣勵(lì)惒樵冃枰獙?shí)時(shí)性。即便某頁面更新概率低，但如果它很重要，也值得頻繁抓取。這背后有一整套系統(tǒng)在判斷抓取頻率與頁面重要性。

用能量來衡量數(shù)據(jù)搬運(yùn)成本

Shawn Wang：說到延遲，我必須提一下你的經(jīng)典文章《每個(gè)程序員都應(yīng)該知道的延遲數(shù)字》。

（編者注：這是Jeff Dean在谷歌早期寫的一篇經(jīng)典內(nèi)部文章，后來被公開分享，主要目的是幫助程序員理解計(jì)算機(jī)系統(tǒng)中各種操作的延遲成本，從而在設(shè)計(jì)軟件和系統(tǒng)時(shí)能做出合理的權(quán)衡）

Jeff Dean：那里面其實(shí)列了大概八到十種關(guān)鍵指標(biāo)，比如一次緩存未命中要多久、一次分支預(yù)測失敗要多久、一次主存訪問要多久、從美國往荷蘭發(fā)一個(gè)數(shù)據(jù)包要多久之類的。

Shawn Wang：順便問一句，為什么是荷蘭？是因?yàn)镃hrome嗎？

Jeff Dean：不是，是因?yàn)槲覀儺?dāng)時(shí)在荷蘭有數(shù)據(jù)中心。其實(shí)關(guān)鍵點(diǎn)在于，你要能做“信封背面的估算”。這些延遲數(shù)字就是原材料。

比如你要設(shè)計(jì)一個(gè)圖片搜索系統(tǒng)，結(jié)果頁要生成縮略圖——你可以選擇提前預(yù)計(jì)算縮略圖，也可以實(shí)時(shí)從大圖生成。那帶寬要多少？需要多少次磁盤尋址？你完全可以在30秒到1分鐘內(nèi)，用這些基礎(chǔ)數(shù)字做一個(gè)腦內(nèi)推演。

隨著你使用更高層的庫寫軟件，你也應(yīng)該培養(yǎng)類似的直覺——比如某種數(shù)據(jù)結(jié)構(gòu)的查找大概要多久。

Shawn Wang：如果現(xiàn)在更新這份“延遲數(shù)字”清單，你會(huì)加什么？

Jeff Dean：我覺得現(xiàn)在特別值得思考的是，在模型訓(xùn)練或推理時(shí)，你在做的計(jì)算到底意味著什么。

一個(gè)很好的視角是：你需要從內(nèi)存中搬運(yùn)多少“狀態(tài)”？是片上SRAM？是加速器上的HBM？是DRAM？還是通過網(wǎng)絡(luò)傳輸？

然后問一個(gè)問題——這些數(shù)據(jù)搬運(yùn)的成本，相對于一次矩陣乘法里的乘法操作，貴多少？其實(shí)乘法本身的能耗非常低，根據(jù)精度不同，大概是小于1皮焦耳（picojoule）

Shawn Wang：哦，你是用能量來衡量的？

Jeff Dean：對，最終一切都?xì)w結(jié)為能量效率

比如，從芯片另一側(cè)的SRAM搬數(shù)據(jù)，甚至都沒出芯片——可能就要1000皮焦耳。于是你就明白了，為什么加速器需要“batch”。

如果你把一個(gè)模型參數(shù)從SRAM搬到乘法單元，花了1000皮焦耳，那你最好多次使用它。假設(shè)batch size是 256，那這筆成本還能攤?。坏绻鸼atch是 1，那就太虧了。

Shawn Wang：對，因?yàn)槟慊?000皮焦耳，只做了1皮焦耳的乘法。

Jeff Dean：沒錯(cuò)。所以從能量角度看，batching 是非常自然的選擇。理想情況下我們當(dāng)然希望batch size是1，因?yàn)檠舆t最低。但能量效率和計(jì)算效率會(huì)非常糟糕。

Shawn Wang：我還是第一次聽到用能量分析batching的解釋。

Jeff Dean：這其實(shí)就是大家做batching的原因。

TPU和ML必須做協(xié)同設(shè)計(jì)

Shawn Wang：那在硬件上有沒有類似當(dāng)年“把索引全部放進(jìn)內(nèi)存”那樣的轉(zhuǎn)折？比如NVIDIA在SRAM上的激進(jìn)下注。你們在TPU設(shè)計(jì)時(shí)是否也早就預(yù)見到這種趨勢？

Jeff Dean：TPU采用的是規(guī)則的2D或3D mesh 結(jié)構(gòu)，每個(gè)芯片都有HBM。對于某些模型推理任務(wù)，從HBM讀數(shù)據(jù)的延遲和成本比從片上SRAM高得多。

所以如果模型夠小，你可以做模型并行，把它分布在16或64個(gè)芯片上，只要全部參數(shù)都能放進(jìn)SRAM，就能同時(shí)提升吞吐和延遲。這其實(shí)是一個(gè)很自然的技術(shù)選擇。

Alessio Fanelli：在TPU設(shè)計(jì)中，你們?nèi)绾螞Q定優(yōu)化方向？比如能不能把那1000皮焦耳降到50？是否值得為此設(shè)計(jì)一顆新芯片？但ML變化這么快，做硬件會(huì)不會(huì)太冒險(xiǎn)？

Jeff Dean：我們在TPU架構(gòu)團(tuán)隊(duì)和ML研究團(tuán)隊(duì)之間有很多互動(dòng)，因?yàn)楸仨氉?strong>“協(xié)同設(shè)計(jì)”

問題是——你今天開始設(shè)計(jì)一顆芯片，可能兩年后才部署到數(shù)據(jù)中心，然后還要用三到五年。也就是說，你要預(yù)測兩到六年后人們會(huì)運(yùn)行什么樣的ML計(jì)算，而這個(gè)領(lǐng)域變化極快。

所以如果研究團(tuán)隊(duì)對未來兩三年內(nèi)可能成功的方法有洞察，我們就能在“TPU N+2”版本里加入對應(yīng)的硬件特性。有時(shí)可以加入一些“投機(jī)性功能”，占用很小的芯片面積，但如果成功可能帶來10倍提升；失敗了損失也不大。

但有些改動(dòng)代價(jià)很大，就必須通過大量ML實(shí)驗(yàn)來驗(yàn)證方向。

Alessio Fanelli：有沒有反過來的情況？因?yàn)樾酒O(shè)計(jì)已經(jīng)定了，所以模型架構(gòu)不得不調(diào)整？

Jeff Dean：當(dāng)然會(huì)。模型架構(gòu)有時(shí)會(huì)為了適配現(xiàn)有硬件而調(diào)整。比如未來一代支持更低精度，你可能提前為那個(gè)精度訓(xùn)練模型，即便當(dāng)前代還不支持。

Shawn Wang：那精度還能降多低？有人說三值化（ternary）都可以。

Jeff Dean：我個(gè)人很喜歡低精度，因?yàn)槊繙p少一位比特，就減少搬運(yùn)時(shí)的能量消耗。很多成功做法是：權(quán)重本身用極低比特表示，但給一組權(quán)重共享一個(gè)縮放因子。

Shawn Wang：低精度加縮放因子？挺有意思的。說到精度，我們最終是采樣生成的，還會(huì)加隨機(jī)數(shù)——那這么精細(xì)的計(jì)算是不是有點(diǎn)諷刺？

Jeff Dean：確實(shí)有很多趨勢值得關(guān)注。比如能量驅(qū)動(dòng)模型、擴(kuò)散模型（不再順序解碼 token）、投機(jī)解碼。

比如一次預(yù)測8個(gè)token，然后接受其中5或6個(gè)，相當(dāng)于把有效batch提升了5倍，大幅攤薄參數(shù)搬運(yùn)成本。從能量、延遲、吞吐的角度看問題，會(huì)自然引導(dǎo)你找到更優(yōu)解。

Shawn Wang：還有模擬計(jì)算這種更激進(jìn)的方向呢？

Jeff Dean：模擬計(jì)算很有意思，理論上功耗低。但現(xiàn)實(shí)中你往往要和數(shù)字系統(tǒng)接口，做數(shù)模、模數(shù)轉(zhuǎn)換，這會(huì)損耗掉不少能效優(yōu)勢。

不過我認(rèn)為，在現(xiàn)有數(shù)字架構(gòu)下，我們在能效上還有巨大的提升空間。

幾個(gè)新的研究角度

Alessio Fanelli：從研究角度看，還有哪些方向你覺得特別值得探索？

Jeff Dean：一個(gè)大問題是如何讓模型更可靠，能完成更長、更復(fù)雜、包含大量子任務(wù)的工作。也許一個(gè)模型調(diào)用其他模型作為工具，協(xié)作完成更大規(guī)模任務(wù)。

還有一個(gè)開放問題是：如何把強(qiáng)化學(xué)習(xí)擴(kuò)展到“不可驗(yàn)證”的領(lǐng)域?，F(xiàn)在數(shù)學(xué)和編程的進(jìn)步，很大程度上來自可驗(yàn)證獎(jiǎng)勵(lì)。如果我們能在不可驗(yàn)證領(lǐng)域也實(shí)現(xiàn)類似突破，模型能力會(huì)有很大提升。

Alessio Fanelli：比如Deep Research或AI Mode，其實(shí)也是某種信息檢索。是不是“檢索”本身就是可驗(yàn)證的部分？

Jeff Dean：可以用另一個(gè)模型來評估第一個(gè)模型的結(jié)果，比如判斷檢索結(jié)果是否相關(guān)，或者從2000條結(jié)果中打分選出最相關(guān)的50條。有時(shí)甚至可以用同一個(gè)模型，只是通過不同提示詞，讓它充當(dāng)“批評者”。

Shawn Wang：感覺我們好像做完了“簡單的部分”，接下來全是硬骨頭。但每年都這么覺得。

Jeff Dean：這個(gè)領(lǐng)域的好處是，有很多聰明人都在想辦法解決這些問題。

兩年前，我們還在為GSM8K這種“小明有兩只兔子又買三只”的題目發(fā)愁?，F(xiàn)在模型已經(jīng)能做IMO和Erd?s水平的數(shù)學(xué)推理了，而且是純語言形式完成。這在一年半內(nèi)是驚人的躍遷。

對其他領(lǐng)域，我們也希望實(shí)現(xiàn)類似的飛躍。雖然有些方向還看不清路徑，但研究本身就是不斷嘗試、驗(yàn)證、推進(jìn)的過程，這正是它迷人的地方。

Shawn Wang：比如說，自動(dòng)生成YouTube縮略圖，這就非常有用了。那就是AGI了，我們真的需要它。

Shawn Wang：對內(nèi)容創(chuàng)作者來說，那絕對是。

Jeff Dean：我不是YouTube創(chuàng)作者，所以我個(gè)人沒那么在意這個(gè)問題，不過我知道很多人確實(shí)很在意。

統(tǒng)一模型時(shí)代已經(jīng)到來

Shawn Wang：說回IMO，我到現(xiàn)在都還沒消化一件事：一年前我們還有AlphaProof、AlphaGeometry這些專用系統(tǒng)，結(jié)果今年直接說“算了，全丟給 Gemini”。

你怎么看這種從“符號系統(tǒng) + 專用模型”到“全LLM一統(tǒng)天下”的轉(zhuǎn)變？

Jeff Dean：這對我來說其實(shí)挺自然的。人類確實(shí)在操作符號，但我們的大腦里未必真的是離散的符號系統(tǒng)。更可能是某種分布式的神經(jīng)表示——大量神經(jīng)元的激活模式。

當(dāng)我們看到某些東西時(shí)，激活特定模式，從而進(jìn)行推理、規(guī)劃、鏈?zhǔn)剿伎?，甚至回滾再嘗試其他路徑。

從這個(gè)角度看，用神經(jīng)網(wǎng)絡(luò)來模擬這種過程是合理的。我一直覺得，把完全獨(dú)立的離散符號系統(tǒng)和神經(jīng)模型硬性分開，其實(shí)不太有道理。

Shawn Wang：也許對你來說很明顯，但對我一年前來說并不明顯。

Jeff Dean：我覺得，從“把問題翻譯成Lean再用專用幾何模型求解”，到第二年直接用一個(gè)統(tǒng)一的大模型（基本就是生產(chǎn)版模型，只是給了更多推理預(yù)算），這其實(shí)說明通用模型能力的巨大提升。你已經(jīng)不再需要那些專用系統(tǒng)了。

這和2013到2016年機(jī)器學(xué)習(xí)的發(fā)展很像——那時(shí)每個(gè)任務(wù)都要訓(xùn)練一個(gè)獨(dú)立模型：街道標(biāo)志識別一個(gè)模型，語音識別一個(gè)模型。

現(xiàn)在，統(tǒng)一模型時(shí)代已經(jīng)到來。問題變成：它們對從未見過的新任務(wù)的泛化能力如何？而答案是——越來越好。

Shawn Wang：而且甚至不需要領(lǐng)域?qū)＜?。我采訪過Ete，他說自己甚至不知道IMO在哪舉行、規(guī)則是什么，只是訓(xùn)練模型。這種“通用ML技能 + 數(shù)據(jù) + 算力”就能解決各種任務(wù)，某種程度上像是“苦澀的教訓(xùn)”。

（編者注：Ete是指愛德華·格列芬斯特，一位Google DeepMind的研究科學(xué)家，他參與過多項(xiàng)與推理、語言模型相關(guān)的研究；

“苦澀教訓(xùn)”是“強(qiáng)化學(xué)習(xí)之父”理查德·薩頓提出的理念：研究者總想把人類知識編入AI，短期有效但長期看，依靠大規(guī)模算力和通用算法的方法最終會(huì)勝出）

Jeff Dean：在大多數(shù)情況下，通用模型會(huì)勝出

Shawn Wang：但這里有個(gè)疑問：模型容量是有限的，參數(shù)本質(zhì)上只能容納有限的比特。比如 Gemma 這種小模型，很多人希望本地開源模型，但它們會(huì)記住一些其實(shí)沒必要記住的知識。

大模型可以包羅萬象，但小模型容量有限。我們能否把“知識”和“推理能力”分離？

Jeff Dean：理想情況下，模型應(yīng)該把寶貴的參數(shù)空間更多用于推理能力，而不是記住那些可以檢索到的冷門事實(shí)。比如某個(gè)偏僻小橋的長度，沒必要死記硬背。但模型也不能完全脫離世界知識。

比如知道Golden Gate Bridge大概多長，有助于建立尺度感。所以需要一定的常識。模型越大，能容納的知識越多。但我認(rèn)為，把檢索和推理結(jié)合起來——尤其是多階段檢索 + 推理——會(huì)讓模型顯得更強(qiáng)大。

Shawn Wang：比如“個(gè)人版Gemini”。

Jeff Dean：對，我們不太可能把我的私人郵件數(shù)據(jù)直接訓(xùn)練進(jìn)Gemini。更合理的是，用統(tǒng)一模型，再讓它通過工具檢索我的郵件、照片等，然后對這些結(jié)果進(jìn)行推理，并進(jìn)行多輪交互。

垂直模型仍有意義

Alessio Fanelli：那你怎么看垂直模型？比如“醫(yī)療 LLM”“法律 LLM”這種。

Jeff Dean：垂直模型是有意義的。它們應(yīng)該基于一個(gè)強(qiáng)大的基礎(chǔ)模型，然后在特定領(lǐng)域數(shù)據(jù)上進(jìn)一步強(qiáng)化。

比如機(jī)器人領(lǐng)域，我們不會(huì)在基礎(chǔ)Gemini中塞進(jìn)所有機(jī)器人數(shù)據(jù)，因?yàn)槲覀冃枰胶饽芰Α５绻阆胱鲆粋€(gè)頂級機(jī)器人模型，就應(yīng)該在基礎(chǔ)模型上再加大量機(jī)器人數(shù)據(jù)訓(xùn)練。

代價(jià)可能是多語言能力下降，但機(jī)器人能力更強(qiáng)。我們始終在做數(shù)據(jù)分布的權(quán)衡。

理想情況是模塊化：一個(gè)擁有200種語言能力的模塊、一個(gè)頂級機(jī)器人模塊、一個(gè)頂級醫(yī)療模塊，可以組合調(diào)用。比如遇到醫(yī)療問題，就調(diào)用醫(yī)療模塊增強(qiáng)基礎(chǔ)模型。

Shawn Wang：就像“可安裝知識包”。

Jeff Dean：對。有些可以通過檢索實(shí)現(xiàn)，有些可能需要預(yù)訓(xùn)練，比如用上千億token的醫(yī)療數(shù)據(jù)。

Shawn Wang：說到語言，你以前提到過一個(gè)例子：把低資源語言直接放進(jìn)上下文，模型就能學(xué)。

Jeff Dean：對，比如Kalaman語，全世界只有大約 120 人使用，而且沒有書面文本。對于像索馬里語或阿姆哈拉語這樣的語言，世界上其實(shí)有不少文本。

我們在 Gemini 訓(xùn)練中可能只用了其中一部分。如果增加更多數(shù)據(jù)，這些語言的能力就會(huì)提升。

Shawn Wang：我對語言學(xué)也很感興趣。如果我是語言學(xué)家，拿到這些模型，我會(huì)問一些根本問題。比如薩丕爾-沃爾夫假說：語言是否影響思維？

還有所謂“柏拉圖式表示”——圖像里的“杯子”和文本里的“cup”最終在模型里映射到同一向量空間。理論上這應(yīng)該跨語言成立，但有些語言有獨(dú)特概念，英語沒有，這些差異其實(shí)很有意思。

Jeff Dean：我之前做過一個(gè)叫DeViSE的模型，把語言模型的詞向量和圖像模型（類似 ImageNet 訓(xùn)練的）融合在一起。

結(jié)果發(fā)現(xiàn)，如果給它一個(gè)訓(xùn)練集中沒有類別的圖像，它也常常能給出正確標(biāo)簽。

比如圖像模型訓(xùn)練時(shí)見過telescope和binoculars，但沒見過microscope。當(dāng)給它顯微鏡圖片時(shí)，它卻能正確生成“microscope”這個(gè)標(biāo)簽，盡管從未見過帶這個(gè)標(biāo)簽的圖像。

Shawn Wang：這很酷。

Jeff Dean：確實(shí)挺有意思。

Gemini早期資源太分散是“愚蠢”的

Shawn Wang：最后一個(gè)問題，你希望別人多問你什么？我們聊了硬件、模型、研究。

Jeff Dean：有件事挺有趣。我1990年本科畢業(yè)時(shí)，做的畢業(yè)論文就是并行神經(jīng)網(wǎng)絡(luò)訓(xùn)練。當(dāng)時(shí)我就覺得神經(jīng)網(wǎng)絡(luò)是正確抽象，只是算力遠(yuǎn)遠(yuǎn)不夠。

系里的32處理器并行機(jī)只能訓(xùn)練稍微有點(diǎn)意思的模型，但遠(yuǎn)不足以解決現(xiàn)實(shí)問題。直到2008、2009年，隨著摩爾定律和更大的數(shù)據(jù)集，神經(jīng)網(wǎng)絡(luò)才真正開始解決語音、視覺、語言等問題。

我2011年底在谷歌重新投入神經(jīng)網(wǎng)絡(luò)研究時(shí)，核心想法就是：我們應(yīng)該用大規(guī)模并行計(jì)算把神經(jīng)網(wǎng)絡(luò)規(guī)模推上去

我還復(fù)活了本科論文里的模型并行和數(shù)據(jù)并行思想——那時(shí)候我用的名字不一樣，但本質(zhì)就是這兩種并行方式。歷史有時(shí)候會(huì)兜個(gè)圈再回來。

Shawn Wang：這個(gè)是公開的嗎？我們能去網(wǎng)上查到嗎？

Jeff Dean：可以，在網(wǎng)上都能找到。
不過說到更宏觀一點(diǎn)的事情，我覺得過去十五年真正重要的一點(diǎn)，是把各種技術(shù)結(jié)合起來，并且持續(xù)推動(dòng)Scaling

這不僅僅是算法問題，還包括硬件的進(jìn)步，比如構(gòu)建像TPU這樣的專用硬件；也包括軟件層面的抽象能力，讓研究者和工程師能夠更好地向計(jì)算機(jī)表達(dá)自己的想法。

Shawn Wang：關(guān)于后來對算力資源分配的反思——有人提到所謂的“算力配額市場”。

David在OpenAI做過VP of Engineering，后來又去了Google。他的觀點(diǎn)是，OpenAI 當(dāng)時(shí)愿意“押上全部籌碼”去做一件事，而 Google 更民主化，每個(gè)人都有自己的算力配額。

（編者注：此處指David Luan，是 AI 領(lǐng)域知名的技術(shù)專家，曾任職于Google Brain和OpenAI，后來創(chuàng)辦了 AI 初創(chuàng)公司Adept）
如果你真的相信 Scaling 是關(guān)鍵，那這其實(shí)是一個(gè)全組織層面的戰(zhàn)略選擇。你當(dāng)時(shí)會(huì)認(rèn)同這種說法嗎？還是有不同的復(fù)盤結(jié)論？

Jeff Dean：我在一定程度上是同意的。事實(shí)上，我當(dāng)時(shí)還寫過一頁memo，說我們把資源拆分得太零散是“愚蠢”的

當(dāng)時(shí)的情況是這樣的：Google Research里有團(tuán)隊(duì)在做大語言模型，Brain團(tuán)隊(duì)里也在做；同時(shí)其他團(tuán)隊(duì)在做多模態(tài)模型；而當(dāng)時(shí)的 DeepMind也在做像Chinchilla、Flamingo這樣的模型。

問題在于，我們不僅把算力分散在多個(gè)方向上，還把最優(yōu)秀的人才分散開了。我當(dāng)時(shí)的觀點(diǎn)是：這沒有必要。為什么不整合起來，做一個(gè)統(tǒng)一的、從一開始就是多模態(tài)的、在各方面都很強(qiáng)的單一模型？

這就是Gemini項(xiàng)目的起點(diǎn)。

Shawn Wang：所以那份一頁紙的memo成功了？另外，Gemini這個(gè)名字也是你起的嗎？

Jeff Dean：是的，是我起的
當(dāng)時(shí)也有別的備選名字，但我覺得“Gemini”挺好。因?yàn)檫@兩個(gè)組織像是“雙胞胎”一樣的存在，現(xiàn)在合并在一起。另外，NASA 早期的Gemini項(xiàng)目也是通往Apollo計(jì)劃的重要一步。這個(gè)隱喻也很貼切——雙子合一。

未來人均50個(gè)智能體實(shí)習(xí)生

Alessio Fanelli：我很好奇你現(xiàn)在是怎么用AI來寫代碼的。你一直是工程能力極強(qiáng)的人。我看到你說過，結(jié)對編程時(shí)要找到思維方式互補(bǔ)的人。

那現(xiàn)在有了coding agents，你會(huì)如何“塑造”一個(gè)與自己思維方式匹配的智能體？你如何評價(jià)現(xiàn)在這些工具？未來應(yīng)該往哪個(gè)方向發(fā)展？

Jeff Dean：首先，編程工具相比一兩年前已經(jīng)有了巨大進(jìn)步?，F(xiàn)在你可以把更復(fù)雜的任務(wù)交給它們。

一個(gè)很有意思的點(diǎn)是：你和模型互動(dòng)的方式，會(huì)反過來決定它如何與你合作。你可以讓它寫測試、幫你做性能優(yōu)化brainstorming，也可以讓它完全獨(dú)立去完成一個(gè)模塊。

不同任務(wù)適合不同交互模式。有些任務(wù)需要頻繁互動(dòng)；有些你可以清晰定義需求，然后讓它獨(dú)立完成。

我認(rèn)為未來會(huì)有越來越多獨(dú)立運(yùn)行的軟件智能體替你做事。關(guān)鍵問題是：人機(jī)交互模型該怎么設(shè)計(jì)？什么時(shí)候它應(yīng)該打斷你？什么時(shí)候獨(dú)立推進(jìn)？

這個(gè)問題還沒有最終答案。而且隨著模型能力提升，這些交互決策也會(huì)改變。如果你有50個(gè)實(shí)習(xí)生，你會(huì)怎么管理？也許你真的會(huì)想要50個(gè)——前提是他們足夠優(yōu)秀。

Shawn Wang：那管理成本也很高。

Jeff Dean：是的。但你可能會(huì)把他們分成小組，而不是直接管理 50 個(gè)人。
同樣的，如果一個(gè)人管理50個(gè)虛擬智能體，而不是50個(gè)真人工程師，也許組織結(jié)構(gòu)和溝通帶寬會(huì)更高效。

五個(gè)工程師各自管理50個(gè)智能體，彼此之間可能反而有更高帶寬的交流，而不是每人都要協(xié)調(diào)一個(gè)50人團(tuán)隊(duì)。

Alessio Fanelli：那你覺得這種模式會(huì)不會(huì)讓人變得更孤立？比如你想找別人一起“pair programming”，但現(xiàn)在已經(jīng)有50個(gè)智能體并行完成了大量工作，要把上下文講清楚反而更難。

Jeff Dean：也許。但傳統(tǒng)的軟件組織其實(shí)也是高度分工的。50個(gè)人在不同模塊上工作，本來也不會(huì)高頻互動(dòng)。

如果是5個(gè)人各自管理50個(gè)智能體，反而可能在這5人之間形成更高效的協(xié)作結(jié)構(gòu)。具體會(huì)怎么演化，我也不確定。

“寫好需求”將會(huì)是核心技能

Alessio Fanelli：那你的工作節(jié)奏會(huì)怎么改變？是不是要花更多時(shí)間在設(shè)計(jì)和specification上？

Jeff Dean：我覺得這是個(gè)非常關(guān)鍵的變化。過去大家都被教導(dǎo)要寫清晰的specification，但說實(shí)話，沒有多少人真正重視“英文規(guī)格說明”這個(gè)產(chǎn)物。

但如果你是讓一個(gè)agent為你寫代碼，你必須把specification寫得非常清楚。因?yàn)?strong>輸出質(zhì)量完全取決于你如何定義問題。如果你沒寫清楚某個(gè)corner case，沒強(qiáng)調(diào)性能要求，模型就很可能忽略這些。

因此，我認(rèn)為未來一個(gè)重要能力是：用非常精確、無歧義的方式表達(dá)你想要什么。這不僅對軟件工程重要，對任何復(fù)雜任務(wù)都是重要能力。

能夠“清晰表達(dá)需求”，會(huì)成為一種核心技能。

Shawn Wang：我常開的一個(gè)玩笑是：高級的executive communication，某種程度上已經(jīng)接近“魔法”了——就像寫內(nèi)部備忘錄一樣，你必須極其謹(jǐn)慎地權(quán)衡措辭。我覺得現(xiàn)在做提示工程其實(shí)也越來越像這種溝通藝術(shù)。

而且我認(rèn)為“多模態(tài)”非常重要。比如Google當(dāng)年推出的一些模型，一開始就強(qiáng)調(diào)強(qiáng)多模態(tài)能力，包括視頻。這其實(shí)是給模型最高帶寬的一種輸入方式，是一種極其強(qiáng)大的溝通手段。

Alessio Fanelli：那你怎么處理自己腦子里那些經(jīng)驗(yàn)性的知識？比如你對性能優(yōu)化有很強(qiáng)的“直覺感”，知道哪些地方可能有提升空間。

現(xiàn)在是不是更有價(jià)值把這些通用經(jīng)驗(yàn)系統(tǒng)性寫下來，作為可以檢索的資料喂給模型？

比如邊界情況就是個(gè)好例子——以前你腦子里自然會(huì)想到某些特定場景，現(xiàn)在是不是每次都得明確寫出來？你會(huì)建議大家花更多時(shí)間寫這些“通用指南”嗎？

Jeff Dean：我確實(shí)認(rèn)為，高質(zhì)量的軟件工程指南會(huì)變得更重要。因?yàn)樗鼈兗瓤梢宰鳛槟Ｐ偷妮斎肷舷挛模部梢员黄渌こ處熼喿x，從而幫助他們寫出更清晰的prompt。

未必需要為每個(gè)具體問題都寫一份專門文檔，但如果你有一些通用指南，然后把它們放進(jìn) coding agent 的上下文中，那會(huì)非常有幫助。

舉個(gè)例子，在分布式系統(tǒng)里，你可以列出常見故障類型，以及對應(yīng)的處理技術(shù)。比如Paxos這樣的復(fù)制協(xié)議，或者向兩個(gè)節(jié)點(diǎn)發(fā)送請求、只需一個(gè)返回即可容錯(cuò)的策略。

如果你寫一份包含 20 種類似技術(shù)的簡明說明，那大概率能幫助coding agent構(gòu)建出更可靠、更健壯的分布式系統(tǒng)。

模型的“個(gè)性化”和低延遲會(huì)極其重要

Shawn Wang：回到prompt和迭代這個(gè)話題。我一直想做一個(gè)A/B實(shí)驗(yàn)：

是三次“快速但能力一般”的模型調(diào)用、每次都有人類校準(zhǔn)效果更好？還是一次寫一個(gè)非常長、非常詳盡的prompt，然后讓一個(gè)很強(qiáng)的模型一次完成更好？

很多時(shí)候性能不佳，是因?yàn)槟銢]寫清楚需求，而不是模型不行。模型其實(shí)可以生成10種合理結(jié)果，只是你想要其中1種。

Jeff Dean：對，本質(zhì)上是“欠規(guī)格化”。如果問題沒被清晰定義，模型只能猜。而多輪快速交互，往往足夠逼近你真正想要的結(jié)果。
我個(gè)人非常相信“低延遲”的價(jià)值。低延遲交互會(huì)讓系統(tǒng)使用體驗(yàn)變得愉悅得多。如果響應(yīng)慢10倍或20倍，體驗(yàn)完全不同。

未來我們會(huì)看到模型和底層軟硬件系統(tǒng)帶來20倍甚至50倍的延遲下降。這對那些需要在每次交互之間完成大量內(nèi)部計(jì)算的系統(tǒng)至關(guān)重要。

Shawn Wang：但另一方面，也有像DeepThink這種強(qiáng)調(diào)深度推理、但延遲較高的模型。

Jeff Dean：如果成本和延遲不是問題，你當(dāng)然會(huì)一直用DeepThink。

假設(shè)硬件提升20倍延遲降低，那你自然希望模型具備更強(qiáng)推理能力。但有趣的是，當(dāng)硬件變快后，你往往又會(huì)設(shè)計(jì)出更復(fù)雜的模型，再次把時(shí)間用滿。

Shawn Wang：帕累托前沿總是在往上爬。最后問個(gè)預(yù)測問題。有沒有你覺得現(xiàn)在還不滿意、但很快會(huì)實(shí)現(xiàn)的能力？

Jeff Dean：我給兩個(gè)預(yù)測。

第一，真正“個(gè)性化”的模型會(huì)極其重要。一個(gè)了解你、掌握你所有狀態(tài)、并且可以在你授權(quán)范圍內(nèi)檢索你全部歷史信息的模型——你看過的郵件、照片、視頻——會(huì)比通用模型強(qiáng)大得多。

第二，更專用化的硬件會(huì)讓模型延遲大幅下降，同時(shí)能力提升、成本下降。這會(huì)改變很多應(yīng)用場景

Shawn Wang：大家常用“每秒tokens數(shù)”來衡量速度。比如現(xiàn)在100 tokens/s，如果能到1000有意義嗎？那10000呢？

Jeff Dean：當(dāng)然有意義。

更高的tokens/s意味著你可以做更多并行rollout，可以生成更多代碼，可以在生成背后做大量思維鏈推理驗(yàn)證。10,000 tokens/s 會(huì)非常強(qiáng)大。

Shawn Wang：到那個(gè)速度，你都不會(huì)讀代碼了。

Jeff Dean：未必。也許最終代碼只有1000 tokens，但背后用了9000 tokens的推理。這樣生成的代碼，反而更值得閱讀。

https://www.youtube.com/watch?v=F_1oDPWxpFQ

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.