Gemini靈魂人物、傳奇工程師Jeff Dean最新訪談：未來人均50個虛擬實習(xí)生，用不上專家了！

2026-02-17 14:19:00　來源: InfoQ

北京舉報

分享至

整理｜華衛(wèi)

“簡歷基本上就是 AI 的時間線”，這是許多人對 Gemini 背后的核心推動者、谷歌首席人工智能科學(xué)家 Jeff Dean 的評價。從 2000 年代初重寫谷歌搜索全棧到重啟萬億參數(shù)稀疏模型，再到將 TPU 與前沿機(jī)器學(xué)習(xí)研究協(xié)同設(shè)計，Jeff Dean 以一種低調(diào)的方式，幾乎塑造了現(xiàn)代 AI 技術(shù)棧的每一層。他親歷了多輪規(guī)模革命：從 CPU、分片索引，到能跨文本、視頻、代碼進(jìn)行推理的多模態(tài)模型。

近日，他在一場深度對話中的犀利言論備受熱議。不少業(yè)內(nèi)人士直呼，“信息量超大”。在這場訪談中，Dean 拋出了諸多獨家觀點與極具前瞻性的判斷。

“大一統(tǒng)模型的時代真的來了。關(guān)鍵在于，模型正在變得越來越強，不再需要領(lǐng)域?qū)＜??！彼硎?，未來是專用模型加模塊化模型的組合，可以同時擁有并在不同場景下調(diào)用 200 種語言、超強機(jī)器人模塊、超強醫(yī)療模塊。“模型知識是可安裝的，像下載軟件包一樣?！?/p>

作為“計算機(jī)歷史上最高產(chǎn)的工程師之一”，Dean 還大方分享了自己現(xiàn)在用 AI 寫代碼的方式，并表示，“未來很可能每個人都能擁有 50 個虛擬實習(xí)生，讓他們組成小組，只需要對接 5 個小組，讓他們各自干活?！?/p>

而且，Dean 詳細(xì)透露了谷歌內(nèi)部“沖前沿”的模式和推動團(tuán)隊架構(gòu)改進(jìn)和模型能力升級的思考。除此之外，他還提出并拆解了多個有趣的問題，包括：為什么蒸餾是每一次 Flash 模型突破的核心驅(qū)動力、為何能耗而非算力正成為真正瓶頸、如何提前 2–6 年進(jìn)行硬件與模型的協(xié)同設(shè)計、為什么下一次躍遷不只來自更大的上下文窗口而是來自能“仿佛在處理萬億 token” 的系統(tǒng)等。

以下是詳細(xì)對話內(nèi)容，我們在不改變原意的基礎(chǔ)上進(jìn)行了翻譯和刪減，以饗讀者。

1 下一代模型，哪些舊思路值得撿起來？

Shawn Wang：今天我們請到了谷歌首席 AI 科學(xué)家 Jeff Dean，歡迎您。能邀請到您真的太榮幸了，我看過您無數(shù)場演講，您的職業(yè)生涯堪稱傳奇。首先必須要說，恭喜你們拿下了"帕累托前沿"（Pareto Frontier）。

Jeff Dean：謝謝。帕累托前沿確實很棒，能站在這個位置很不錯。

Shawn Wang：對，我覺得是兩者兼?zhèn)洹Ｄ慵纫紦?jù)帕累托前沿，要有頂尖能力，也要兼顧效率，然后提供大家愿意用的一系列模型。這其中一部分源于你們的硬件工作，一部分來自模型工作，肯定還有很多日積月累的獨門秘訣。能看到這一切如此絲滑地整合在一起，真的非常震撼。

Jeff Dean：是的沒錯。就像你說的，這不是單一因素，而是技術(shù)棧從上到下一整套東西的結(jié)合。所有這些加在一起，才讓谷歌能夠做出能力極強的大模型，同時也通過軟件技術(shù)，把大模型的能力遷移到更小、更輕量的模型里，這些小模型成本更低、延遲更低，但在自身規(guī)模下依然能力很強。

Alessio Fanelli：那在守住帕累托前沿下限這方面，你們有多大壓力？我感覺很多新實驗室都在拼命沖性能上限，因為要融資之類的。而你們有數(shù)十億用戶。我記得你們早年做 CPU 的時候就討論過：如果每個谷歌用戶每天用三分鐘語音模型，你們就得把 CPU 數(shù)量翻倍。現(xiàn)在谷歌內(nèi)部是怎么討論的？怎么權(quán)衡“沖前沿”和“必須落地部署”這兩件事？

Jeff Dean：我們一直希望擁有前沿、甚至推動前沿的模型，因為只有這樣才能看到去年、半年前不存在的新能力。但同時我們也知道，這些頂尖模型雖然有用，但對很多更廣泛的場景來說，速度偏慢、成本偏高。所以我們的思路是：同時做兩條線，一條是高能力、低成本的模型，支持低延遲場景，讓大家能更輕松地用在智能體編程等任務(wù)上；另一條是高端前沿模型，用于深度推理、解決復(fù)雜數(shù)學(xué)問題這類場景。兩者不是二選一，而是都有用。而且通過蒸餾這一關(guān)鍵技術(shù)，你必須先有前沿模型，才能把能力蒸餾到小模型里。所以這不是非此即彼，而是相輔相成。

Alessio Fanelli：你和 Jeffrey 在 2014 年就提出了相關(guān)方案。

Jeff Dean：別忘了還有 L’Oreal Vinyls 那篇工作。

Alessio Fanelli：都是很早以前了。我很好奇，你怎么看待這些思路的迭代周期？比如稀疏模型這類想法，你們會怎么重新評估？下一代模型里，哪些舊思路值得重新?lián)炱饋?？你參與過很多后來影響巨大的想法，但在當(dāng)時未必能看出來。

Jeff Dean：蒸餾最早的出發(fā)點是，我們當(dāng)時有一個很大的圖像數(shù)據(jù)集，3 億張圖。我們發(fā)現(xiàn)，如果為不同圖像類別訓(xùn)練專用模型，比如這個專攻哺乳動物，那個專攻室內(nèi)場景，先在更寬泛的圖像上預(yù)訓(xùn)練，再對聚類后的類別用增強數(shù)據(jù)微調(diào)，效果會好很多。但如果把這 50 個模型當(dāng)成一個大集成模型，實際部署并不現(xiàn)實。于是蒸餾的思路就來了：把這些獨立的專家模型“壓縮”成一個可以實際部署的形態(tài)。這和我們今天做的事本質(zhì)差不多，只是現(xiàn)在我們不再用 50 個模型的集成，而是先訓(xùn)練一個超大模型，再把它蒸餾成小得多的模型。

Shawn Wang：我還在想，蒸餾是不是和強化學(xué)習(xí)的革新也有關(guān)系？我試著表達(dá)一下，強化學(xué)習(xí)會讓模型在分布的某一部分突飛猛進(jìn)，但可能在其他區(qū)域有損失，是一種不太均衡的技術(shù)。但或許可以通過蒸餾把它“收回來”。大家的普遍期望是：提升能力的同時不在其他地方退步。這種無損能力融合，我感覺一部分應(yīng)該可以通過蒸餾實現(xiàn)，但我還沒太理清，相關(guān)論文也不多。

Jeff Dean：我覺得蒸餾的一個核心優(yōu)勢就是：你可以用很小的模型，配合超大數(shù)據(jù)集，通過多次遍歷數(shù)據(jù)，從超大模型那里拿到邏輯概率輸出，引導(dǎo)小模型學(xué)到只用硬標(biāo)簽學(xué)不到的行為。我們觀察到，蒸餾可以讓小模型接近大模型的效果。這對很多人來說都是最佳平衡點?，F(xiàn)在 Gemini 已經(jīng)好幾代了，我們都能讓新一代的 Flash 版本達(dá)到甚至大幅超越上一代 Pro 版本的效果。我們會繼續(xù)這么做，因為這是一個很健康的方向。

Shawn Wang：達(dá)拉之前問過：最早的路線圖是 Flash、Pro、Ultra。你們是不是一直拿著 Ultra 當(dāng)“母模型”，從它里面蒸餾？Ultra 就是那個終極源頭嗎？

Jeff Dean：我們有很多種模型，有些是內(nèi)部模型，不對外發(fā)布或部署；有些是 Pro 級別模型，我們也可以從它蒸餾出 Flash 級別模型。這套能力很重要，推理時的動態(tài)擴(kuò)展也能提升模型效果。

Shawn Wang：明白。而且顯然 Flash 的成本優(yōu)勢帶來了絕對統(tǒng)治力。最新數(shù)據(jù)好像是 50 萬億 token，我記不清了，反正每天都在變。

Jeff Dean：對，希望市場份額也在往上走。

Shawn Wang：我是說從成本上看，F(xiàn)lash 太經(jīng)濟(jì)了，幾乎什么場景都能用?，F(xiàn)在 Gmail 里有，YouTube 里有，到處都有。

Jeff Dean：我們也在越來越多的搜索產(chǎn)品里用上它，包括各種 AI 模式。

Shawn Wang：我的天，F(xiàn)lash 都進(jìn) AI 搜索模式了？我都沒想到。

Jeff Dean：Flash 模型的一大優(yōu)點不只是成本更低，還有延遲更低。延遲其實非常關(guān)鍵，因為未來我們會讓模型做更復(fù)雜的事，生成更多令牌。比如你不再只讓它寫個循環(huán)，而是讓它寫一整套軟件包。能低延遲完成這些就特別重要。Flash 是一條路徑，我們的硬件平臺也支撐了很多服務(wù)能力，比如 TPU，芯片間的互聯(lián)性能極高，非常適合長上下文注意力、稀疏專家模型這類技術(shù)。這些對規(guī)?；渴鹬陵P(guān)重要。

Alessio Fanelli：那從 Pro 到 Flash 的蒸餾，會不會存在一個臨界點，差不多滯后一代？我有種感覺：很多任務(wù)今天 Pro 已經(jīng)飽和了，到下一代，同樣任務(wù)在 Flash 的價位上就能飽和。再過兩代，F(xiàn)lash 幾乎能做所有人需要的一切。那當(dāng)大部分用戶都滿足于 Flash 時，你們怎么說服內(nèi)部繼續(xù)投入去推 Pro 的前沿？我很好奇你怎么看。

Jeff Dean：如果用戶的需求分布是靜止不變的，那確實會這樣。但現(xiàn)實往往是：模型越強，人們對它的期待就越高。我自己就有體會：一年前我用模型寫代碼，簡單任務(wù)還行，復(fù)雜的就不行；現(xiàn)在我們在復(fù)雜代碼上進(jìn)步巨大，我就會讓它做更難的事。不止編程，現(xiàn)在你會讓它分析全球可再生能源部署、寫一份太陽能報告，這些都是一年前沒人會讓模型做的復(fù)雜任務(wù)。所以你依然需要更強的模型去拓展邊界，同時也能幫我們找到瓶頸：哪里還不行，該怎么改進(jìn)，讓下一代更強。

2 “把整個互聯(lián)網(wǎng)納入上下文”，讓模型處理萬億 token

Alessio Fanelli：你們內(nèi)部會用一些專屬基準(zhǔn)或測試集嗎？因為每次公開的都是那幾個基準(zhǔn)，從 97% 漲到 99%，你們內(nèi)部怎么推動團(tuán)隊：我們真正要做的目標(biāo)是什么？

Jeff Dean：公開基準(zhǔn)有它的價值，但生命周期有限。剛出來時很難，模型只有 10%–30% 正確率，你可以一路優(yōu)化到 80%–90%。但一旦到 95% 左右，邊際收益就極低了，要么是能力已經(jīng)達(dá)標(biāo)，要么是訓(xùn)練數(shù)據(jù)里出現(xiàn)了泄露或相似內(nèi)容。所以我們有一批不公開的內(nèi)部基準(zhǔn)，確保訓(xùn)練數(shù)據(jù)里完全沒有，代表模型目前還不具備、但我們希望它擁有的能力。然后我們?nèi)ピu估：是需要更專業(yè)的數(shù)據(jù)？還是架構(gòu)改進(jìn)？或是模型能力升級？怎樣才能做得更好。

Shawn Wang：能不能舉個例子：某個基準(zhǔn)直接啟發(fā)了架構(gòu)改進(jìn)？我正好順著你剛才的話問。

Jeff Dean：我覺得 Gemini 模型尤其是 1.5 首次推出的長上下文能力，就是這么來的。我們當(dāng)時的目標(biāo)就是。

Shawn Wang：當(dāng)時所有人一擁而上，全是一片飄綠的圖表，我就在想：怎么大家同一時間都突破了？

Jeff Dean：Stack Benchmark 這種基準(zhǔn)，在 1k、2k、8k 上下文長度上早就飽和了。我們真正在推的是 100 萬、200 萬上下文的前沿，因為這才有真實價值：你可以把上千頁文本、幾小時視頻放進(jìn)上下文里真正使用。單針查找已經(jīng)飽和，我們需要更復(fù)雜的“多針查找”，或是更真實的長上下文理解與生成任務(wù)，才能衡量用戶真正需要的能力，而不只是“你能不能找到這個商品編號”。

Shawn Wang：本質(zhì)是檢索，是機(jī)器學(xué)習(xí)里的檢索。我想站在更底層一點說：你看到一個基準(zhǔn)，發(fā)現(xiàn)需要改某個架構(gòu)才能解決，但你真的應(yīng)該改嗎？有時候這只是一種歸納偏置。就像曾在谷歌工作的 Jason Wei 說的：你可能短期贏了，但長期不一定能擴(kuò)展，甚至以后還要推翻重做。

Jeff Dean：我不太會糾結(jié)具體要用什么方案，而是先想清楚：我們到底需要什么能力？我們非常確定，長上下文是有用的，但現(xiàn)在的長度還遠(yuǎn)遠(yuǎn)不夠。你真正想要的，其實是回答問題的時候能把整個互聯(lián)網(wǎng)都納入上下文，對吧？但這靠單純擴(kuò)容現(xiàn)有方案是做不到的，現(xiàn)在的算法復(fù)雜度是平方級的。一百萬 tokens 已經(jīng)是現(xiàn)有方案的極限了，你不可能做到十億、更別說萬億 tokens。但如果你能營造出一種“模型可以關(guān)注萬億 tokens”的效果，那就太厲害了，應(yīng)用場景會多到爆炸。

這相當(dāng)于能把整個互聯(lián)網(wǎng)當(dāng)成上下文，能處理 YouTube 視頻的所有像素，以及我們能提取到的深層表征；不只是單個視頻，而是海量視頻。在個人版 Gemini 層面，只要你授權(quán)，模型還能關(guān)聯(lián)你所有的個人狀態(tài)：你的郵件、照片、文檔、機(jī)票信息等等。我覺得這會非常非常有用。問題在于，如何通過算法改進(jìn)和系統(tǒng)級優(yōu)化，讓模型真正有意義地處理萬億 tokens。

Shawn Wang：對了，我之前算過一筆賬：一個人每天不停說 8 小時話，一天最多也就生成 10 萬 tokens 左右，這個量現(xiàn)在完全裝得下。

Jeff Dean：沒錯。但如果你想理解所有人上傳的視頻內(nèi)容，那就完全不是一個量級了。

Shawn Wang：而且還有個經(jīng)典例子：一旦跳出文本，進(jìn)入蛋白質(zhì)這類信息密度極高的領(lǐng)域，數(shù)據(jù)量就爆炸了。

Jeff Dean：Gemini 從一開始就堅持做多模態(tài)。對很多人來說，多模態(tài)就是文本、圖片、視頻、音頻這些人類熟悉的模態(tài)。但我認(rèn)為，讓 Gemini 理解非人類模態(tài)也非常重要。比如 Waymo 自動駕駛汽車的激光雷達(dá)數(shù)據(jù)、機(jī)器人傳感器數(shù)據(jù)，還有各類醫(yī)療模態(tài)：X 光、核磁共振、醫(yī)學(xué)影像、基因組信息等等。世界上可能有幾百種數(shù)據(jù)模態(tài)，我們至少要讓模型知道：這是一種有意義、有價值的模態(tài)。哪怕你沒有在預(yù)訓(xùn)練里把所有激光雷達(dá)、MRI 數(shù)據(jù)都訓(xùn)進(jìn)去，至少加一小部分進(jìn)去也是很有用的，能讓模型對這類信息有基本概念。

Shawn Wang：正好趁這個機(jī)會，我想問一個一直想問你的問題：有沒有“王者模態(tài)”，也就是能統(tǒng)攝其他所有模態(tài)的模態(tài)？舉個簡單例子：視覺在像素級別就能編碼文本，Deepseek 那篇 OCR 論文就證明了這點。而且視覺也能處理音頻，因為可以轉(zhuǎn)成語譜圖，本質(zhì)也是視覺任務(wù)。這么說的話，視覺是不是就是王者模態(tài)？

Jeff Dean：視覺和動態(tài)時序非常重要。這里說的動態(tài)，是視頻，而不是靜態(tài)圖片。進(jìn)化讓眼睛獨立演化了 23 次，是有原因的，感知周圍世界的能力太關(guān)鍵了，而這正是我們希望這些模型具備的能力。模型要能解讀我們看到、關(guān)注到的事物，并幫我們利用這些信息去做事。

Shawn Wang：說到動態(tài)理解，我必須夸一句：Gemini 目前依然是市面上唯一原生支持視頻理解的模型，我經(jīng)常用它看 YouTube。

Jeff Dean：其實很多人還沒真正意識到 Gemini 模型的能力。我在演講里舉過一個例子：給模型一段過去 20 年里 18 個經(jīng)典體育瞬間的 YouTube 集錦，里面有喬丹總決賽絕殺、足球進(jìn)球等等。你直接把視頻丟給它，說：“幫我做一個表格，列出所有事件、發(fā)生時間和簡短描述?！?/p>

它真的能直接從視頻里抽出信息，生成一張 18 行的表格。大多數(shù)人根本想不到，模型可以直接把視頻轉(zhuǎn)成結(jié)構(gòu)化表格。

Alessio Fanelli：你剛才提到“把整個互聯(lián)網(wǎng)納入上下文”，谷歌本身就是因為人類處理不了全網(wǎng)信息，才需要做搜索排序。這對大模型來說邏輯完全不一樣：人類看搜索結(jié)果可能只看前五六條，但對大模型來說，是不是要給它 20 條高度相關(guān)的內(nèi)容？谷歌內(nèi)部是怎么思考的：如何打造一種比傳統(tǒng)人類搜索更寬泛、覆蓋更廣的 AI 模式？

Jeff Dean：即使在大模型出現(xiàn)之前，我們的排序系統(tǒng)也是這么做的：索引里有海量網(wǎng)頁，大部分都不相關(guān)，先用輕量方法篩出一批相關(guān)的，比如縮到 3 萬個文檔，再一步步用更復(fù)雜的算法、更精細(xì)的信號去精排，最終只展示給用戶 10 條左右結(jié)果。大模型系統(tǒng)的思路不會差太多。你看似要處理萬億 tokens，但實際流程是：先篩出大約 3 萬個文檔、大概 3000 萬有用 tokens；再從中精挑細(xì)選出 117 個真正值得關(guān)注的文檔，用來完成用戶任務(wù)。

你可以想象這套系統(tǒng)：先用輕量模型、高并發(fā)處理，篩出初始 3 萬候選；再用更強一點的模型把 3 萬縮到 117；最后用最強的模型去深度理解這 117 個內(nèi)容。只有這樣的系統(tǒng)，才能營造出“模型能處理萬億 tokens”的效果，就像谷歌搜索確實在搜全網(wǎng)，但最終只給你最相關(guān)的一小部分。

Shawn Wang：我經(jīng)常跟不了解谷歌搜索歷史的人說，Bert 剛出來就直接用進(jìn)了搜索，效果提升非常明顯。這對谷歌來說肯定是最核心的數(shù)據(jù)。

Jeff Dean：大模型帶來的文本表示方式，讓我們跳出了“關(guān)鍵詞必須精確匹配網(wǎng)頁”的硬限制，真正做到主題和語義相關(guān)，而不是字面對應(yīng)。

Shawn Wang：我覺得很多人根本沒意識到，大模型已經(jīng)接管了谷歌、YouTube 這種超高流量系統(tǒng)。YouTube 有個語義標(biāo)識機(jī)制，每個 token 對應(yīng)一個視頻，用碼本預(yù)測視頻，以 YouTube 的規(guī)模來說，這太夸張了。

Jeff Dean：最近 Grok 也用在了可解釋 AI 上。其實在大模型大規(guī)模用于搜索之前，我們就一直在弱化“用戶輸入什么就必須匹配什么”的思路。

Shawn Wang：你有沒有梳理過這一路的演進(jìn)歷程？

Jeff Dean：我 2009 年在一個網(wǎng)絡(luò)搜索與數(shù)據(jù)挖掘會議上做過一次演講，講了 1999 到 2004、2005 年左右，谷歌搜索和檢索系統(tǒng)的五六代架構(gòu)演進(jìn)，那部分內(nèi)容我們沒有正式發(fā)過論文。2001 年發(fā)生了一件關(guān)鍵的事：我們在多個維度擴(kuò)容系統(tǒng)。一是把索引做大，覆蓋更多網(wǎng)頁，質(zhì)量自然會提升，索引里沒有的頁面，你永遠(yuǎn)搜不出來。二是擴(kuò)容服務(wù)能力，因為流量暴漲。我們用的是分片架構(gòu)，索引變大就加分片，比如從 30 片變成 60 片，以此控制延遲。流量變大就增加副本。

后來我們算了一筆賬：一個數(shù)據(jù)中心有 60 個分片，每個分片 20 個副本，一共 1200 臺帶硬盤的機(jī)器。這些機(jī)器的內(nèi)存加起來，剛好能把整個索引全放進(jìn)內(nèi)存。于是 2001 年，我們直接把全量索引塞進(jìn)內(nèi)存，效果直接起飛。在此之前，你必須非常謹(jǐn)慎，因為每個查詢詞都要在 60 個分片上觸發(fā)一次磁盤尋道，索引越大效率越低。但全量內(nèi)存索引后，哪怕用戶只輸入三四個詞，你擴(kuò)展成 50 個相關(guān)詞都沒問題，可以加同義詞，比如 restaurant、restaurants、cafe、bistro 全都一起搜。我們終于能開始理解詞義，而不是死磕用戶輸入的字面形式。

那是 2001 年，遠(yuǎn)在大模型之前，但思路已經(jīng)是：放寬嚴(yán)格字面匹配，靠近語義理解。

3 “寫大量代碼前，先在腦子里推演一遍設(shè)計空間”

Alessio Fanelli：你設(shè)計系統(tǒng)的原則是什么？尤其是在 2001 年，互聯(lián)網(wǎng)規(guī)模每年翻幾倍、漲三倍，現(xiàn)在大模型也是每年規(guī)模和能力跳一大截。你有什么一貫的設(shè)計原則？

Jeff Dean：首先，設(shè)計系統(tǒng)時，必須先抓住最關(guān)鍵的設(shè)計參數(shù)：每秒要扛多少查詢？互聯(lián)網(wǎng)有多大？索引要做多大？每個文檔存多少信息？怎么檢索？流量再漲兩三倍還能不能扛？我一個很重要的設(shè)計原則是：把系統(tǒng)設(shè)計成能擴(kuò)容 5～10 倍，但不用更多。因為一旦變成 100 倍規(guī)模，整個設(shè)計空間會完全不一樣，原來合理的方案會直接作廢。比如從磁盤索引到內(nèi)存索引，就是流量和機(jī)器足夠多之后才變得可行的，一下子打開了全新架構(gòu)。

我很喜歡在寫大量代碼之前，先在腦子里把設(shè)計空間推演一遍?；氐焦雀柙缙?，我們不僅在瘋狂擴(kuò)大索引，索引更新頻率才是變化最夸張的指標(biāo)。以前是一個月更新一次，后來我們做到了單頁面一分鐘內(nèi)更新。

Shawn Wang：這就是核心競爭力對吧？

Jeff Dean：沒錯。新聞類查詢，如果你的索引還是上個月的，那就完全沒用。

Shawn Wang：新聞是個特殊場景，你們當(dāng)時就不能把它拆成獨立系統(tǒng)嗎？

Jeff Dean：我們確實推出了谷歌新聞，但用戶在主搜索里輸新聞相關(guān)關(guān)鍵詞，也必須拿到最新結(jié)果。

Shawn Wang：所以你們還要分類頁面，判斷哪些頁面該高頻更新、頻率是多少。

Jeff Dean：背后有一整套系統(tǒng)，用來決定頁面的更新頻率和重要度。有些頁面雖然變化概率低，但只要更新價值極高，依然會非常頻繁地重新抓取。

Shawn Wang：說到延遲和存儲，我必須提你的一篇經(jīng)典之作：《每個程序員都該知道的延遲數(shù)字》。背后有什么故事嗎？就是隨手整理的？

Jeff Dean：里面大概列了八九種、十來項指標(biāo)：緩存失效開銷、分支預(yù)測失敗開銷、內(nèi)存訪問開銷、從美國發(fā)數(shù)據(jù)包到荷蘭的時間等等。

Shawn Wang：順便問一下，為什么是荷蘭？是因為 Chrome 的關(guān)系嗎？

Jeff Dean：我們當(dāng)時在荷蘭有個數(shù)據(jù)中心。其實這就回到了快速估算這件事上。這些都是最基礎(chǔ)的指標(biāo)，你可以拿它們來做判斷：比如我要做圖片搜索、生成縮略圖，我是提前算好縮略圖，還是實時從大圖里生成？需要多少帶寬？會產(chǎn)生多少次磁盤尋道？你只要手里有這些基礎(chǔ)數(shù)值，幾十秒就能在腦子里做一遍推演。等你用更高級的庫寫軟件時，也要培養(yǎng)出同樣的直覺：比如在某種結(jié)構(gòu)里查一次數(shù)據(jù)大概要多久。

Shawn Wang：這就是簡單的字節(jié)換算，沒什么特別的。我在想，如果你要更新那篇文章的話……

Jeff Dean：我覺得很有必要去算一下模型里的計算量，不管是訓(xùn)練還是推理。

Jeff Dean：一個很好的視角是：你需要從內(nèi)存里搬運多少狀態(tài)，片上 SRAM、加速器的 HBM、DRAM，還是網(wǎng)絡(luò)傳輸？然后對比一下，數(shù)據(jù)搬運的成本，和矩陣乘法單元里一次實際乘法運算的成本差多少。其實計算成本非常非常低，根據(jù)精度不同，大概不到 1 pJ。

Shawn Wang：哦，懂了，你是用能耗來衡量的。

Jeff Dean：對，核心就是能耗，以及如何做出能效最高的系統(tǒng)。在同一塊芯片上，只是從一邊的 SRAM 傳到另一邊，能耗就可能達(dá)到 1000 pJ。這就是為什么加速器一定要用批處理（batching）。如果你把一個模型參數(shù)從片上 SRAM 搬到乘法單元，要花 1000 pJ，那你最好把這個參數(shù)重復(fù)用好多次。這就是 batch 維度的意義。batch 設(shè)成 256 就還好，但如果是 1，那就非常不劃算。

Shawn Wang：對，沒錯。

Jeff Dean：因為你花了 1000 pJ，就為了做一次 1 pJ 的乘法。

Shawn Wang：我從來沒聽過從能耗角度去解釋批處理。

Jeff Dean：這就是大家用 batch 的根本原因。理論上，batch=1 延遲最完美，但能耗和計算效率的浪費實在太大了。

Shawn Wang：延遲是最好的。

Jeff Dean：對，但代價太高。

4 TPU 的神級決策：反過來調(diào)整模型架構(gòu)

Shawn Wang：那有沒有類似當(dāng)年“把索引全放進(jìn)內(nèi)存”這種神級技巧？比如 NVIDIA 這次押注 SRAM 搞 Grok，引起很大轟動。我在想，你們做 TPU 的時候是不是早就看到這一點了？畢竟要支撐你們的規(guī)模，肯定提前預(yù)判到了。從這些現(xiàn)象里，你們總結(jié)出了哪些硬件創(chuàng)新或洞察？

Jeff Dean：TPU 有很規(guī)整的結(jié)構(gòu)，2D 或 3D 網(wǎng)格，很多芯片連在一起，每塊都掛著 HBM。

在部署某些模型時，從 HBM 拿數(shù)據(jù)比從片上 SRAM 拿數(shù)據(jù)，成本和延遲都高得多。所以如果模型夠小，你可以用模型并行，把它分散到很多芯片上，吞吐量和延遲都會明顯提升。把一個中小模型打散到 16、64 塊芯片上，如果全都能放進(jìn) SRAM，提升會非常巨大。這不算意外，但確實是個好技巧。

Alessio Fanelli：那 TPU 的設(shè)計呢？你們怎么決定改進(jìn)方向？舉個例子，有沒有辦法把 1000 pJ 降到 50？值得為了這個專門設(shè)計一顆新芯片嗎？最極端的就是有人說，直接把模型燒進(jìn) ASIC。領(lǐng)域變化這么快，多少事值得用硬件來解決？內(nèi)部是怎么討論的？

Jeff Dean：我們 TPU 芯片設(shè)計架構(gòu)團(tuán)隊和高層建模專家之間有大量協(xié)作。因為你需要協(xié)同設(shè)計：根據(jù)機(jī)器學(xué)習(xí)研究的未來方向，去定義下一代 TPU 應(yīng)該長什么樣。做 ML 硬件的人都知道，今天開始設(shè)計一顆芯片，可能兩年后才進(jìn)數(shù)據(jù)中心，還要用三四年。你必須預(yù)測未來 2～6 年，人們會想跑什么機(jī)器學(xué)習(xí)計算。所以，要有一批人去研究：哪些思路在那段時間里會起效、會更重要。這樣我們才能把有用的硬件特性，加到未來幾代的 TPU 里。

Shawn Wang：芯片迭代周期是兩代之后？

Jeff Dean：差不多。小改動可以塞進(jìn)下一代，大改動必須提前更早啟動設(shè)計。只要條件允許，我們都會這么做。有時會加一些試探性的功能，占芯片面積不大，但如果成了，能直接快 10 倍；就算不成，也就浪費一點點面積，問題不大。但如果是特別大的改動，我們就會非常謹(jǐn)慎，做大量實驗來確認(rèn)方向是對的。

Alessio Fanelli：那有沒有反過來的情況：因為芯片設(shè)計已經(jīng)定了，所以模型架構(gòu)不能那么走，因為不匹配？

Jeff Dean：肯定有。你會反過來調(diào)整模型架構(gòu)，讓它在那一代芯片上訓(xùn)練和推理更高效。兩邊是互相影響的。比如未來一代芯片支持更低精度，你甚至可以提前用那個精度訓(xùn)練，哪怕當(dāng)前一代還不完全支持。

Shawn Wang：那精度到底能壓到多低？

Jeff Dean：很多人在說三值精度。我個人非常支持極低精度，因為能省巨大量的能耗。能耗是按每比特傳輸算的，減少比特數(shù)是最直接的方式。業(yè)界已經(jīng)在極低比特精度上取得了很多效果，再配上一組權(quán)重的縮放因子，效果就很穩(wěn)。

Shawn Wang：有意思，低精度，但帶縮放權(quán)重。我以前沒想過這點。

Shawn Wang：說到這，我覺得精度這個概念本身在采樣場景里就很奇怪。我們堆了這么多算力超強的芯片，最后前面還要掛一個隨機(jī)數(shù)生成器。現(xiàn)在業(yè)界有往能量基模型、能量導(dǎo)向處理器發(fā)展的趨勢，你顯然也思考過，能說說你的看法嗎？

Jeff Dean：確實有幾個有意思的方向。能量基模型是一個，不按順序逐 token 解碼的擴(kuò)散模型是另一個。還有 speculative decoding（推測解碼），相當(dāng)于一個很小的草稿 batch，先預(yù)測 8 個 token，有效 batch size 就擴(kuò)大 8 倍，最后接受其中 5～6 個。這樣分?jǐn)傁聛?，把?quán)重搬到乘法單元里的成本就被攤薄了，能帶來幾倍的提升。這些都是非常好的技巧。而且一定要從真實能耗、延遲、吞吐量這幾個角度去看，你才會找到正確的方向：要么能服務(wù)更大模型，要么同等模型成本更低、延遲更低。

Shawn Wang：這個思路在理論上很吸引人，只是還沒真正成為主流。但某種意義上還挺有美感的，如果從硬件底層就設(shè)計好，我們就不用搞那么多取巧的辦法。

Jeff Dean：還有一些更前沿的方向，比如模擬計算基底，而不是數(shù)字電路。理論上能效可能極高，但問題是你要跟數(shù)字系統(tǒng)對接，數(shù)模、模數(shù)轉(zhuǎn)換那部分會吃掉大部分能效優(yōu)勢。但即便只看數(shù)字方向，靠更專用、更高效的硬件，能效上我們還有巨大的提升空間。

5 大一統(tǒng)模型時代到來，不需要專家了？

Alessio Fanelli：你還看到哪些有意思的研究方向？或者有什么在谷歌暫時沒法做，但希望其他研究者去嘗試的方向？

Jeff Dean：我們的研究布局已經(jīng)很廣了。有很多開放問題：怎么讓模型更可靠，能做更長、更復(fù)雜、包含大量子任務(wù)的事情？怎么實現(xiàn)模型調(diào)用其他模型當(dāng)工具，組合起來完成遠(yuǎn)比單模型更有意義的工作？這部分非常有意思。還有，怎么讓強化學(xué)習(xí)在不可驗證的領(lǐng)域也能生效？這是個很棒的開放問題。如果能把數(shù)學(xué)、代碼上的進(jìn)步，復(fù)制到其他沒那么容易驗證的領(lǐng)域，模型能力會再上一個大臺階。

Alessio Fanelli：之前 Noam Brown 來節(jié)目里說，他們已經(jīng)用深度推理證明了這點。某種意義上，你們的 AI 模式也是不可驗證的。我在想這里面有沒有共通的線索？比如都在做信息檢索、返回 JSON。是不是檢索就是那個可以打分、可以驗證的部分？你怎么理解這個問題？

Jeff Dean：可以用其他模型來評估第一個模型的結(jié)果，甚至做檢索。比如讓另一個模型判斷：檢索回來的內(nèi)容相關(guān)嗎？2000 條里最相關(guān)的 50 條是哪些？這類方法其實非常有效。甚至可以就是同一個模型，只是換個提示詞，從“檢索系統(tǒng)”變成“評判器”。

Shawn Wang：我總覺得有一道很明顯的坎：好像簡單的事都做完了，剩下的都特別難。其實每年大家都這么覺得。尤其是 RLVR 這塊，所有人都在問：不可驗證問題的下一階段到底怎么做？然后大家都說：不知道，等著評判。

Jeff Dean：這個領(lǐng)域好就好在，有無數(shù)聰明人在給這些難題想創(chuàng)造性的解法。大家都看得很清楚：模型在某些事上很強，但在邊緣場景就會拉胯。提出技巧、驗證效果、推動進(jìn)步，就是這個領(lǐng)域研究的核心。你想想兩年前，我們連 GSM8K 這種小學(xué)數(shù)學(xué)題都費勁?，F(xiàn)在呢？模型已經(jīng)能純靠語言解國際奧數(shù)、埃爾德什級別的問題。一年半里能力的躍遷是驚人的，其他領(lǐng)域我們暫時還沒完全看清楚路徑，但有一些已經(jīng)看到曙光，我們會全力把這種飛躍復(fù)制過去。

Shawn Wang：沒錯。

Alessio Fanelli：比如 YouTube 縮略圖生成，這個功能會非常實用，我們太需要了。這簡直就是 AGI 級別的需求。

Shawn Wang：對內(nèi)容創(chuàng)作者來說絕對是。

Jeff Dean：我不是 YouTube 創(chuàng)作者，所以對這個問題沒那么敏感，但我知道很多人很在意。

Shawn Wang：確實大家很看重。畢竟大家真的會“以封面論視頻”?；氐綂W數(shù)那個話題，我到現(xiàn)在還覺得很不可思議：一年前我們還在搞 AlphaProof、AlphaGeometry 這些專門的系統(tǒng)，今年直接一句“算了，全都塞進(jìn) Gemini 就行”。你怎么看這件事？過去大家普遍認(rèn)為，符號系統(tǒng)和大模型必須結(jié)合，但后來大家直接選擇：全都用大模型解決。

Jeff Dean：我覺得這很合理。人類確實會操作符號，但我們腦子里大概率沒有一個明確的符號系統(tǒng)，而是某種分布式表征，本質(zhì)上接近神經(jīng)網(wǎng)絡(luò)。大量神經(jīng)元在特定情況下產(chǎn)生激活模式，讓我們能推理、規(guī)劃、做思維鏈，發(fā)現(xiàn)一條路走不通就換一條。在很多方面，基于神經(jīng)網(wǎng)絡(luò)的模型，其實是在模擬我們直覺中大腦里發(fā)生的事情。所以對我來說，把完全離散、獨立的符號系統(tǒng)，和另一套完全不同的思考機(jī)制分開，從來就不太合理。

Shawn Wang：有意思。對你來說可能理所當(dāng)然，但一年前我可不是這么想的。

Jeff Dean：你看奧數(shù)任務(wù)也是一樣，最開始要翻譯成 Lean 語言、用專門工具，第二年還要專用幾何模型，到今年直接換成一個統(tǒng)一模型，就是線上正式版模型，只是多給了一點推理資源。

這其實很好，說明通用模型的能力大幅提升，不再需要專用模型。這和 2013 到 2016 年那波機(jī)器學(xué)習(xí)的發(fā)展非常像：以前每個任務(wù)都要單獨訓(xùn)模型，識別路標(biāo)訓(xùn)一個，語音識別訓(xùn)一個?，F(xiàn)在，大一統(tǒng)模型的時代真的來了。關(guān)鍵在于，這些模型在從未見過的新任務(wù)上泛化能力如何，而它們正在變得越來越強。

Shawn Wang：而且不再需要領(lǐng)域?qū)＜?。我之前采訪過相關(guān)團(tuán)隊的人，他說：我完全不懂奧數(shù)，不知道比賽在哪舉行、規(guī)則是什么，我只管訓(xùn)模型。挺有意思的，現(xiàn)在只要有機(jī)器學(xué)習(xí)這種通用技能，給數(shù)據(jù)、給算力，就能搞定幾乎任何任務(wù)。這大概就是所謂的“苦澀教訓(xùn)”吧。

Jeff Dean：我認(rèn)為，通用模型在絕大多數(shù)情況下都會勝過專用模型。

6 未來模型知識直接“裝”，“像下載軟件包一樣”

Shawn Wang：這點我想再追問一下。我覺得這里有個漏洞：模型的容量是抽象的，它能裝下的知識只有參數(shù)量對應(yīng)的比特數(shù)。誰都知道 Gemini Pro 有幾萬億參數(shù)，但具體沒人知道。但像 Gemma 這類模型，很多人想要開源、本地跑的小模型，它們必然裝不下所有知識。大模型有條件什么都知道，但小模型在蒸餾、壓縮的過程中，其實會記住很多沒用的東西。所以我們能不能把知識和推理剝離開？

Jeff Dean：你確實希望模型把推理做到最強，同時具備檢索能力。讓寶貴的參數(shù)空間去記那些可以查到的冷僻知識，其實不是最優(yōu)使用方式。你更希望參數(shù)用在更通用、更多場景都有用的能力上。但同時，你也不想讓模型完全脫離世界知識。比如知道金門大橋大概有多長，對“橋有多長”有個基本概念，這類常識是有用的。它不需要知道世界上某個偏僻小橋的長度，但具備相當(dāng)規(guī)模的世界知識是有幫助的，模型越大，能裝的就越多。但我確實認(rèn)為，把檢索和推理結(jié)合起來，讓模型擅長多輪檢索，會是關(guān)鍵方向。

Shawn Wang：并且基于中間檢索結(jié)果做推理，會讓模型看起來比實際強得多。比如個人版 Gemini。

Jeff Dean：我們不太可能把我的郵件拿去訓(xùn) Gemini。更合理的方式是：用一個統(tǒng)一模型，把檢索我的郵件、我的照片當(dāng)成工具，讓模型基于這些信息去推理、交互，分多輪完成任務(wù)。這樣才合理。

Alessio Fanelli：你覺得垂直領(lǐng)域模型有意義嗎？比如很多人說“我們要做最好的醫(yī)療大模型、最好的法律大模型”。這些只是短期過渡方案嗎？

Jeff Dean：不，我覺得垂直模型是有價值的。你可以從一個很強的基座模型出發(fā)，然后在醫(yī)療、機(jī)器人這類垂直領(lǐng)域富集數(shù)據(jù)分布。我們不太可能把所有機(jī)器人數(shù)據(jù)都塞進(jìn) Gemini 訓(xùn)練，因為要保持能力均衡。我們會給它看一部分機(jī)器人數(shù)據(jù)，但如果你想做一個極致優(yōu)秀的機(jī)器人模型，就要在通用模型基礎(chǔ)上，再用更多機(jī)器人數(shù)據(jù)去訓(xùn)練。它可能會因此損失一點翻譯能力，但機(jī)器人能力會大幅提升。

我們訓(xùn)練基座 Gemini 時，一直在做這類數(shù)據(jù)配比權(quán)衡。我們很想加入 200 多種語言的數(shù)據(jù)，但這會擠占其他能力：可能 Pearl 編程就沒那么強了，Python 還能保住，但其他小眾語言或多模態(tài)能力可能會受影響。所以我認(rèn)為，未來是專用模型加模塊化模型的組合。你可以同時擁有 200 種語言、超強機(jī)器人模塊、超強醫(yī)療模塊，在不同場景下調(diào)用。比如處理醫(yī)療問題時，就把醫(yī)療模塊和基座模型一起用上，效果會更好。

Shawn Wang：可安裝的知識。

Jeff Dean：沒錯。

Shawn Wang：像下載軟件包一樣。

Jeff Dean：一部分可安裝知識可以來自檢索，另一部分應(yīng)該來自預(yù)訓(xùn)練，比如提前用 1000 億、1 萬億 token 的醫(yī)療數(shù)據(jù)訓(xùn)好。

Shawn Wang：Gemma 3 的論文里已經(jīng)有一點這個味道了。

Alessio Fanelli：問題是，你到底需要幾千億 token，才能追上前沿基座模型的進(jìn)步速度？如果我想做一個更強的醫(yī)療模型，而主模型 Gemini 還在不停進(jìn)化，我需要 500 億 token 嗎？1000 億？如果需要一萬億醫(yī)療 token，那數(shù)據(jù)根本就不存在。

Jeff Dean：醫(yī)療是一個特別有挑戰(zhàn)的領(lǐng)域。很多醫(yī)療數(shù)據(jù)我們沒有合適的訪問權(quán)限，但很多醫(yī)療組織希望用自己的私有數(shù)據(jù)訓(xùn)模型。所以機(jī)會在于：和大型醫(yī)療機(jī)構(gòu)合作，為它們定制模型，效果很可能比只用公開數(shù)據(jù)訓(xùn)練的通用模型更好。

Shawn Wang：對了，這和語言的話題也有點像。你最喜歡舉的一個例子就是：把低資源語言放進(jìn)上下文里，模型直接就能學(xué)會。

Jeff Dean：對，我們用過一個叫 Calaba 的語言，資源極度稀缺，全世界只有大概 120 個人說，還沒有文字。

Shawn Wang：直接放進(jìn)上下文就行，把整個數(shù)據(jù)集塞進(jìn)去。

Jeff Dean：像索馬里語、阿姆哈拉語這類語言，世界上是有一些文本的。我們不會把所有數(shù)據(jù)都放進(jìn) Gemini 訓(xùn)練，但放得越多，模型能力就越強。

Shawn Wang：我個人對語言學(xué)有副業(yè)興趣，大學(xué)時修過幾門課。如果我是語言學(xué)家，能用上這些模型，我會去問關(guān)于語言本身的根本性問題。比如薩丕爾—沃爾夫假說：你說的語言在多大程度上影響你的思維？有些語言里存在其他語言沒有的概念，也有很多概念是重復(fù)的。還有一篇很有名的論文提到“柏拉圖表征”：比如“杯子”的圖片，配上大量帶“cup”的文本，最后表征會收斂到差不多同一個位置。這套邏輯理論上也適用于語言，但有些地方不適用，而這些不適用的地方，恰恰反映了人類獨有的概念差異，有些概念甚至英語里都不存在。這部分我覺得非常有意思。

Jeff Dean：我早年做過一個模型，把文本表征和圖像模型結(jié)合起來，在 ImageNet 這類數(shù)據(jù)上訓(xùn)練，然后把頂層表征融合。你會發(fā)現(xiàn)，給模型一張它從未見過的新圖片，它往往能給出正確標(biāo)簽。比如，模型學(xué)過望遠(yuǎn)鏡和雙筒望遠(yuǎn)鏡，但沒見過顯微鏡。給它看顯微鏡的圖片，它居然能輸出“microscope”這個標(biāo)簽，盡管從來沒見過帶這個標(biāo)簽的圖。

Shawn Wang：這太酷了。

7 8 歲就開始琢磨：用算力做大神經(jīng)網(wǎng)絡(luò)

Shawn Wang：以你的視野，我們聊了硬件、模型、研究，你最希望被問到哪一類問題？

Jeff Dean：有件事我覺得挺有意思的。1990 年我本科畢業(yè)論文就做的是神經(jīng)網(wǎng)絡(luò)并行訓(xùn)練。那時候我就覺得，神經(jīng)網(wǎng)絡(luò)是正確的抽象方向，只是算力遠(yuǎn)遠(yuǎn)不夠。系里那臺 32 核的并行計算機(jī)，只能跑出稍微有趣一點的模型，遠(yuǎn)遠(yuǎn)解決不了真實問題。直到 2008、2009 年，摩爾定律帶來了足夠的算力，加上更大的數(shù)據(jù)集，神經(jīng)網(wǎng)絡(luò)才真正開始解決大家關(guān)心的真實問題：語音、視覺，最后是語言。

2011 年底我在谷歌開始做神經(jīng)網(wǎng)絡(luò)時，就堅定地認(rèn)為：我們要用大規(guī)模并行計算，把神經(jīng)網(wǎng)絡(luò)的規(guī)模拉上去。我甚至把本科論文里的一些思路重新?lián)炝似饋?，包括模型并行、?shù)據(jù)并行，并且做了對比。可以說，我從 8 歲就開始琢磨這些事了，只不過那時候叫法不一樣。

Shawn Wang：那篇論文是公開的嗎？我們能找到嗎？

Jeff Dean：可以的，網(wǎng)上就能查到。過去這 15 年里，把這些技術(shù)整合在一起，全力做規(guī)模化，是非常關(guān)鍵的。這既包括硬件層面的進(jìn)步，比如推動 TPU 這類專用芯片的研發(fā)，也包括軟件層面，做更高層的抽象，讓人們能更方便地把想法交給計算機(jī)去實現(xiàn)。

Shawn Wang：你當(dāng)時是否認(rèn)同這個觀點？或者現(xiàn)在有不同的復(fù)盤？

Jeff Dean：說的是算力配額的“大腦市場”機(jī)制？

Shawn Wang：對，算力配額。David 之前在 OpenAI 做負(fù)責(zé)工程的副總裁，后來也去過谷歌。他的核心觀點是：OpenAI 敢于 all in，把賭注全壓在一件事上；而谷歌更加“民主化”，每個人都有自己的配額。如果你相信規(guī)?；苤匾?，那這就是一個全公司層面的關(guān)鍵決策。

Jeff Dean：我部分同意。事實上，我當(dāng)時還寫過一頁紙的備忘錄，說我們把資源碎片化是很愚蠢的。那時候，谷歌研究室和 Brain 團(tuán)隊在做大語言模型，其他部門在做多模態(tài)，DeepMind 那邊也在做 Chinchilla、Flamingo 這些模型。結(jié)果就是，我們不僅算力被拆分，最優(yōu)秀的人才和精力也被拆分了。我當(dāng)時就說，這樣太傻了，為什么不合并起來，集中力量做一個從頭就是多模態(tài)、全能的大一統(tǒng)模型？這就是 Gemini 項目的起源。

Shawn Wang：你這一頁紙的備忘錄成了，很不錯。當(dāng)時名字想好了嗎？大家都知道，Gemini 是你取的。

Jeff Dean：是我取的。當(dāng)時還有另一個候選名字，但我覺得，兩個團(tuán)隊合在一起，某種意義上就像雙胞胎。而且 NASA 也有 Gemini 計劃，是阿波羅登月之前非常關(guān)鍵的一步。所以這個名字很合適，代表雙子攜手。

8 史上最高產(chǎn)工程師寫代碼：帶 50 個“AI 實習(xí)生”

Alessio Fanelli：很棒。我知道時間不多了，最后很好奇：你現(xiàn)在怎么用 AI 寫代碼？你可以說是計算機(jī)歷史上最高產(chǎn)的工程師之一。我看過一篇文章，講你和 Sanjay 的合作方式，你說過：要找到和你思維合拍的人結(jié)對編程，兩個人加起來才會是互補的合力。我就在想，你怎么看待代碼智能體？你會怎么塑造一個和你思維兼容的代碼助手？現(xiàn)在的工具你打幾分？未來方向在哪？

Jeff Dean：首先，代碼工具相比一兩年前已經(jīng)強太多了，現(xiàn)在真的可以把更復(fù)雜的任務(wù)交給它們。人類工程師和代碼模型之間的互動方式，其實會反過來決定它怎么配合你。你可以讓它寫完備的測試，也可以讓它幫你 brainstorm 性能優(yōu)化思路。你和它交互的方式，會決定它的輸出風(fēng)格、解決問題的粒度，以及你希望它更自主，還是更頻繁地和你對齊。沒有哪一種風(fēng)格是萬能的。有些問題你需要高頻交互，有些問題你直接說“幫我把這個實現(xiàn)出來”就行。

未來會出現(xiàn)更多獨立軟件智能體，幫你代勞各種事情。難點在于設(shè)計合適的人機(jī)交互模式、界面，決定它什么時候該打斷你：“我需要更多指引”或者“我做完了，下一步做什么”。這部分我們還沒有終極答案，模型變強之后，交互模式還會變。你可以想象成：你帶了 50 個實習(xí)生，你會怎么管理？如果他們能力很強，你可能真的會想要 50 個。

Shawn Wang：但管理成本也很高。

Jeff Dean：沒錯。但未來很可能每個人都能擁有 50 個虛擬實習(xí)生。那你該怎么安排？你肯定會讓他們組成小組，你不用管 50 個人，只需要對接 5 個小組，讓他們各自干活。最終會演變成什么樣，我也不完全確定。

Alessio Fanelli：那人與人的協(xié)作呢？AI 輔助編程的好處是能帶來新的思路。但如果有大量代碼智能體在并行寫代碼，其他人要介入就很困難，因為要追上巨量的上下文。你會不會擔(dān)心，團(tuán)隊里的人會變得更孤立？

Jeff Dean：有可能。但反過來想，傳統(tǒng)沒有 AI 輔助的團(tuán)隊，50 個人干活，組織結(jié)構(gòu)天然是層級化的，各組之間交互不多。但如果是 5 個人，每人管理 50 個虛擬智能體，這 5 個人之間的溝通帶寬，反而可能比傳統(tǒng) 5 個組長協(xié)調(diào) 50 個人的模式更高。

Alessio Fanelli：那你自己的工作節(jié)奏有改變嗎？會不會花更多時間和人對齊架構(gòu)、設(shè)計目標(biāo)？

Jeff Dean：我覺得很有意思的一點是：以前教別人寫軟件，都會說要把需求文檔寫清楚，但大家其實都不當(dāng)回事。但現(xiàn)在，如果你要讓智能體幫你寫代碼，你必須極其清晰地定義需求，這會直接決定輸出質(zhì)量。你沒說它要處理某種邊界情況、沒強調(diào)性能要求，它就可能不做。人們會越來越擅長清晰、無歧義地描述目標(biāo)，這其實不是壞事，不管是不是工程師都是一項有用的技能。

Shawn Wang：我開玩笑說，現(xiàn)在給模型下指令，和高階高管溝通沒區(qū)別，像寫內(nèi)部備忘錄一樣，字斟句酌。而且我認(rèn)為多模態(tài)非常重要。谷歌的 Anti-Gravity 團(tuán)隊一上來就做了很強的多模態(tài)，包括視頻理解。這是你能給模型的、最高帶寬的“提示詞”，非常強。

Alessio Fanelli：你平時是怎么整理自己腦子里那些經(jīng)驗的？比如你那種超強的性能優(yōu)化直覺，大家都說你一眼就能看出哪里能提效。那如果把這些經(jīng)驗寫成通用文檔，再讓模型去檢索學(xué)習(xí)，會不會很有價值？就像邊界情況，就是個很好的例子。做系統(tǒng)的人腦子里都有特定的邊界場景，但現(xiàn)在每次都要重復(fù)說一遍。你覺得人們會花更多時間去寫文檔、提煉通用經(jīng)驗嗎？

Jeff Dean：我確實認(rèn)為，寫得好的軟件工程指南會非常有用。既可以給模型當(dāng)輸入，也可以讓其他開發(fā)者參考，讓他們在寫提示詞時，更清楚底層系統(tǒng)應(yīng)該實現(xiàn)什么。不一定需要為每個場景單獨定制，只要有通用指南，放進(jìn)代碼智能體的上下文里，就會很有幫助。比如分布式系統(tǒng)，可以列出：要考慮哪些故障類型、有哪些處理方案，像 Paxos 復(fù)制、雙寫請求、只要一個返回即可容忍故障等。把 20 個這類分布式系統(tǒng)設(shè)計技巧總結(jié)一下，就能很大程度提升代碼智能體生成可靠、健壯分布式系統(tǒng)的能力。

9 延遲能突破 1 萬 token/s，人類不用讀代碼了

Shawn Wang：我就在想，Gemini 什么時候能自己造出 Spanner（解決了分布式系統(tǒng) CAP 不可能三角的關(guān)系型數(shù)據(jù)庫）？

Alessio Fanelli：搞不好代碼它早就全看過了。這就是個好例子。CAP 定理是公認(rèn)的真理，不能打破，但最后你們還是做出了看似打破它的東西。

Shawn Wang：我很好奇，模型算不算某種意義上“打破”了它？你會說你們打破了 CAP 定理嗎？在特定假設(shè)下，比如精準(zhǔn)時鐘同步的前提下。

Alessio Fanelli：有時候你不必死守所謂的真理。但模型有時候會過于相信你告訴它的東西。

Jeff Dean：回到提示詞和迭代的問題。我一直想做一個對比實驗：一種是，用三次快速但普通的模型調(diào)用，中間加入人類對齊，人看一遍結(jié)果，再給新提示；另一種是，花很久寫一個超長、超精細(xì)的提示詞，直接丟給一個超強模型一次做完。我想看看這兩種方式的效果差距。很多時候效果不好，不是模型不行，而是需求描述不完整，模型根本不可能猜到你想要什么。

Shawn Wang：就是定義不清晰，模型可以生成 10 個結(jié)果，只有一個是你想要的。而用輕量快模型多輪交互，反而夠用。

Jeff Dean：我非常重視延遲。低延遲交互體驗，比慢 10 倍、20 倍的系統(tǒng)舒服太多。未來我們會看到模型、軟件、硬件整體延遲比現(xiàn)在低 20 倍、50 倍，這對需要大量交互的系統(tǒng)至關(guān)重要。

Shawn Wang：現(xiàn)在有兩個極端，一邊是極致快，另一邊是 DeepThink 這種極致深思考。

Jeff Dean：如果不考慮成本和延遲，所有人都會一直用 DeepThink。如果底層硬件和系統(tǒng)把延遲再提 20 倍，成本下來，沒理由不用。

Shawn Wang：帕累托曲線會一直往上走，不斷外擴(kuò)。我們來問點預(yù)測吧。你有沒有什么一直關(guān)注的小測試，或者哪些東西你覺得現(xiàn)在還不夠好，但很快能實現(xiàn)？

Jeff Dean：我說兩個不算這一類的預(yù)測吧。第一，了解你、能訪問你所有授權(quán)的個人數(shù)據(jù)的個性化模型，相比通用模型會帶來巨大的價值提升。能關(guān)聯(lián)我所有的郵件、照片、看過的視頻、一切信息，這會非常有用。第二，越來越專用的硬件會讓模型延遲更低、能力更強、成本更親民，這一點也會非常關(guān)鍵。

Shawn Wang：你說的低延遲，大家一般用 token 每秒衡量。現(xiàn)在大概是 100 token/s，你覺得能到 1000？10000 有意義嗎？

Jeff Dean：絕對有。因為有思維鏈推理。你可以并行做更多輪推演，生成更多代碼，再用思維鏈校驗正確性。10000 token/s 會非常強。

Shawn Wang：到 10000 token/s，人就不用讀代碼了，直接讓模型生成。

Jeff Dean：它最終不一定輸出 10000 token 代碼，可能只有 1000 token 代碼，但背后有 9000 token 的推理過程，這樣的代碼質(zhì)量會高得多。

Alessio Fanelli：就像“如果我有更多時間，我會寫一封更短的信”。Jeff，今天太棒了，感謝你的時間。

Jeff Dean：很開心，謝謝邀請。

https://youtu.be/F_1oDPWxpFQ

聲明：本文為 InfoQ 整理，不代表平臺觀點，未經(jīng)許可禁止轉(zhuǎn)載。

InfoQ 新年禮物上線啦！

AI 快訊輪播推送正式上線，給你更優(yōu)的閱讀體驗、更強的 AI 賦能、更懂 AI 行業(yè)的資訊檢索～我們會持續(xù)優(yōu)化體驗，追求更深度的 AI 能力內(nèi)化改造，歡迎大家體驗并反饋！立即前往 InfoQ 官網(wǎng)，體驗 AI 快訊帶來的全新閱讀感受吧！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.