Jeff Dean萬字訪談：我們正在殺死割裂AI應(yīng)用，2026是大一統(tǒng)元年

2026-02-18 20:02:25　來源: DeepTech深科技

河南舉報

分享至

谷歌最資深的傳奇人物之一杰夫·迪恩（Jeff Dean）的開年訪談來了。自 1999 年加入谷歌至今，他堪稱是谷歌穩(wěn)若磐石般的存在，不僅是打下谷歌技術(shù)基石的奠基者，也是谷歌 AI 的核心推動者之一。

圖 | 杰夫·迪恩（Jeff Dean）（來源：Google）

從早期的 MapReduce、BigTable 等谷歌基礎(chǔ)設(shè)施，到引領(lǐng)深度學(xué)習(xí)的規(guī)模化革命，再到如今主導(dǎo) Gemini 系列模型的研發(fā)，他的技術(shù)事業(yè)貫穿了谷歌的整個發(fā)展歷史。

在 2026 年 2 月的這場開年訪談中，他談到了人類未來可能會擁有自己的個人專屬 Gemini，能在經(jīng)允許后訪問個人郵件和照片在內(nèi)的你的所有網(wǎng)絡(luò)內(nèi)容。

他還提到了 AI 能力的演進(jìn)：“最終肯定個不是 10,000 tokens 的代碼，而是 1,000 tokens 的代碼，背后帶著 9,000 tokens 的推理過程。這實(shí)際上可能是更好讀的代碼。”這句話揭示了 AI 發(fā)展的新方向之一，那就是讓模型在思考上花費(fèi)更多時間，而非單純地追求輸出規(guī)模。

在這場橫跨硬件、模型與未來預(yù)言的深度對話中，Jeff Dean 用他貫穿谷歌四分之一個世紀(jì)的技術(shù)視野，為我們勾勒出 AI 發(fā)展的清晰脈絡(luò)。從蒸餾到稀疏，從 TPU 到萬億 tokens 的幻覺，最終指向那個樸素而深刻的真理，未來的代碼或許更短，但藏在背后的思考將更長。

以下為 DeepTech 基于采訪原文做的訪談?wù)怼?/p>

訪談全文：

關(guān)于帕累托前沿

主持人：能請到你來演播室，感覺有點(diǎn)不太真實(shí)。我看過你太多的演講，你的職業(yè)生涯堪稱傳奇。我想首先必須得說，恭喜你登上了帕累托前沿。（編者注：帕累托前沿指在資源有限的情況下，無法在不損害另一目標(biāo)的前提下讓某個目標(biāo)變得更好。Jeff Dean 團(tuán)隊(duì)在模型性能和效率上都做到了極致，占據(jù)了這片前沿地帶。）

Jeff Dean：謝謝。帕累托前沿是個好東西，能站在上面感覺很好。

主持人：我認(rèn)為這是兩方面的結(jié)合。你既要站在能力的前沿，也要兼顧效率，然后提供人們喜歡使用的那個模型系列。這其中的一部分始于你們的硬件工作，一部分是你們的模型工作。我相信你們累積研究了很多秘訣，但看到所有這些匯聚在一起，不斷推動前沿向前發(fā)展，真的很令人印象深刻。

Jeff Dean：是的，這不僅僅是單一的一件事。而是整個技術(shù)棧從上到下的一整套東西。你知道，所有這些結(jié)合在一起，讓我們能夠訓(xùn)練出能力超強(qiáng)的大模型。同時，也通過軟件技術(shù)，將那些大模型的能力提煉到更小、更輕量的模型中，這些模型成本效益更高、延遲更低，但就其規(guī)模而言，仍然相當(dāng)有能力。

主持人：在保持帕累托前沿的底線方面，你們有多大壓力？我認(rèn)為初創(chuàng)公司總是試圖沖擊最高性能的前沿，因?yàn)樗麄冃枰I集更多資金之類的。而你們擁有數(shù)十億的用戶。我想，最初你們在打造數(shù)據(jù)中心時，會考慮到如果每個使用谷歌的人，每天用我們的語音模型三分鐘，那你們需要的算力數(shù)量就要翻倍。如今在谷歌內(nèi)部，這種討論是怎樣的呢？比如，你們?nèi)绾螜?quán)衡追求前沿與“如果我們造出來了，就得實(shí)際部署它”這二者之間的關(guān)系？

Jeff Dean：我認(rèn)為我們總是希望擁有處于前沿或能夠推動前沿的模型，因?yàn)檫@樣你才能看到，與去年、與六個月前能力稍遜的版本相比，現(xiàn)在出現(xiàn)了哪些以前不存在的新能力。這些前沿模型對很多應(yīng)用場景會非常有用，但對于其他更廣泛的應(yīng)用場景來說，它們可能會有點(diǎn)慢，也有點(diǎn)貴。所以，我認(rèn)為我們想做的，是始終擁有一種能力很強(qiáng)、價格又親民的模型，它能夠支持大量低延遲的應(yīng)用場景。人們可以更自如地用它來做智能體編程，同時我們也有高端的、處于前沿的模型，它對于深度推理、解決極其復(fù)雜的數(shù)學(xué)問題這類事情非常有用。

并不是說這一個或那一個才有用，它們都有用。所以，我認(rèn)為我們兩者都要做。蒸餾是讓小型模型能力更強(qiáng)的一個關(guān)鍵技術(shù)，你必須先有前沿模型，然后才能把它蒸餾到你的小型模型里。所以這不是一個二選一的問題。為了真正獲得一個能力強(qiáng)大但規(guī)模適中的模型，你某種程度上需要那個前沿模型。

關(guān)于蒸餾

主持人：你和杰弗里·辛頓（Geoffrey Hinton）、還有 Oriol 在 2014 年就提出了這個方案。（編者注：奧里奧爾·維尼亞爾斯（Oriol Vinyals）是 Google DeepMind 的研究副總裁，也是 Gemini 項(xiàng)目的聯(lián)合技術(shù)負(fù)責(zé)人。他于 2013 年加入 Google，是序列到序列學(xué)習(xí)（seq2seq）和知識蒸餾技術(shù)的開創(chuàng)者之一。）

Jeff Dean：還有 Andrew 也是。（編者注： Andrew Dai 是谷歌 DeepMind 的資深研究員，2012 年就已加入谷歌。他曾與 Jeff Dean 等人合著多篇論文，并擔(dān)任過 Gemini 模型預(yù)訓(xùn)練數(shù)據(jù)工作的聯(lián)合負(fù)責(zé)人。）

主持人：我很好奇，你怎么看待這些想法的循環(huán)周期？比如，稀疏模型也是。你怎么評估它們？在開發(fā)下一代模型時，你怎么考慮哪些東西值得重新審視？你研究過那么多想法，它們都很有影響力，但在當(dāng)時，感覺可能并非如此。

Jeff Dean：我認(rèn)為蒸餾最初的動機(jī)是因?yàn)楫?dāng)時我們有一個非常大的圖像數(shù)據(jù)集，大概三億張圖像，我們可以用來訓(xùn)練，我記得大概有兩萬個類別，比 ImageNet 大多了。我們當(dāng)時發(fā)現(xiàn)，如果你為這些圖像類別的不同子集創(chuàng)建專家模型，比如這個模型特別擅長識別哺乳動物，那個模型特別擅長識別室內(nèi)場景之類的，你可以將這些類別聚類，在更廣泛的圖像集上進(jìn)行預(yù)訓(xùn)練后，再用增強(qiáng)的數(shù)據(jù)流進(jìn)行訓(xùn)練。如果你把訓(xùn)練好的那幾十個模型當(dāng)作一個大的集成模型，性能會好很多。

但這對于服務(wù)部署來說，不太現(xiàn)實(shí)，對吧？所以，蒸餾的想法就來源于：如果我們真想部署這個東西，訓(xùn)練所有這些獨(dú)立的專家模型，然后把它們壓縮成一個實(shí)際能部署的形式，該怎么辦？這和我們現(xiàn)在做的也沒什么不同。如今，我們往往不是用 50 個模型的集成，而是有一個規(guī)模大得多的模型，然后把它蒸餾成一個規(guī)模小得多的模型。

主持人：我有時也在想，蒸餾是否也與強(qiáng)化學(xué)習(xí)革命有關(guān)聯(lián)。讓我試著闡述一下我的意思：你可以通過強(qiáng)化學(xué)習(xí)在分布的某個特定部分提升模型能力。你可以針對模型進(jìn)行強(qiáng)化，但這通?？赡軙谄渌I(lǐng)域造成損失。這是一種不太均衡的技術(shù)，但你也許可以再把它蒸餾回來。我認(rèn)為，一個普遍的夢想是，能夠在不導(dǎo)致其他任何方面退步的情況下提升能力。這種能力合并而不損失的過程。我感覺，某種程度上，這應(yīng)該是一個蒸餾過程，但我沒法完全說清楚。我沒看到太多相關(guān)的論文。

Jeff Dean：我傾向于認(rèn)為蒸餾的一個關(guān)鍵優(yōu)勢在于，你可以有一個小得多的模型，同時擁有一個非常大的訓(xùn)練數(shù)據(jù)集。你可以從多次遍歷這個數(shù)據(jù)集中獲得效用，因?yàn)槟悻F(xiàn)在從大模型中獲得了 logits，這有助于引導(dǎo)小模型表現(xiàn)出正確的行為，而僅僅使用硬標(biāo)簽是做不到這一點(diǎn)的。

所以我認(rèn)為我們觀察到的是，通過蒸餾方法你可以獲得與大模型性能“非常接近”的結(jié)果。對很多人來說，這似乎是一個很好的平衡點(diǎn)，在 Gemini 的好幾代模型中都是如此。我們已經(jīng)能夠讓下一代模型的 Flash 版本，達(dá)到甚至遠(yuǎn)超上一代 Pro 版本的水平。我認(rèn)為我們會繼續(xù)努力這樣做，因?yàn)檫@似乎是個值得遵循的好趨勢。（編者注：“l(fā)ogits”是指模型在最終通過 softmax 層輸出概率之前，那一層的原始輸出向量包含了比“是/否”硬標(biāo)簽更豐富的軟信息。）

主持人：原來你們的產(chǎn)品線是 Flash、Pro 和 Ultra。你們是直接把 Ultra 放在那里，作為教師模型去蒸餾出其他模型的嗎？它就相當(dāng)于旗艦或者說母艦一樣的存在？

Jeff Dean：我們有很多不同類型的模型。有些是內(nèi)部的，不一定發(fā)布或提供服務(wù)。有些是我們的 Pro 規(guī)模模型，我們也可以從它蒸餾出我們的 Flash 規(guī)模模型。所以我認(rèn)為，這是一套很重要的能力。而且，推理時擴(kuò)展也可以是一種提高模型能力的有用方法。

主持人：我認(rèn)為 Flash 的量大管飽讓它占據(jù)了統(tǒng)治地位。我聽到的最新數(shù)字是 50 萬億 tokens。我不知道，顯然每天都在變。但你知道，按市場份額算。

Jeff Dean：希望是往上漲。

主持人：不，我的意思是，從經(jīng)濟(jì)學(xué)角度看，因?yàn)?Flash 非常經(jīng)濟(jì)，你可以把它用在所有地方。它現(xiàn)在就在 Gmail 里，在 YouTube 里，無處不在。

Jeff Dean：我們在搜索產(chǎn)品中也更多地使用它，比如 AI 模式、AI 摘要。

主持人：是的，F(xiàn)lash 驅(qū)動了 AI 模式。是的，我之前就該想到的。

Jeff Dean：我的意思是，我認(rèn)為 Flash 模型一個非常好的地方，不僅是它更實(shí)惠，而且延遲也更低。我認(rèn)為延遲實(shí)際上是這些模型一個非常重要的特性，因?yàn)槲覀兿ＭＰ湍茏龈鼜?fù)雜的事情，這涉及到從你要求模型做事到它實(shí)際完成之間，需要生成更多的 tokens。因?yàn)槟悻F(xiàn)在要求的，不只是“給我寫個 for 循環(huán)”，而是“給我寫一整個軟件包來做某某事”。所以，擁有能夠做到這一點(diǎn)的低延遲系統(tǒng)，看起來至關(guān)重要。Flash 是實(shí)現(xiàn)這一點(diǎn)的一個方向和一種方式。顯然，我們的硬件平臺也為我們服務(wù)棧的許多有趣方面提供了可能，比如 TPU 芯片間的互連性能非常高，非常有利于例如長上下文的注意力操作。擁有包含大量專家的稀疏模型，這些東西對于如何讓模型在大規(guī)模下可服務(wù)真的、真的很重要。（編者注：“for 循環(huán)”是編程中的基礎(chǔ)概念，指一段重復(fù)執(zhí)行特定次數(shù)的代碼結(jié)構(gòu)。）

主持人：對于像 Flash 蒸餾這種差不多晚一代的模式，會不會感覺存在某個突破點(diǎn)？我經(jīng)常在想，差不多就像某些任務(wù)上的能力漸近線。今天的 Pro 模型在某種任務(wù)上可能已經(jīng)飽和了。那么下一代，同樣的任務(wù)會在 Flash 的價格點(diǎn)上飽和。而且我認(rèn)為，對于人們使用模型的大部分事情來說，到某個時候，兩代之后的 Flash 模型基本上就能做所有事了。那么，當(dāng)大部分用戶都對 Flash 模型感到滿意時，你如何讓繼續(xù)推動 Pro 前沿這件事在經(jīng)濟(jì)上劃算呢？我很好奇你怎么看這個問題。

Jeff Dean：如果人們要求模型做的事情分布不變，那確實(shí)如此。但我認(rèn)為，通常情況下，隨著模型能力變得更強(qiáng)，人們會要求它們做更多的事情。所以，我認(rèn)為這在我自己的使用中也發(fā)生了。一年前，我會用我們的模型來做一些編程任務(wù)。它在一些簡單的事情上還行，但在更復(fù)雜的事情上就效果不佳。從那以后，我們在更復(fù)雜的編程任務(wù)上取得了巨大的進(jìn)步?，F(xiàn)在我會讓它做復(fù)雜得多的事情。

而且我認(rèn)為，這不僅限于編程。比如，現(xiàn)在你可以問：“你能分析一下全球所有的可再生能源部署情況，給我一份關(guān)于太陽能電池板部署的報告嗎？” 這是一個非常復(fù)雜的任務(wù)，比一年前人們通常會問的任務(wù)要復(fù)雜得多。所以，在某種意義上，你會需要能力更強(qiáng)的模型，來拓展人們要求模型去完成的任務(wù)的邊界。這也反過來給了我們靈感：模型在哪些地方會失效？我們?nèi)绾卧谶@些特定領(lǐng)域改進(jìn)模型，以便讓下一代變得更好。

（來源：Gemini 生成）

關(guān)于 benchmark

主持人：你們內(nèi)部會用什么 benchmarks 或測試集嗎？因?yàn)閹缀趺看螆蟮赖亩际峭瑯拥?benchmarks。就像從 90 分變成了 97 分。你如何持續(xù)推動團(tuán)隊(duì)內(nèi)部，告訴他們“這就是我們要努力的方向”？

Jeff Dean：我認(rèn)為 benchmarks 尤其是那些公開的外部 benchmarks 有其用處，但它們往往有一個效用生命周期。它們被引入時，可能對當(dāng)時的模型來說相當(dāng)難。我喜歡這么想：最好的 benchmarks 是那些初始得分在 10% 到 20% 或 30% 左右的，而不是更高的。

然后你可以致力于提高該 benchmark 旨在評估的某種能力，把它提升到 80%、90% 或其他任何水平。我認(rèn)為一旦它達(dá)到 95% 左右，如果真的一門心思撲在這個 benchmark 上，能得到的回報會越來越少。因?yàn)檫@要么意味著你已經(jīng)具備了那種能力，要么就存在公開數(shù)據(jù)泄露或者非常相關(guān)的數(shù)據(jù)混入了訓(xùn)練數(shù)據(jù)的問題。

所以我們有一整套保密的內(nèi)部 benchmarks 來真正評估模型。我們知道這些數(shù)據(jù)完全不在訓(xùn)練集中，它們代表了我們希望模型擁有但目前還不具備的能力。然后我們就可以著手評估：我們?nèi)绾巫屇Ｐ驮谶@些方面變得更好？是我們需要不同類型、更專門針對這類任務(wù)的數(shù)據(jù)來訓(xùn)練？還是我們需要一些架構(gòu)上的改進(jìn)，或者某種模型能力的提升？什么會幫助改進(jìn)它？

主持人：有沒有這樣一個例子，某個 benchmark 激發(fā)了一個架構(gòu)上的改進(jìn)？

Jeff Dean：Gemini 模型的一些長上下文能力，其實(shí)最早大概是在 1.5 版本就開始布局了。

主持人：我當(dāng)時就在想，大家怎么能在同一時間都練成這個的？

Jeff Dean：正如你所說，那個考察細(xì)顆粒度的 benchmark，至少在 128K 左右的上下文長度上，現(xiàn)在已經(jīng)飽和了。我認(rèn)為如今大多數(shù)人實(shí)際上并沒有用到遠(yuǎn)超 128K 或 256K 的上下文。而我們正試圖將前沿推進(jìn)到 100 萬或 200 萬上下文。

主持人：我覺得谷歌仍然是這方面的領(lǐng)先者。

Jeff Dean：這很好，因?yàn)槲艺J(rèn)為有很多應(yīng)用場景，比如把上千頁的文本，或者多個長達(dá)一小時的視頻放到上下文中，然后能夠?qū)嶋H利用起來，這非常有用。但那個簡單的考察細(xì)顆粒度的 benchmark 已經(jīng)飽和了。所以你真正想要的是更復(fù)雜、更貼近現(xiàn)實(shí)的場景：讀完所有內(nèi)容，最后給出答案。這樣才能更好地評估人們真正想用長上下文做什么，而不僅僅是“你能告訴我這個特定東西的產(chǎn)品編號嗎？” 那樣只是檢索。

主持人：沒錯，是在機(jī)器學(xué)習(xí)中進(jìn)行檢索。我想探討的更深一層的問題是：當(dāng)你手握一個 benchmark ，發(fā)現(xiàn)了一個能搞定它的架構(gòu)技巧，這時你會怎么做？因?yàn)橛袝r候你知道那本質(zhì)上是在引入一個歸納偏置。就像以前在谷歌工作的 Jason 會說的那樣，差不多就是這個意思。短期內(nèi)你會贏，但長期來看，我不知道這是否能擴(kuò)展，你可能之后得推翻重來。（編者注：Jason 指曾在谷歌大腦工作的著名 AI 科學(xué)家 Jason Wei。他最為人所知的貢獻(xiàn)是提出了思維鏈概念，是大模型推理領(lǐng)域的開創(chuàng)性人物，后來加入 OpenAI 成為 o1 模型的關(guān)鍵奠基人之一。）

Jeff Dean：我傾向于不拘泥于具體的解決方案，而是聚焦于我們到底想要什么能力。而且我深信長上下文非常有用，但今天它的長度還遠(yuǎn)遠(yuǎn)不夠，對吧？我認(rèn)為你真正想要的是，能不能在我回答問題的時候，關(guān)注整個互聯(lián)網(wǎng)？但這無法通過單純擴(kuò)展現(xiàn)有的（復(fù)雜度是二次的）方案來解決。所以，100 萬 tokens 已經(jīng)接近現(xiàn)有方案的極限了。你不可能做到 1 萬億 tokens，更別說 10 億 tokens 了，更別提一萬億。

但我認(rèn)為，如果你能營造出可以關(guān)注萬億 tokens 的幻覺，那就太棒了。你會為它找到各種用途。你就能關(guān)注整個互聯(lián)網(wǎng)。你可以關(guān)注 YouTube 的像素，以及我們可以為單個視頻形成的更深層表示，并且是跨越許多視頻的。在個人 Gemini 層面，在你許可的情況下，你可以關(guān)注你所有的個人狀態(tài)。比如你的郵件、你的照片、你的文檔、你的機(jī)票。我認(rèn)為那真的、真的會非常有用。問題在于，你如何通過算法層面的改進(jìn)和系統(tǒng)層面的改進(jìn)來打造一些方法，讓你能夠真正以有意義的方式關(guān)注萬億級別的 tokens。

主持人：順便提一下，我算過，如果你每天說八小時的話，每天不停地說，最多也只能產(chǎn)生大約 10 萬 tokens。這應(yīng)該能很舒服地放進(jìn)上下文了。

Jeff Dean：對啊，那要是再加上一個要求：我想理解大家上傳到視頻里的每一幀畫面呢？

（來源：Gemini 生成）

關(guān)于多模態(tài)

主持人：還有一個經(jīng)典的例子是，當(dāng)谷歌開始超越語言，進(jìn)入蛋白質(zhì)或者其他信息密度極高的領(lǐng)域。

Jeff Dean：我認(rèn)為 Gemini 的多模態(tài)特性之一，就是我們從一開始就希望它是多模態(tài)的。所以，有時這對人們來說意味著文本、圖像和視頻，以及音頻這些人類相關(guān)的模態(tài)。但我認(rèn)為，讓 Gemini 了解非人類模態(tài)也非常有用。比如來自 Waymo 車輛的激光雷達(dá)傳感器數(shù)據(jù)，或者來自機(jī)器人的數(shù)據(jù)，或者各種健康模態(tài)的數(shù)據(jù)，比如 X 光片、核磁共振成像、基因組信息。

我認(rèn)為可能有上百種數(shù)據(jù)模態(tài)，你會希望模型能夠至少接觸到這樣一個事實(shí)：這是一個有趣的模態(tài)，在世界上有特定的含義。這樣，即使你沒有在所有激光雷達(dá)數(shù)據(jù)或核磁共振成像數(shù)據(jù)上訓(xùn)練過，因?yàn)橐苍S從你在主要預(yù)訓(xùn)練數(shù)據(jù)混合中的權(quán)衡來看，包含這些數(shù)據(jù)不合理，但至少包含一點(diǎn)點(diǎn)實(shí)際上是非常有用的，因?yàn)樗芴崾灸Ｐ?，世界上有這個東西存在。

主持人：既然我們聊到這個話題了。有些問題我正好可以問問你，是否存在某些王炸模態(tài)，凌駕于所有其他模態(tài)之上？舉個簡單的例子，視覺可以在像素層面編碼文本，DeepMind 有篇論文就是這么做的。視覺也被證明可能可以融合音頻，因?yàn)槟憧梢宰鲆纛l的語譜圖，這也可以被視為一種視覺能力。所以也許視覺就是那個關(guān)鍵模態(tài)？

Jeff Dean：我的意思是，視覺和運(yùn)動是相當(dāng)重要的東西。我們選擇視頻，而非靜態(tài)圖像。生命進(jìn)化之所以把眼睛這個器官獨(dú)立發(fā)明了 23 次，不是沒有原因的。因?yàn)楦兄阒車氖澜缡侨绱擞杏玫哪芰?。這正是我們希望這些模型能夠做到的：解讀我們看到或關(guān)注的事物，然后利用這些信息幫助我們做事。

主持人：我認(rèn)為 Gemini 仍然是目前唯一原生具備視頻理解能力的模型，所以我一直在 YouTube 上用它。

Jeff Dean：實(shí)際上，我覺得人們不一定意識到 Gemini 模型在處理視頻方面能做什么。我在一次演講中用過一個例子。那是一個 YouTube 精彩集錦視頻，匯集了過去 20 年里 18 個難忘的體育時刻之類的。里面有邁克爾·喬丹（Michael Jordan）在總決賽最后時刻的跳投，還有一些足球進(jìn)球等等。你可以直接把視頻給它，然后說：“你能幫我做個表格嗎？列出所有這些不同的事件，發(fā)生的時間，以及簡短描述?！比缓竽憔蜁玫揭粋€ 18 行的表格，里面是從視頻中提取出來的信息。你知道嗎，這種把視頻直接變成表格的能力，一般人根本想不到。

（來源：Gemini 生成）

關(guān)于 AI 搜索

主持人：谷歌內(nèi)部有沒有討論過，就像你提到的，要關(guān)注整個互聯(lián)網(wǎng)？谷歌的存在，很大程度上就是因?yàn)槿祟悷o法關(guān)注整個互聯(lián)網(wǎng)，需要某種排序來找到需要的東西。這種排序?qū)τ诖竽Ｐ蛠碚f會大不相同，因?yàn)槟憧梢云谕脩舨榭垂雀杷阉鹘Y(jié)果中排名前五六的鏈接。而對于大模型，你是否應(yīng)該期望它有 20 個高度相關(guān)的鏈接？你們內(nèi)部是如何思考，如何構(gòu)建 AI 模式的？那種模式，可能需要比面向人類的搜索更廣泛、跨度更大。

Jeff Dean：我認(rèn)為即使在語言模型出現(xiàn)之前，我們的排序系統(tǒng)也是從一個巨大的網(wǎng)頁索引庫開始的。其中很多網(wǎng)頁是不相關(guān)的。所以你會用非常輕量級的方法，先識別出一個相關(guān)的子集，比如篩選到 3 萬個文檔左右。然后你逐步細(xì)化，應(yīng)用越來越復(fù)雜的算法和各種信號，最終得到你展示給用戶的東西，也就是最終的 10 條結(jié)果，或者 10 條結(jié)果加上其他信息。我認(rèn)為一個基于大模型的系統(tǒng)也不會有什么不同，你會去關(guān)注萬億級別的 tokens，但你會想先識別出，大概哪 3 萬個左右的文檔（或許有 3,000 萬感興趣的 tokens）是相關(guān)的？然后你如何從這 3 萬縮小到那 117 個我應(yīng)該真正關(guān)注的文檔，以便完成用戶要求我做的任務(wù)？

我認(rèn)為，你可以想象這樣一個系統(tǒng)：你有大量高度并行的處理，可能用非常輕量級的模型來識別最初的 3 萬個候選。然后你有一些系統(tǒng)，可能用稍微復(fù)雜一點(diǎn)的模型或模型集，幫你從 3 萬縮小到 117 個。最后，最終的模型可能是你能力最強(qiáng)的模型，它來審視這 117 個東西。所以我認(rèn)為會是這樣的系統(tǒng)。這種系統(tǒng)讓你能夠營造出關(guān)注萬億 tokens 的“幻覺”，就像你用谷歌搜索，并不是產(chǎn)生了什么幻覺，而是你真的在檢索整個互聯(lián)網(wǎng)，只不過最終看到的只是一個極小的相關(guān)子集。

主持人：我經(jīng)常告訴很多不熟悉谷歌搜索歷史的人，你看，BERT 幾乎立刻就被用到了谷歌搜索里，它極大地提升了搜索結(jié)果的質(zhì)量。我手頭沒有具體數(shù)字，但我敢肯定，這對谷歌來說顯然是最重要的數(shù)字。

Jeff Dean：是的，我認(rèn)為采用基于大模型的文本和詞匯表示，能夠讓你擺脫“特定詞匯必須出現(xiàn)”這種顯式硬性要求，真正深入到“這個頁面或這段落的主題與這個查詢高度相關(guān)”的層面。

主持人：我認(rèn)為人們沒有意識到大模型已經(jīng)占據(jù)了所有高流量系統(tǒng)。所有這些非常高流量的系統(tǒng)，比如谷歌搜索，比如 YouTube。YouTube 有個語義 ID 系統(tǒng)，它用一個碼本（codebook）來預(yù)測視頻，詞匯表中的每個條目對應(yīng)一個 YouTube 視頻。這對于 YouTube 的規(guī)模來說簡直是不可思議的。最近，xAI 的 Grok 也用了類似的東西。

Jeff Dean：我想指出的是，甚至在語言模型被廣泛用于搜索之前，我們就已經(jīng)非常重視軟化用戶實(shí)際輸入查詢的概念。我實(shí)際上在 2009 年的網(wǎng)絡(luò)搜索與數(shù)據(jù)挖掘會議上做過一個演講。我們從未真正發(fā)表過關(guān)于谷歌搜索起源的論文，但我們回顧了從 1999 年到 2004 或 2005 年，大約四到五代、五六代搜索檢索系統(tǒng)的重新設(shè)計(jì)。

那個演講講的就是這段演變，其中一件真正發(fā)生在 2001 年的事情是，我們正努力在多個維度上擴(kuò)展系統(tǒng)。一個是我們想擴(kuò)大索引，這樣就能從更大的索引庫中檢索，這通常總能提升質(zhì)量，因?yàn)槿绻愕乃饕餂]有這個頁面，你肯定沒法處理得好。然后我們也需要擴(kuò)展我們的容量，因?yàn)槲覀兊牧髁吭鲩L得非?？?。

所以我們有了一個分片系統(tǒng)：隨著索引增長，你需要更多的分片。比如你有 30 個分片，如果你想將索引大小翻倍，就做成 60 個分片，這樣就能限制任何用戶查詢的響應(yīng)延遲。然后隨著流量增長，你為每個分片添加更多的副本。

我們最終做了一個計(jì)算，發(fā)現(xiàn)如果我們有一個數(shù)據(jù)中心，里面有比如 60 個分片，每個分片 20 個副本，那我們現(xiàn)在就有了 12,200 臺帶硬盤的機(jī)器。我們一算，心想：這個索引的一份副本，其實(shí)可以放在這 12,200 臺機(jī)器的內(nèi)存里。所以在 2001 年，我們把整個索引放到了內(nèi)存里。從質(zhì)量角度來看，這帶來的好處是驚人的。因?yàn)樵诖酥埃惚仨毞浅Ｐ⌒牡乜刂茖σ粋€查詢要考察多少個不同的詞項(xiàng)，因?yàn)槊恳粋€詞項(xiàng)都意味著要在 60 個分片中的每一個上進(jìn)行一次磁盤尋道。

所以，當(dāng)你擴(kuò)大索引時，這變得更加低效。但一旦你把整個索引都放進(jìn)了內(nèi)存，即使對用戶原始的三四個詞的查詢，你拋出 50 個詞項(xiàng)也完全沒問題。因?yàn)槟悻F(xiàn)在可以添加同義詞，比如 restaurant 和 restaurants 和 cafe 和 bistro 等等。突然間，你可以真正開始理解詞的含義，而不僅僅是用戶輸入的精確語義形式。那是 2001 年，遠(yuǎn)在大模型出現(xiàn)之前。但這確實(shí)是在軟化用戶輸入的嚴(yán)格定義，以便觸及意義本身。

主持人：你在設(shè)計(jì)系統(tǒng)時，尤其是考慮到在 2001 年互聯(lián)網(wǎng)的規(guī)模每年翻兩三倍，使用什么原則？不是像現(xiàn)在這樣。而且我認(rèn)為今天在大模型領(lǐng)域也是如此，每年規(guī)模都在跳躍，能力增長如此之快。你在思考這些問題時，有什么原則嗎？

Jeff Dean：首先，任何時候設(shè)計(jì)系統(tǒng)，你都要理解哪些設(shè)計(jì)參數(shù)對于設(shè)計(jì)來說最重要。所以你要知道，你需要處理每秒多少查詢？你需要處理多大的索引？你需要為索引中的每個文檔保留多少數(shù)據(jù)？當(dāng)你檢索時，如何查看它們？如果流量翻倍或翻三倍，系統(tǒng)還能正常工作嗎？我認(rèn)為一個好的設(shè)計(jì)原則是，你希望設(shè)計(jì)一個系統(tǒng)，使得最重要的特性能夠擴(kuò)展 5 到 10 倍，但可能不超過這個范圍。

因?yàn)榻?jīng)常發(fā)生的情況是，如果你為一個規(guī)模 x 設(shè)計(jì)系統(tǒng)，而某些東西突然變成了 100x，那就會開啟一個完全不同的設(shè)計(jì)空間點(diǎn)。這個點(diǎn)在 x 規(guī)模下沒有意義，但突然到了 100x 就完全合理了。比如，從基于磁盤的索引轉(zhuǎn)向內(nèi)存索引，一旦你有足夠的流量，就非常有意義了。因?yàn)楝F(xiàn)在，你在磁盤上有足夠多的狀態(tài)副本，這些機(jī)器現(xiàn)在實(shí)際上可以把一份完整的索引放到內(nèi)存里了。是的，這突然間開啟了一個以前不切實(shí)際的完全不同的設(shè)計(jì)。

所以，我的意思是，我非常喜歡在腦子里過一遍設(shè)計(jì)，在實(shí)際寫大量代碼之前，稍微在設(shè)計(jì)空間里探索一下。但是，正如你所說，在谷歌早期，我們大幅擴(kuò)展索引，我們也大幅擴(kuò)展索引的更新率。令人驚訝的是，更新率實(shí)際上變成了變化最大的參數(shù)。過去是每月更新一次。是的，后來我們變成了一個系統(tǒng)，可以在不到一分鐘內(nèi)更新任何一個特定的頁面。

主持人：這是競爭優(yōu)勢。

Jeff Dean：因?yàn)閷π侣勊阉鱽碚f，索引上個月的老新聞，對新問題根本沒用。

主持人：有沒有想過，你可以把它拆分到另一個獨(dú)立系統(tǒng)上？

Jeff Dean：嗯，我們確實(shí)推出了谷歌新聞產(chǎn)品，但你也希望人們輸入主搜索框的新聞相關(guān)查詢也能及時更新。

主持人：然后你還得判斷頁面的重要性，決定哪些頁面值得被優(yōu)先更新。

Jeff Dean：是的，幕后有一套完整的系統(tǒng)，試圖決定頁面的更新速率和重要性。所以即使某個頁面的更新速率看起來很低，你可能仍然希望經(jīng)常重新抓取重要的頁面，因?yàn)樗鼈兏淖兊目赡苄钥赡芎艿停珦碛懈掳姹镜膬r值很高。

（來源：Gemini 生成）

關(guān)于延遲

主持人：你提到了延遲，這讓我想起你的一個經(jīng)典之作，我不得不提，那就是“每個程序員都應(yīng)該知道的延遲數(shù)字”，當(dāng)時有什么背景故事嗎？（編者注：“每個程序員都應(yīng)該知道的延遲數(shù)字”是 Jeff Dean 在系統(tǒng)設(shè)計(jì)演講中列出的一張經(jīng)典表格，用于幫助工程師在設(shè)計(jì)系統(tǒng)時進(jìn)行粗略估算。這些數(shù)字展示了計(jì)算機(jī)各類操作的典型耗時，核心在于理解不同操作之間的數(shù)量級差距，而不是糾結(jié)于絕對數(shù)值。）

Jeff Dean：“每個程序員都應(yīng)該知道的延遲數(shù)字”表格里面列出了大概 8 到 10 種不同的指標(biāo)，比如一次緩存未命中需要多長時間？一次分支預(yù)測錯誤需要多長時間？一次主內(nèi)存訪問需要多長時間？把一個數(shù)據(jù)包從美國發(fā)送到荷蘭（或者荷蘭的某個地方）需要多長時間？

主持人：順便問一下，是因?yàn)?Chrome 嗎？

Jeff Dean：我們在那邊有數(shù)據(jù)中心。所以，我的意思是，我認(rèn)為這歸根結(jié)底是為了能夠進(jìn)行粗略的心算。這些就是心算的基本素材。你可以用它們來推算：好吧，如果我需要設(shè)計(jì)一個做圖片搜索和結(jié)果頁縮略圖生成的系統(tǒng)，我該怎么做？我可以預(yù)計(jì)算圖片縮略圖，也可以嘗試從大圖上實(shí)時生成縮略圖。那樣做會有什么后果？需要多少磁盤帶寬？會產(chǎn)生多少次磁盤 I/O？你可以用這些基本數(shù)字，在 30 秒或一分鐘內(nèi)，在心里做做思想實(shí)驗(yàn)。然后，當(dāng)你使用更高級的庫構(gòu)建軟件時，你也想培養(yǎng)類似的直覺。比如，在我用的這種特定哈希表里查找一個東西需要多長時間？或者，對一百萬個數(shù)字進(jìn)行排序需要多長時間之類的。

主持人：我提起這個其實(shí)是因?yàn)榇蟾艃赡陙砦乙恢痹趪L試總結(jié)出“每個 AI 程序員都應(yīng)該知道的數(shù)字”。好吧，我還沒有一個很好的版本，因?yàn)檫@不是物理常數(shù)，像你這里列出的都是物理常數(shù)，但我覺得確實(shí)應(yīng)該有。舉個簡單的例子，參數(shù)數(shù)量到磁盤大小的換算，不過是簡單的字節(jié)轉(zhuǎn)換，沒什么意思。我想知道的是，如果要更新你的那份延遲數(shù)字列表，你會怎么做？

Jeff Dean：我認(rèn)為，要好好思考一下你在模型中進(jìn)行的計(jì)算，無論是訓(xùn)練還是推理，都非常有用。通常一個很好的思考角度是：你需要從內(nèi)存中加載多少狀態(tài)？是從芯片上的 SRAM、加速器附帶的 HBM、DRAM，還是通過網(wǎng)絡(luò)加載？這些數(shù)據(jù)移動的成本，與比如在矩陣乘法單元中進(jìn)行一次實(shí)際乘法運(yùn)算的成本相比，有多高？而乘法運(yùn)算的成本實(shí)際上非常、非常低，對吧？因?yàn)?，根?jù)你的精度，大概是亞皮焦、1 皮焦耳左右。

主持人：你用能量來衡量？

Jeff Dean：這最終都會歸結(jié)為能量。以及你如何讓一個系統(tǒng)的能效最高。然后，將數(shù)據(jù)從芯片另一端的 SRAM 移過來，甚至不是片外，只是同一芯片的另一端，可能就需要，一千皮焦耳？所以這就解釋了為什么加速器需要批處理，因?yàn)槿绻惆岩粋€模型的參數(shù)比如說從芯片上的 SRAM 移到乘法器單元里，這要花掉你一千皮焦耳。

所以你最好能多次利用你移動過來的那個東西。這就是 batch 維度發(fā)揮作用的地方。因?yàn)橥蝗婚g，如果你有一個 250 的 batch 之類的那還好，但如果 batch size 是 1 那就真的很糟糕了。因?yàn)槟慊艘磺そ苟?，卻只做了一次一皮焦耳的乘法。

主持人：我從未聽過基于能量的批處理分析。

Jeff Dean：這就是人們做批處理的原因。理想情況下，你會希望使用 batch size 1，因?yàn)檠舆t會很棒，但能量成本和計(jì)算成本的低效會非常大。

（來源：Gemini 生成）

關(guān)于 TPU

主持人：就像你當(dāng)年把所有東西放進(jìn)內(nèi)存一樣，現(xiàn)在也有很多類似的計(jì)算。我認(rèn)為，顯然英偉達(dá)通過大力押注 SRAM（比如他們的 H200 芯片）取得了很大成功。我想知道，這是否是你在 TPU 上已經(jīng)看到的東西？因?yàn)槟銈儽仨氃谧约阂?guī)模上提供服務(wù)。你可能某種程度上預(yù)見到了這一點(diǎn)。有哪些硬件創(chuàng)新或見解，是因?yàn)槟銈兛吹降倪@些需求而形成的？

Jeff Dean：TPU 采用規(guī)整的 2D 或 3D 網(wǎng)格拓?fù)浣Y(jié)構(gòu)，將大量芯片互聯(lián)在一起，每個芯片都配備了 HBM。對于服務(wù)某些類型的模型，從 HBM 加載東西的成本和時間延遲，遠(yuǎn)比從芯片上的 SRAM 加載要高。所以，如果你的模型足夠小，你實(shí)際上可以對其進(jìn)行模型并行，分布到許多芯片上，你會從中獲得相當(dāng)好的吞吐量提升和延遲改善。你現(xiàn)在相當(dāng)于把你的小型模型條帶化到比如 16 或 64 個芯片上。但如果你這樣做，并且模型全部能放進(jìn) SRAM，那可能是個巨大的勝利。所以這不是意外，但確實(shí)是個好技術(shù)。

主持人：再談到 TPU 的設(shè)計(jì)，你們?nèi)绾未_定架構(gòu)改進(jìn)的優(yōu)先級？比如，將一次數(shù)據(jù)移動的能耗從 1,000 皮焦耳降至 50 皮焦耳，這樣的優(yōu)化目標(biāo)是否足以驅(qū)動一款新芯片的研發(fā)？極端情況下，當(dāng)人們說“你應(yīng)該把模型燒錄到 ASIC 上”，那差不多是最極端的思路。當(dāng)事物變化如此之快時，在硬件上投入多少是值得的？谷歌內(nèi)部的討論是怎樣的？

Jeff Dean：我們內(nèi)部有非常緊密的協(xié)作，比如 TPU 芯片架構(gòu)團(tuán)隊(duì)與高級建模專家之間就保持著高頻互動。因?yàn)槲覀冋娴南肜脜f(xié)同設(shè)計(jì)的能力，根據(jù)我們對機(jī)器學(xué)習(xí)研究未來發(fā)展方向的預(yù)判，來決定未來的 TPU 應(yīng)該是什么樣子。因?yàn)?，作為一名特別是專注于機(jī)器學(xué)習(xí)的硬件設(shè)計(jì)師，你試圖從今天開始設(shè)計(jì)一款芯片。這個設(shè)計(jì)可能需要兩年時間才能最終部署到數(shù)據(jù)中心。然后它還需要有一個合理的生命周期，可能再用三、四、五年。所以，我們需要預(yù)測未來兩到六年，在這個瞬息萬變的領(lǐng)域里，人們會想用機(jī)器學(xué)習(xí)做什么。而擁有那些具備前瞻性研究想法的人才，能幫助我們判斷哪些技術(shù)趨勢將在未來變得重要，從而把這些有趣的硬件特性提前布局到，比如說，我們的下一代產(chǎn)品 TPU n+2 中。

主持人：周期是 n+2。

Jeff Dean：大致如此。我的意思是，有時你可以把一些改動塞進(jìn) n+1，但更大的改動就需要芯片設(shè)計(jì)處于其生命周期設(shè)計(jì)的更早期階段。所以只要有可能，我們就會這樣做。有時你也可以加入一些探索性的特性，這些特性可能不會占用太多芯片面積，但如果成功了，它能讓某些事情快上 10 倍。如果沒成功，你也就浪費(fèi)了一點(diǎn)點(diǎn)微不足道的芯片面積在那上面，不是什么大事。但有時候這會是一個非常大的改動，我們需要非常確信這會成功。所以我們會做大量仔細(xì)的機(jī)器學(xué)習(xí)實(shí)驗(yàn)來證明，這確實(shí)是我們想走的路。

主持人：有沒有反向的情況？比如，“芯片設(shè)計(jì)方案已經(jīng)定稿，因此模型架構(gòu)無法再向那個方向演進(jìn)，因?yàn)榧嫒菪源嬖趩栴}?！?/p>

Jeff Dean：肯定會有這樣的情況：你需要調(diào)整模型架構(gòu)，使其能高效適配未來一代芯片的訓(xùn)練和推理，所以我認(rèn)為這是雙向的。有時你可以利用未來一代芯片中即將出現(xiàn)的低精度特性。所以你可能會用那種低精度來訓(xùn)練，即使當(dāng)前一代芯片還不太支持。

主持人：精度能降到多低？因?yàn)橛腥颂岬饺稻W(wǎng)絡(luò)之類的。

Jeff Dean：我非常喜歡極低精度，因?yàn)槲艺J(rèn)為這能節(jié)省大量的能量。因?yàn)閿?shù)據(jù)傳輸是按皮焦耳每 bit 來算的，減少 bit 數(shù)是降低這個成本的好方法。極低比特精度帶來了顯著的收益，但代價是需要在整組權(quán)重上施加縮放因子。

主持人：說到這個，我覺得有個話題很有意思。當(dāng)我們在做采樣時，精度的概念本身就有點(diǎn)奇怪。最終我們會有所有這些能做非常精確數(shù)學(xué)運(yùn)算的芯片，然后我們在開頭扔進(jìn)去一個隨機(jī)數(shù)生成器。感覺現(xiàn)在大家都在往基于能量的模型和處理器那個方向走，你肯定也琢磨過這事兒吧？想聽聽你的看法。

Jeff Dean：是的，我認(rèn)為有一些有趣的趨勢。比如基于能量的模型、擴(kuò)散模型，它們不是那種順序解碼 token 的方式還有一種投機(jī)性解碼技術(shù)，可以在不降低生成質(zhì)量的前提下，獲得等效的加速效果。

主持人：非常小的 draft batch。（編者注：draft batch 指的是投機(jī)性解碼中，由小模型一次性生成的、等待大模型驗(yàn)證的候選詞元組。）

Jeff Dean：例如，你可以一次預(yù)測出八個 tokens。這讓你能把正在做的事情的有效 batch size 增加八倍。然后你可能接受其中的五六個 tokens。所以你通過攤銷將權(quán)重移入乘法器進(jìn)行 tokens 預(yù)測的成本，獲得了五倍的改進(jìn)。

這些都是非常好的技術(shù)，我認(rèn)為從能量（不是指基于能量的模型）、延遲和吞吐量的角度來看它們真的很好。如果你從這個角度看問題，它會引導(dǎo)你找到更好的解決方案，比如能夠更便宜、更低延遲地服務(wù)更大的模型，或者同等規(guī)模的模型。

主持人：這很有吸引力，但還沒看到它在主流中真正流行起來。我確實(shí)覺得有種詩意在里面，如果我們從根本上把它設(shè)計(jì)進(jìn)硬件里，就不用搞那么多花樣了。

Jeff Dean：我認(rèn)為還有更奇特的東西，比如基于模擬的計(jì)算基板，而不是數(shù)字的。我對那些非常感興趣，因?yàn)樗鼈兊墓挠型龅胶艿?。但我認(rèn)為，你最終往往需要將其與數(shù)字系統(tǒng)接口，而你在系統(tǒng)邊界和外圍進(jìn)行的數(shù)模、模數(shù)轉(zhuǎn)換可能會損失很多功耗優(yōu)勢。我仍然認(rèn)為，從我們今天所處的位置，通過為我們在意的模型制造更好、更專用的硬件，在能效方面還有巨大的提升空間。

（來源：Gemini 生成）

關(guān)于新想法

主持人：除了這些，還有哪些你覺得有趣的研究方向？或者有什么想法，是谷歌內(nèi)部不方便做，但你希望看到學(xué)界去探索的？

Jeff Dean：我認(rèn)為我們最近的研究組合相當(dāng)廣泛。從研究方向來看，有一大堆開放問題。如何讓這些模型更可靠，能夠完成更長的、更復(fù)雜的、包含許多子任務(wù)的任務(wù)？如何編排？可能是一個模型使用其他模型作為工具，來構(gòu)建能夠共同完成比單個模型所能做的更重大的工作。如何讓模型更可驗(yàn)證？如何讓強(qiáng)化學(xué)習(xí)在不可驗(yàn)證的領(lǐng)域工作？

我認(rèn)為這是一個非常有趣的開放問題，因?yàn)槲艺J(rèn)為這會拓寬模型的能力范圍，你會看到數(shù)學(xué)和編程方面都在進(jìn)步。如果我們能通過開發(fā)出真正有效的強(qiáng)化學(xué)習(xí)技術(shù)，將其應(yīng)用到其他不那么可驗(yàn)證的領(lǐng)域，那將真正讓模型提升很多。

主持人：我很好奇。當(dāng)諾姆·布朗（Noam Brown）上我們播客時，他說他們已經(jīng)證明你可以通過深度研究做到這一點(diǎn)。你在 AI 模式中某種程度上也做到了，雖然它本身并不可驗(yàn)證。我很好奇，有沒有你認(rèn)為有趣的線索？兩者都是在做信息檢索追蹤。

所以我在想，是否檢索本身就是那個可驗(yàn)證的部分，可以用來作為評分依據(jù)？或者說，你會如何為這個問題建模？（編者注：諾姆·布朗（Noam Brown）是 OpenAI 的研究員，專注于 AI 推理和多智能體系統(tǒng)。他因開發(fā)在德州撲克中擊敗人類專家的 Libratus 和 Pluribus 而聞名，后加入 OpenAI 參與 o1 推理模型的研發(fā)。）

Jeff Dean：是的，我認(rèn)為有些方法可以讓其他模型來評估第一個模型所做的結(jié)果，也許甚至可以檢索。你可以讓另一個模型問：“你檢索到的這些東西相關(guān)嗎？” 或者你能對你檢索到的這 2,000 樣?xùn)|西進(jìn)行評分，以評估哪 50 個最相關(guān)嗎？我認(rèn)為這類技術(shù)實(shí)際上非常有效。有時甚至可以是同一個模型，只是通過不同的提示詞，讓它扮演評論家的角色，而不是實(shí)際的檢索系統(tǒng)。

主持人：確實(shí)，我總覺得我們好像永遠(yuǎn)在跨越一個又一個懸崖：每次都覺得簡單的事做完了，然后集體卡在下一個難題面前，年年如此?！芭?，這個我們搞定了，接下來那個肯定難到?jīng)]人能解?！睘槭裁雌珡?qiáng)化學(xué)習(xí)驗(yàn)證就成了那個坎兒？所有人都在問同一個問題：“沒有明確判斷標(biāo)準(zhǔn)的下一個階段，到底要怎么走？”

Jeff Dean：我覺得這個領(lǐng)域的好處是，有許許多多聰明的人在想創(chuàng)造性的解決方案來解決我們都能看到的難題。因?yàn)槲艺J(rèn)為大家都看到了，這些模型在某些方面很棒，但在這些方面的邊緣地帶會失效，能力達(dá)不到我們的期望。然后想出好的技術(shù)和嘗試它們，看看哪些真正能帶來改變，這正是這個領(lǐng)域整個研究方面向前推進(jìn)的方式。我認(rèn)為這就是為什么它超級有趣。

想想兩年前，我們還在為 GSM8K 的問題掙扎，對吧？弗雷德有兩只兔子，他又得到了三只兔子，他總共有多少只兔子？這與現(xiàn)在模型能做的數(shù)學(xué)題相比差遠(yuǎn)了?，F(xiàn)在已經(jīng)是純語言的天下。短短一年半時間，模型能力就實(shí)現(xiàn)了驚人的飛躍。如果在其他領(lǐng)域也能復(fù)制這種成功，那就太棒了。雖然有些領(lǐng)域我們還沒找到門路，但既然在其他領(lǐng)域已經(jīng)看到了可行的方法，我們就會全力以赴，讓它變得更好。

主持人：沒錯，比如 YouTube 縮略圖生成，我們就需要這個能力。如果能實(shí)現(xiàn)，那將是觸及 YouTube 核心業(yè)務(wù)的一次突破。

Jeff Dean：是的，我不是 YouTube 創(chuàng)作者，所以我不太關(guān)心那個問題，但我想很多人關(guān)心。

（來源：Gemini 生成）

關(guān)于模型大一統(tǒng)

主持人：扯回 IMO，我還是挺唏噓的。去年還是 AlphaProof、AlphaGeometry 各顯神通，今年就直接扔給 Gemini 了。我在想，以前大家不都覺得符號系統(tǒng)和大模型融合是條正路嗎？怎么突然就變成“別折騰了，全讓大模型自己來”了？

Jeff Dean：我覺得這對我來說很有意義，因?yàn)槟阒廊祟惒倏v符號，但我們腦子里可能沒有一個符號化的表征，對吧？我們有某種分布式表征，從某種意義上說，是神經(jīng)網(wǎng)絡(luò)式的，由許多不同的神經(jīng)元和激活模式組成，當(dāng)我們看到某些東西時會觸發(fā)。這使我們能夠推理、規(guī)劃、進(jìn)行思維鏈以及回溯，“這個方法看來行不通，我試試那個”。

在許多的方面，我們正在神經(jīng)網(wǎng)絡(luò)模型里模擬我們直覺上認(rèn)為真實(shí)大腦內(nèi)部發(fā)生的事情。所以，對我來說，擁有完全分離的、離散的符號化事物，以及一套完全不同的方式來思考這些東西，從來就沒有意義。

主持人：我的意思是，對你來說可能顯而易見，但一年前對我來說并不明顯。

Jeff Dean：我確實(shí)認(rèn)為，去年 IMO 競賽用到了翻譯成 Lean 語言并使用 Lean，以及使用了一個專門的幾何模型。然后今年，切換到一個單一的統(tǒng)一模型，這基本上是生產(chǎn)級模型，只是多給了點(diǎn)推理預(yù)算，這實(shí)際上非常棒。因?yàn)樗砻髂莻€通用模型的能力已經(jīng)大大提高了。現(xiàn)在你不再需要這些專門的模型了。這實(shí)際上與 2013 到 2016 年時期的機(jī)器學(xué)習(xí)非常相似，對吧？

過去，人們會針對許多不同的問題訓(xùn)練不同的模型，對吧？我想識別街道標(biāo)志，所以我訓(xùn)練一個街道標(biāo)志識別模型?；蛘呶蚁胱稣Z音識別解碼，我就去訓(xùn)練一個語音模型。我認(rèn)為現(xiàn)在，做所有事情的統(tǒng)一模型時代真的來臨了。問題在于，這些模型在面對它們從未被要求做的事情時，泛化能力有多好？它們正變得越來越好。

主持人：你都不需要領(lǐng)域?qū)＜伊?。我采訪過 Ete，他就是那個團(tuán)隊(duì)的成員。他說：“我真的不知道它們是怎么工作的，不知道 IMO 在哪里辦，也不知道比賽規(guī)則。我只是在訓(xùn)練模型，我做的就是訓(xùn)練模型?！?/p>

這很有意思，擁有這種通用技能的人，只需要機(jī)器學(xué)習(xí)能力，拿到數(shù)據(jù)和算力，就能處理任何任務(wù)。這大概就是所謂的“苦澀的教訓(xùn)”吧。（編者注：1、Ete 是指愛德華·格列芬斯特（Edward Grefenstette），一位 Google DeepMind 的研究科學(xué)家，他參與過多項(xiàng)與推理、語言模型相關(guān)的研究。2、“苦澀的教訓(xùn)”是“強(qiáng)化學(xué)習(xí)之父”理查德·薩頓（Richard Sutton）提出的AI核心理念：研究者總想把人類知識編入 AI，短期有效但長期看，依靠大規(guī)模算力和通用算法的方法最終會勝出。它之所以“苦澀”，是因?yàn)?AI 的成功往往不是因?yàn)樗７铝巳祟悾强看罅Τ銎孥E走出自己的路。）

Jeff Dean：在大多數(shù)情況下，通用模型會勝過專用模型。

主持人：我想在這里稍微深入探討一下。我覺得這里有一個漏洞，就是關(guān)于模型容量的概念。抽象地說，一個模型能容納的比特?cái)?shù)是有限的。所以，誰會知道 Gemini Pro 可能有一萬億到十萬億參數(shù)？我們不知道。

但以 Gemma 模型為例。很多人想要開源、能在本地運(yùn)行的模型，它們擁有一些并不必要的知識，對吧？它們不可能知道所有事。你們有優(yōu)勢，你們有大模型，大模型應(yīng)該什么都能做。但是，當(dāng)你進(jìn)行蒸餾，把它縮小到小模型時，你實(shí)際上是在記憶一些沒用的東西。所以，我們能否將知識與推理分離開？

Jeff Dean：我認(rèn)為你確實(shí)希望模型在能夠檢索東西時最有效地進(jìn)行推理，對吧？因?yàn)樽屇Ｐ桶褜氋F的參數(shù)空間用來記憶那些可以查到的、晦澀的事實(shí)，實(shí)際上并不是對該參數(shù)空間的最佳利用，對吧？你可能會更喜歡那些在更多場景下更有用的東西，而不是它記住的某個晦澀事實(shí)。

所以我認(rèn)為這個權(quán)衡一直存在。同時，你也不希望你的模型完全脫離對世界的了解。比如，知道金門大橋有多長可能很有用，能對“橋一般有多長”有個大致概念。它應(yīng)該有那種知識，它可能不需要知道世界上某個更偏遠(yuǎn)角落的一座小橋有多長，但是擁有相當(dāng)多的世界知識確實(shí)有幫助。你的模型越大，你能容納的知識就越多。

但我確實(shí)認(rèn)為，將檢索與推理結(jié)合起來，讓模型真正擅長進(jìn)行多輪檢索并通過中間檢索結(jié)果進(jìn)行推理，這將是讓模型看起來能力更強(qiáng)的一個非常有效的方法。我們不會在 Gemini 上訓(xùn)練我的電子郵件，我們可能更希望有一個單一的模型，然后我們可以使用它，并能夠使用從我的電子郵件中檢索作為工具，讓模型推理它，從我的照片中檢索，然后利用這些信息進(jìn)行多輪交互。

主持人：你怎么看垂直領(lǐng)域模型這個方向？比如有人說“我們在打造最好的醫(yī)療大模型”“我們在做最牛的法律大模型”。這些是短期的過渡方案，還是真的有長遠(yuǎn)價值？

Jeff Dean：我認(rèn)為垂直領(lǐng)域模型很有趣。你想讓它們從一個相當(dāng)好的基礎(chǔ)模型開始，然后你可以，我有點(diǎn)把它們看作是豐富那個特定垂直領(lǐng)域的數(shù)據(jù)分布。比如醫(yī)療保健。比如，對于機(jī)器人技術(shù)，我們可能不會在所有可能的機(jī)器人數(shù)據(jù)上訓(xùn)練 Gemini。你可以用它訓(xùn)練，因?yàn)槲覀兿Ｍ鼡碛幸惶灼胶獾哪芰Α?/p>

所以我們會讓它接觸一些機(jī)器人數(shù)據(jù)。但如果你想構(gòu)建一個真正、真正好的機(jī)器人模型，你會希望從那個基礎(chǔ)開始，然后在更多的機(jī)器人數(shù)據(jù)上訓(xùn)練它。這可能會損害它的多語言翻譯能力，但會提高它的機(jī)器人能力。

我們在訓(xùn)練基礎(chǔ) Gemini 模型時，總是在數(shù)據(jù)混合中做這種權(quán)衡。我們很樂意包含另外 200 種語言的數(shù)據(jù)，并且有和這些語言一樣多的數(shù)據(jù)。但這會擠占模型的其他一些能力。它在 Perl 編程上可能沒那么好了。它在 Python 編程上仍然會很好，因?yàn)槲覀儠銐蚨嗟?Python 數(shù)據(jù)。但在其他長尾計(jì)算機(jī)語言或編程能力上，它可能會受影響?；蛘叨嗄B(tài)推理能力可能會受影響，因?yàn)槲覀儧]有機(jī)會讓它接觸那么多相關(guān)數(shù)據(jù)，但它在多語言方面會非常出色。

所以我認(rèn)為，某種組合是合適的：專門的模型，也許更多是模塊化的模型。如果能有能力將這 200 種語言，加上這個超棒的機(jī)器人模型，加上這個超棒的醫(yī)療保健模塊，所有這些可以組合在一起協(xié)同工作，在不同情況下被調(diào)用那將非常棒。比如，如果我有一個與健康相關(guān)的問題，那么它應(yīng)該能夠啟用這個健康模塊，與主基礎(chǔ)模型一起，在這些事情上做得更好。

主持人：可安裝的知識？

Jeff Dean：是的，只需要下載就行。部分可安裝的東西可以來自檢索。但有些可能應(yīng)該來自預(yù)先加載的訓(xùn)練，比如在 1,000 億或一萬億 tokens 的健康數(shù)據(jù)上訓(xùn)練。

主持人：你需要多少億的 tokens 才能超過前沿模型的改進(jìn)速度？如果我想讓這個模型在醫(yī)療保健方面更好，而主 Gemini 模型仍在改進(jìn)，那么需要 500 億 tokens 嗎？如果我需要一萬億，我能用 1,000 億做到嗎？醫(yī)療保健的 tokens，你可能手頭沒有那么多。

Jeff Dean：我認(rèn)為醫(yī)療保健是一個特別有挑戰(zhàn)性的領(lǐng)域。所以有很多醫(yī)療保健數(shù)據(jù)，我們無法適當(dāng)?shù)孬@取。但也有許多醫(yī)療保健組織希望在自己的數(shù)據(jù)上訓(xùn)練模型，這些數(shù)據(jù)不是公共醫(yī)療數(shù)據(jù)，是私有的醫(yī)療數(shù)據(jù)。所以我認(rèn)為有機(jī)會與大型醫(yī)療保健組織合作，為他們訓(xùn)練更定制化的模型，這些模型可能比在公共數(shù)據(jù)上訓(xùn)練的通用模型更好。

主持人：這有點(diǎn)類似于語言方面的討論。我記得你最喜歡的一個例子是，你可以把一種低資源語言放在上下文中，它就能在上下文中學(xué)習(xí)。

Jeff Dean：我記得我們用的例子是卡爾梅克-衛(wèi)拉特語，那是真正的低資源語言，因?yàn)槭澜缟现挥写蠹s 120 人使用，而且沒有書面文本。所以你可以直接把它放在上下文里。

主持人：但我覺得你整個數(shù)據(jù)集都在上下文里。

Jeff Dean：如果你拿一種語言，比如索馬里語之類的，世界上確實(shí)有相當(dāng)數(shù)量的索馬里語文本，或者埃塞俄比亞的阿姆哈拉語之類的。我們可能不會把所有那些語言的數(shù)據(jù)都放進(jìn) Gemini 的基礎(chǔ)訓(xùn)練里。我們會放一部分進(jìn)去，但如果你放更多進(jìn)去，你會提高模型在這些語言上的能力。

主持人：我對語言學(xué)有點(diǎn)興趣。大學(xué)時上過幾節(jié)課。我有時想，如果我是一名語言學(xué)家，并且可以使用所有這些模型，我會問一些關(guān)于語言本身的非?；镜膯栴}。比如，一個非常明顯的問題是“沃爾夫假說”：你說的語言在多大程度上影響你的思維？還有一些語言中有些概念在其他語言中沒有體現(xiàn)，但很多其他概念則是重復(fù)的。

還有一篇人們很喜歡的論文叫《柏拉圖式表征》，講的是比如一張杯子的圖片，如果你在上面訓(xùn)練一個模型，并且有大量帶有“杯子”這個詞的文本，它們最終會映射到潛在空間中大致相同的位置。所以，這應(yīng)該適用于語言，除了那些不適用的地方。而這正是人類發(fā)現(xiàn)的一些有趣的概念差異，可能英語里沒有。

Jeff Dean：是的，我做過一個早期模型的工作，它將一個基于語言的模型（有很好的基于詞的表示）和一個在 ImageNet 之類東西上訓(xùn)練的圖像模型融合在一起。是的，然后你把它們的頂層融合起來。再做一點(diǎn)額外的訓(xùn)練來融合這些表征。

我們發(fā)現(xiàn)如果你給模型一張全新的、不在圖像模型訓(xùn)練類別中的圖像，它常常能給那張圖像分配出正確的標(biāo)簽。例如，我認(rèn)為望遠(yuǎn)鏡和雙筒望遠(yuǎn)鏡都在圖像模型的訓(xùn)練類別中，但顯微鏡不在。所以如果你給它一張顯微鏡的圖像，它實(shí)際上能想出帶有“顯微鏡”這個詞的標(biāo)簽，即使它從未見過標(biāo)記為“顯微鏡”的圖像。

（來源：Gemini 生成）

關(guān)于神經(jīng)網(wǎng)絡(luò)

主持人：聊了這么多，從硬件到模型研究，你覺得還有什么是人們應(yīng)該多問問你的？

Jeff Dean：有一件挺有意思的事是，我在 1990 年做本科畢業(yè)論文時，做的就是并行神經(jīng)網(wǎng)絡(luò)訓(xùn)練。那時我第一次接觸到神經(jīng)網(wǎng)絡(luò)，我一直覺得它們是正確的抽象，只是我們需要比當(dāng)時多得多的算力。學(xué)校計(jì)算機(jī)系里那臺有 32 個處理器的并行計(jì)算機(jī)，能幫你做出稍微有趣一點(diǎn)的模型，但不足以解決真正的問題。

所以從 2008、2009 年開始，人們通過摩爾定律擁有了足夠的算力。以及更大、更有趣的數(shù)據(jù)集可以用于訓(xùn)練，實(shí)際上開始訓(xùn)練能夠解決人們關(guān)心的實(shí)際問題的神經(jīng)網(wǎng)絡(luò)，比如語音識別、視覺，最終是語言。所以當(dāng)我在 2011 年底開始在谷歌做神經(jīng)網(wǎng)絡(luò)時，我真的覺得我們應(yīng)該利用大量的并行計(jì)算來擴(kuò)大神經(jīng)網(wǎng)絡(luò)的規(guī)模。所以我實(shí)際上重拾了我本科論文中的一些想法，我當(dāng)時既做了模型并行，也做了數(shù)據(jù)并行訓(xùn)練，并對它們進(jìn)行了比較。我當(dāng)時給它們?nèi)×瞬煌拿?，比如模式劃分和模型劃分之類的?/p>

主持人：那個論文是公開的嗎？

Jeff Dean：好像網(wǎng)上能找到。但是，我認(rèn)為結(jié)合這些技術(shù)，并且在過去十五年里真正致力于推動規(guī)?；?，一直非常重要。這意味著硬件上的改進(jìn)。因此，我們一方面推動專用硬件的研發(fā)，比如 TPU；另一方面也著力于軟件抽象層的建設(shè)，讓人們能夠更高效地表達(dá)機(jī)器學(xué)習(xí)想法。與此同時，像稀疏模型這樣的前沿方向也在持續(xù)推進(jìn)中。

長期以來我一直覺得，稀疏激活的模型是一件非常重要的事情，因?yàn)槟阆ＭＰ陀泻艽蟮娜萘?，就像我們之前討論的記憶很多東西那樣。但你也希望模型的激活極其高效，所以你希望有數(shù)萬億的參數(shù)，但只激活其中的 1%、5% 或 10%。我們在 2017 年的一篇早期論文中做了這方面的工作，真正實(shí)現(xiàn)了超大規(guī)模神經(jīng)網(wǎng)絡(luò)的規(guī)?；瘮U(kuò)展。那篇論文的標(biāo)題里有個很吸引眼球的詞。我記得標(biāo)題里有“outrageously large”。

主持人：你那時就在談?wù)撊f億參數(shù)的模型。

Jeff Dean：是的，因?yàn)榕c非稀疏模型相比，它在達(dá)到給定質(zhì)量水平所需的時間或計(jì)算成本上，帶來了 10 倍的改進(jìn)。同樣，相比當(dāng)年的 LSTM，Transformer 在達(dá)到同等質(zhì)量水平時，計(jì)算成本降低了 10 到 100 倍。所有這些因素乘在一起讓我認(rèn)為這些事情都很重要，需要去研究。

從硬件到系統(tǒng)基礎(chǔ)設(shè)施，從模型架構(gòu)的算法優(yōu)化，到數(shù)據(jù)質(zhì)量的提升，再到強(qiáng)化學(xué)習(xí)方法的改進(jìn)，所有這些因素疊加在一起，產(chǎn)生了乘數(shù)效應(yīng)。這才讓 2026 年的模型，不僅遠(yuǎn)超 2025 年，更將 2023、2022 年的版本遠(yuǎn)遠(yuǎn)甩在身后。

主持人：這是一個巨大的組織挑戰(zhàn)，這涉及上千人，也許更多。我知道，當(dāng) Gemini 的論文出來時，我看到有上千位合著者。

Jeff Dean：那篇論文有 10 頁的合著者名單。我認(rèn)為有這么多合著者是完全合理的。而且我確實(shí)認(rèn)為，組織這么多人，讓他們有效地朝著共同的方向努力，讓他們所有的工作最終在最終的產(chǎn)出（也就是下一代模型）上形成乘數(shù)效應(yīng)，實(shí)際上相當(dāng)棘手。我們在整個 Gemini 團(tuán)隊(duì)中擁有出色的人來幫助協(xié)調(diào)這一切。所以，你知道，我自己、Noam 和 Oriol 在幫忙指引方向。

然后我們有團(tuán)隊(duì)在思考，預(yù)訓(xùn)練設(shè)置是什么樣的？基礎(chǔ)設(shè)施是什么樣的？后訓(xùn)練方案是什么樣的？數(shù)據(jù)準(zhǔn)備是什么樣的？還有多模態(tài)能力、長上下文能力？有很多不同的領(lǐng)域，編程能力。所有這些領(lǐng)域都超級重要，有專人密切關(guān)注這些事情是很好的。同時也要密切關(guān)注所有其他事情。

主持人：是的，我聽說謝爾蓋非常積極地回來了。（編者注：“謝爾蓋”指的是謝爾蓋·布林（Sergey Brin），他是谷歌的聯(lián)合創(chuàng)始人之一。）

Jeff Dean：是的，非常積極。

主持人：參與編程方面的工作。

Jeff Dean：是的，我們都用同一個微型廚房。（編者注：“用同一個微型廚房”，是指大家共用一個小型茶水間/休息區(qū)，暗示了謝爾蓋深入一線、和團(tuán)隊(duì)打成一片的狀態(tài)。）

主持人：你可能講過幾次，顯然 Google Brain 也是在一個微型廚房里起步的。

Jeff Dean：是的。

主持人：看來你們的微型廚房非常重要。

Jeff Dean：是的，我偶然碰到了當(dāng)時在美國斯坦福大學(xué)任教的吳恩達(dá)。我之前因?yàn)槿ニ固垢Ｗ鲞^幾次演講而認(rèn)識他，所以算是認(rèn)識。我問他，你在這里做什么？他說：“哦，我還不確定，我?guī)字芮皠傞_始在這里兼職，每周來一天做顧問。我還不確定做什么，但我的斯坦福學(xué)生們在用神經(jīng)網(wǎng)絡(luò)做語音識別，開始取得一些好結(jié)果?！蔽倚南?，哦，神經(jīng)網(wǎng)絡(luò)，我喜歡神經(jīng)網(wǎng)絡(luò)，這讓我想起了我 90 年代的本科論文。我對他說：“哦，聽起來很有趣。我們應(yīng)該訓(xùn)練真正、真正大的神經(jīng)網(wǎng)絡(luò)。當(dāng)時就是這么開始的?！?/p>

主持人：你的第一反應(yīng)很有意思，就是“我們應(yīng)該把它大規(guī)模擴(kuò)展”。

Jeff Dean：嗯，我的意思是，我覺得谷歌有大量的計(jì)算能力。所以如果他們在單 GPU 模型上看到了好結(jié)果，你知道，如果當(dāng)時我們的數(shù)據(jù)中心里沒有 GPU，沒有任何加速器。我們有很多 CPU，但我們可以構(gòu)建一個軟件系統(tǒng)，讓你能夠通過模型并行和數(shù)據(jù)并行，分布到大量計(jì)算機(jī)上。

我們最終訓(xùn)練了一個相當(dāng)大的模型，據(jù)我們所知，比之前的任何神經(jīng)網(wǎng)絡(luò)都大 50 倍。那是一個有 20 億參數(shù)的視覺模型，在 16,000 個數(shù)據(jù)中心算力核心上訓(xùn)練了數(shù)周。這讓我們得到了很好的結(jié)果。它在 ImageNet 22K（那個 22,000 類別的數(shù)據(jù)集）上帶來了 70% 的相對錯誤率改進(jìn)。

這也讓我們真正看到了規(guī)?；闹匾?。我們沒有寫一個復(fù)雜的規(guī)?；治?，但我們看到了：更大的模型、更多的數(shù)據(jù)，帶來更好的結(jié)果。這成了接下來六七年里我們不斷擴(kuò)展的信條。每次當(dāng)我們這樣做，都在語音、語言和視覺上看到了更好的結(jié)果。

（來源：Gemini 生成）

關(guān)于 Gemini 命名來源

主持人：我們之前的嘉賓 David Juan，他曾經(jīng)為你工作。他有點(diǎn)把谷歌在語言模型上投入不足歸咎于 Google Brain 的內(nèi)部計(jì)算資源市場。我想知道，你是否同意當(dāng)時的這種看法？（編者注：戴維·欒（David Luan），是 AI 領(lǐng)域知名的技術(shù)專家，曾任職于 Google Brain 和 OpenAI，后來創(chuàng)辦了 AI 初創(chuàng)公司 Adept。）

Jeff Dean：是那個給計(jì)算配額定價的內(nèi)部市場嗎？

主持人：是的，計(jì)算配額市場?；旧纤f的是，David 在 OpenAI 的 VP 引擎團(tuán)隊(duì)工作過，也在谷歌工作過。他說，從根本上講，OpenAI 愿意全情投入，把全部賭注押在一件事上，而谷歌則更民主，每個人都有自己的一畝三分地。我當(dāng)時想，如果你相信規(guī)模化是一件重要的事，那這其實(shí)是一個需要在整個組織層面做出的重要決策。

Jeff Dean：我認(rèn)為我某種程度上同意這個說法。我記得我實(shí)際上寫過一份一頁紙的備忘錄，說我們分散資源是很愚蠢的。具體來說，當(dāng)時在谷歌研究院內(nèi)部，尤其是在 Brain 團(tuán)隊(duì)，我們有多個大模型的工作。在 Brain 和谷歌研究院的其他部分，我們也有多模態(tài)模型的工作。

然后原來的 DeepMind 也有像 Chinchilla 和 Flamingo 這樣的模型。所以我們不僅把計(jì)算資源分散到了這些不同的工作中，也分散了我們最優(yōu)秀的人才和最好的想法。所以我說，這太蠢了。我們?yōu)槭裁床宦?lián)合起來，集中力量做一件事？

主持人：這就是合并的起源。

Jeff Dean：去訓(xùn)練一個從一開始就是多模態(tài)的、厲害的、統(tǒng)一的、在所有方面都很出色的模型，這就是 Gemini 努力的起源。我那頁紙的備忘錄奏效了，這很好。

主持人：名字也是你取的嗎？

Jeff Dean：是的，當(dāng)時我還提議了另一個名字。我說，這兩個組織走到一起，某種程度上就像雙胞胎（twins）。所以我有點(diǎn)喜歡這個名字。而且，NASA 早期的雙子座計(jì)劃（Gemini project）也是通往阿波羅計(jì)劃的重要一步。所以這看起來是個好名字。雙胞胎走到一起。

（來源：Gemini）

關(guān)于 AI 編程

主持人：我很好奇，你現(xiàn)在是怎么用 AI 來編程的？你可能是計(jì)算機(jī)科學(xué)史上最多產(chǎn)的工程師之一。我在讀一篇文章時，看到關(guān)于你和 Sanjay 的友誼，以及你們?nèi)绾我黄鸸ぷ?。有一句話提到，你需要找到一個能和你一起結(jié)對編程的人，他的思維方式與你兼容，這樣你們倆合在一起就能形成互補(bǔ)的力量。

我在想，你怎么看待編程智能體？你如何塑造一個編程智能體，使其與你的思維方式兼容？你覺得今天的工具怎么樣？有什么看法？（編者注： Sanjay 指的是桑杰·格瑪沃特（Sanjay Ghemawat），他是谷歌系統(tǒng)基礎(chǔ)設(shè)施部門的高級研究員，也是 Jeff Dean 長達(dá)二十多年的黃金搭檔。）

Jeff Dean：我認(rèn)為編程工具與一兩年前相比，正在變得非常、非常強(qiáng)大。所以現(xiàn)在，你可以真正依賴它們來完成更復(fù)雜的任務(wù)，那些你作為軟件工程師想要完成的任務(wù)。你可以把相當(dāng)復(fù)雜的事情委托給這些工具。我認(rèn)為，人類軟件工程師和他們正在使用的編程模型之間互動的一個非常好的方面是，你與那個編程模型對話的方式，實(shí)際上決定了它如何與你互動，對吧？

你可以讓它“請為這個寫一堆好的測試”。你可以讓它“請幫我 brainstorm 一些性能方面的想法”。你的提問方式會塑造模型的回應(yīng)方式，它會處理什么樣的問題。你希望模型多大程度上去獨(dú)立完成更大的事情，還是更多地與你互動，以確保你在塑造正確的方向？

我認(rèn)為，并不是某一種風(fēng)格適合所有情況。對于某些問題，你可能實(shí)際上希望與模型有更頻繁的互動。而對于另一些問題，你可能就直接說，“好的，請去把這個寫了，因?yàn)槲抑牢倚枰@個東西。我能夠清晰地說明它，你就去做吧，做完回來?！彼晕掖_實(shí)認(rèn)為，未來會有更多獨(dú)立的軟件智能體代表你行事，我們需要找出合適的人機(jī)交互模型和用戶界面來決定它什么時候應(yīng)該打斷你。

比如，它會說：“嘿，我需要一點(diǎn)指導(dǎo)”，或者“我已經(jīng)完成了這件事，下一步做什么？” 我認(rèn)為我們還沒有這個問題的最終答案。隨著模型變得更好，你在決定互動應(yīng)該如何進(jìn)行時所做的決策也可能會改變。就像如果你有一個由 50 名實(shí)習(xí)生組成的團(tuán)隊(duì)，如果他們是人類，你會如何管理？我想，如果他們是真正優(yōu)秀的 50 名實(shí)習(xí)生，情況可能不同。

主持人：管理量很大。

Jeff Dean：管理量確實(shí)很大。我認(rèn)為很有可能，很多人將來都會擁有 50 名實(shí)習(xí)生。那么作為一個人，你實(shí)際上會如何應(yīng)對呢？你可能希望他們組成小型的子團(tuán)隊(duì)，這樣你就不用和 50 個人都直接互動。你可以和其中五個團(tuán)隊(duì)互動，他們都在代表你做事。但我不完全確定這會如何展開。

主持人：你如何看待引入他人，比如結(jié)對編程？結(jié)對編程總是有助于帶來新的想法。感覺隨著我們有更多的編程引擎來編寫代碼，將其他人引入問題就變得困難了。比如說，你有了 50 個實(shí)習(xí)生，對吧？然后你想去找 Noam 或 Sanjay，說，“嘿，我想跟你結(jié)對做這個事”。但是現(xiàn)在有大量的并行工作已經(jīng)完成了，你需要讓他們先跟上這些，對吧？我很好奇，人們在團(tuán)隊(duì)中會不會變得更加孤立？因?yàn)闀刑噙@ 50 個實(shí)習(xí)生帶來的上下文，很難全部同步給你。

Jeff Dean：也許吧。但另一方面，想象一個沒有任何 AI 輔助工具的經(jīng)典軟件組織，你會有 50 個人在做事情。他們的互動方式自然會是高度層級化的，因?yàn)檫@ 50 個人會在系統(tǒng)的這一部分工作，不會和那邊的那些人互動那么多。但如果你有五個人，每個人管理著 50 個虛擬智能體，他們之間可能會有高得多的溝通帶寬。然后這五個人再相互溝通協(xié)調(diào)，這比五個人同時還要協(xié)調(diào)各自管理的 50 人團(tuán)隊(duì)要高效。

主持人：我很好奇你是如何改變自己的工作節(jié)奏的？比如，你花了更多時間在腦子里和人們一起 review 代碼和設(shè)計(jì)目標(biāo)嗎？

Jeff Dean：我覺得有意思的是，每當(dāng)人們被教導(dǎo)如何寫軟件時，他們都被教導(dǎo)清晰地編寫規(guī)格說明非常重要，但沒人真正相信這一點(diǎn)。人們只會覺得：“嗯，知道了，沒必要那么較真?！比缓罄^續(xù)我行我素。

主持人：真的嗎？

Jeff Dean：我的意思是，用英語寫的規(guī)格說明，從來都不是一個真正被高度重視的產(chǎn)物。它很重要，但它不像現(xiàn)在這樣，如果這是你要求智能體為你編寫軟件的依據(jù)，那你最好在如何說明上非常、非常小心，因?yàn)槟菍Q定輸出的質(zhì)量，對吧？就像如果你沒有涵蓋到它需要處理這類情況，或者這是一個超級重要的邊界情況，或者你特別關(guān)心這一部分的性能，它可能就不會按你想要的方式工作。我覺得人進(jìn)步的一個方法，就是學(xué)會把事兒說明白，別模棱兩可的。這真不是壞事。不管你是寫程序的，還是干別的，能把需求講清楚，這個本事到哪兒都吃香。

主持人：是的，好的提示詞工程與足夠高級的管理層溝通沒什么區(qū)別。就像寫內(nèi)部備忘錄一樣，非常仔細(xì)地斟酌你的用詞。而且，我認(rèn)為，能夠做到多模態(tài)非常重要。我覺得，谷歌的 NotebookLM 做得很好的一點(diǎn)就是，直接涌現(xiàn)出了非常、非常強(qiáng)大的多模態(tài)能力，包括視頻。那是你能給模型提供的最高帶寬的溝通提示。

那么，你如何收集那些你腦海中經(jīng)常有的東西？比如你寫過那些關(guān)于如何尋找性能改進(jìn)的驚人技巧。人們把這些通用的東西寫下來，以便以后可以把它作為檢索的素材給模型，這樣是不是更有價值？拿邊界情況來說吧，你心里門兒清，但每次都得跟人掰扯一遍。那你會不會讓大家多花點(diǎn)功夫，把這些東西寫成通用的，以后直接甩出來就能用？

Jeff Dean：我認(rèn)為那些寫得好的軟件工程指南會很有用，因?yàn)樗鼈兛梢宰鳛槟Ｐ偷妮斎?，或者被其他開發(fā)者閱讀，這樣它們就能像提示詞一樣，讓底層軟件系統(tǒng)應(yīng)該做什么更清晰。我認(rèn)為可能不需要為每種情況都創(chuàng)建定制化的指南。如果你有通用的指南，把它們放到編程智能體的上下文里，那會很有幫助。

你可以想象一份針對分布式系統(tǒng)的指南。你可以告訴它：“這類故障可以這么處理?！北热?Paxos 協(xié)議，或者雙路發(fā)送、單路返回的容錯機(jī)制。把 20 種類似的技巧寫成一個“分布式系統(tǒng)避坑指南”，編程智能體就能借鑒這些經(jīng)驗(yàn)，搭出更靠譜的系統(tǒng)。

主持人：Gemini 能寫出 Spanner 嗎？也許已經(jīng)可以了，畢竟代碼就擺在那兒。CAP 定理是個好例子，人人都當(dāng)它是鐵律，結(jié)果你們硬是把它打破了。我好奇的是，模型會不會也這樣？在某些前提下，你會說它“推翻了 CAP 定理”嗎？（編者注：1、Spanner 是谷歌開發(fā)的全球分布式數(shù)據(jù)庫，被譽(yù)為數(shù)據(jù)庫領(lǐng)域的“登月計(jì)劃”。2、CAP 定理是分布式系統(tǒng)設(shè)計(jì)的核心基石，由計(jì)算機(jī)科學(xué)家埃里克·布魯爾（Eric Brewer）在 2000 年提出。）

Jeff Dean：是的，在某些假設(shè)下。

主持人：你給模型灌輸什么，它就容易信什么。所以我就老在想一個問題，就是關(guān)于你剛才說的延遲。我一直特別想做這么個實(shí)驗(yàn)：一邊是快速跑幾輪、人隨時糾正，另一邊是憋一個大招、寫個巨詳細(xì)的提示詞讓模型一次搞定。這兩種方式，到底誰更牛？性能問題到底是因?yàn)槟銢]說明白，還是因?yàn)槟愀緵]法說明白？

Jeff Dean：它說明不足，所以我可以產(chǎn)生 10 種不同的東西，但只有一個是你要的。

主持人：那么，用 Flash 模型進(jìn)行多輪交互就足夠了。

Jeff Dean：我非常信奉推動低延遲，因?yàn)槲艺J(rèn)為能夠與你使用的系統(tǒng)進(jìn)行真正低延遲的互動，比慢 10 倍或 20 倍的東西要令人愉悅得多。而且我認(rèn)為，未來我們會看到模型，以及底層的軟件和硬件系統(tǒng)，其延遲比我們今天擁有的低 20 倍、低 50 倍。這對于需要在你的交互之間做大量事情的系統(tǒng)來說，將非常、非常重要。

主持人：有兩個極端，你還有 DeepThink，它一直在另一端，對吧？

Jeff Dean：但如果不是因?yàn)槌杀竞脱舆t，你會一直使用 DeepThink。如果你能在模型中擁有那種能力，同時底層硬件系統(tǒng)的延遲改善了 20 倍，成本也降下來了，你沒有任何理由不想要那個。但與此同時，你可能會有更好的模型，即使在新硬件上，也需要花 20 倍的時間。

主持人：你知道，帕累托曲線一直在上升。

Jeff Dean：是的，向前，向上。

關(guān)于個性化模型

主持人：有沒有一些你現(xiàn)在就可以做、未來也能驗(yàn)證的預(yù)測？比如說，每次新模型發(fā)布，你都會用一些測試來衡量，那么眼下還有哪些讓你不太滿意、但你預(yù)感很快就會被攻克的難題？

Jeff Dean：讓我做兩個預(yù)測，可能不完全是你說的那種。首先，我認(rèn)為一個了解你、了解你所有狀態(tài)、并且能夠在你選擇加入的情況下檢索你能訪問的所有狀態(tài)的個性化模型，將比一個無法訪問這些的通用模型有用得多。比如，可以關(guān)注我見過的所有東西的模型。每一封郵件，每一張照片，我看過的每一個視頻。我認(rèn)為，越來越多專用硬件將能夠以比現(xiàn)狀更實(shí)惠的價格，實(shí)現(xiàn)延遲低得多的模型和性能更強(qiáng)的模型。

主持人：你提到低得多的延遲，業(yè)內(nèi)常用每秒 tokens 數(shù)來衡量。現(xiàn)在如果是 100，未來能到幾千甚至 10,000，這有意義嗎？

Jeff Dean：太有意義了，思維鏈推理就指著這個呢。你可以想象多得多的 tokens，你可以做多得多的并行推演，你可以生成更多的代碼，并用思維鏈推理檢查代碼是否正確。所以我認(rèn)為，能夠以每秒 10,000 tokens 的速度做到這些，那就太棒了。

主持人：每秒 10,000 tokens 時，你就不再是閱讀代碼了。

Jeff Dean：最終可能不是 10,000 tokens 的代碼，而是 1,000 tokens 的代碼，背后帶著 9,000 tokens 的推理過程。這實(shí)際上可能會是更好讀的代碼。

主持人：就像那句名言：給我更多時間，我能寫出更短的句子。（編者注：這句話通常被歸功于法國數(shù)學(xué)家、哲學(xué)家布萊茲·帕斯卡（Blaise Pascal），他在 1657 年出版的《致外省人信札》中寫過一句類似的話：“我沒有時間寫得短些，所以只好寫得長些?！保?/p>

Jeff Dean：是的。

主持人：太棒了，Jeff，這次訪談太精彩了。

Jeff Dean：謝謝你們，非常有趣，感謝邀請。

參考資料：

原視頻

https://www.youtube.com/watch?v=F_1oDPWxpFQ

排版：胡巍巍Jeff Dean萬字訪談：我們正在殺死割裂AI應(yīng)用，2026年是大一統(tǒng)元年

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.