国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Gemini靈魂人物、傳奇工程師Jeff Dean最新訪談:未來人均50個虛擬實習(xí)生,用不上專家了!

0
分享至


整理 |華衛(wèi)

“簡歷基本上就是 AI 的時間線”,這是許多人對 Gemini 背后的核心推動者、谷歌首席人工智能科學(xué)家 Jeff Dean 的評價。從 2000 年代初重寫谷歌搜索全棧到重啟萬億參數(shù)稀疏模型,再到將 TPU 與前沿機(jī)器學(xué)習(xí)研究協(xié)同設(shè)計,Jeff Dean 以一種低調(diào)的方式,幾乎塑造了現(xiàn)代 AI 技術(shù)棧的每一層。他親歷了多輪規(guī)模革命:從 CPU、分片索引,到能跨文本、視頻、代碼進(jìn)行推理的多模態(tài)模型。

近日,他在一場深度對話中的犀利言論備受熱議。不少業(yè)內(nèi)人士直呼,“信息量超大”。在這場訪談中,Dean 拋出了諸多獨家觀點與極具前瞻性的判斷。

“大一統(tǒng)模型的時代真的來了。關(guān)鍵在于,模型正在變得越來越強,不再需要領(lǐng)域?qū)<??!彼硎?,未來是專用模型加模塊化模型的組合,可以同時擁有并在不同場景下調(diào)用 200 種語言、超強機(jī)器人模塊、超強醫(yī)療模塊。“模型知識是可安裝的,像下載軟件包一樣?!?/p>

作為“計算機(jī)歷史上最高產(chǎn)的工程師之一”,Dean 還大方分享了自己現(xiàn)在用 AI 寫代碼的方式,并表示,“未來很可能每個人都能擁有 50 個虛擬實習(xí)生,讓他們組成小組,只需要對接 5 個小組,讓他們各自干活?!?/p>

而且,Dean 詳細(xì)透露了谷歌內(nèi)部“沖前沿”的模式和推動團(tuán)隊架構(gòu)改進(jìn)和模型能力升級的思考。除此之外,他還提出并拆解了多個有趣的問題,包括:為什么蒸餾是每一次 Flash 模型突破的核心驅(qū)動力、為何能耗而非算力正成為真正瓶頸、如何提前 2–6 年 進(jìn)行硬件與模型的協(xié)同設(shè)計、為什么下一次躍遷不只來自更大的上下文窗口而是來自能“仿佛在處理萬億 token” 的系統(tǒng)等。

以下是詳細(xì)對話內(nèi)容,我們在不改變原意的基礎(chǔ)上進(jìn)行了翻譯和刪減,以饗讀者。

1 下一代模型,哪些舊思路值得撿起來?

Shawn Wang:今天我們請到了谷歌首席 AI 科學(xué)家 Jeff Dean,歡迎您。能邀請到您真的太榮幸了,我看過您無數(shù)場演講,您的職業(yè)生涯堪稱傳奇。首先必須要說,恭喜你們拿下了"帕累托前沿"(Pareto Frontier)。

Jeff Dean:謝謝。帕累托前沿確實很棒,能站在這個位置很不錯。

Shawn Wang:對,我覺得是兩者兼?zhèn)洹D慵纫紦?jù)帕累托前沿,要有頂尖能力,也要兼顧效率,然后提供大家愿意用的一系列模型。這其中一部分源于你們的硬件工作,一部分來自模型工作,肯定還有很多日積月累的獨門秘訣。能看到這一切如此絲滑地整合在一起,真的非常震撼。

Jeff Dean:是的沒錯。就像你說的,這不是單一因素,而是技術(shù)棧從上到下一整套東西的結(jié)合。所有這些加在一起,才讓谷歌能夠做出能力極強的大模型,同時也通過軟件技術(shù),把大模型的能力遷移到更小、更輕量的模型里,這些小模型成本更低、延遲更低,但在自身規(guī)模下依然能力很強。

Alessio Fanelli:那在守住帕累托前沿下限這方面,你們有多大壓力?我感覺很多新實驗室都在拼命沖性能上限,因為要融資之類的。而你們有數(shù)十億用戶。我記得你們早年做 CPU 的時候就討論過:如果每個谷歌用戶每天用三分鐘語音模型,你們就得把 CPU 數(shù)量翻倍。現(xiàn)在谷歌內(nèi)部是怎么討論的?怎么權(quán)衡“沖前沿”和“必須落地部署”這兩件事?

Jeff Dean:我們一直希望擁有前沿、甚至推動前沿的模型,因為只有這樣才能看到去年、半年前不存在的新能力。但同時我們也知道,這些頂尖模型雖然有用,但對很多更廣泛的場景來說,速度偏慢、成本偏高。所以我們的思路是:同時做兩條線,一條是高能力、低成本的模型,支持低延遲場景,讓大家能更輕松地用在智能體編程等任務(wù)上;另一條是高端前沿模型,用于深度推理、解決復(fù)雜數(shù)學(xué)問題這類場景。兩者不是二選一,而是都有用。而且通過蒸餾這一關(guān)鍵技術(shù),你必須先有前沿模型,才能把能力蒸餾到小模型里。所以這不是非此即彼,而是相輔相成。

Alessio Fanelli:你和 Jeffrey 在 2014 年就提出了相關(guān)方案。

Jeff Dean:別忘了還有 L’Oreal Vinyls 那篇工作。

Alessio Fanelli:都是很早以前了。我很好奇,你怎么看待這些思路的迭代周期?比如稀疏模型這類想法,你們會怎么重新評估?下一代模型里,哪些舊思路值得重新?lián)炱饋??你參與過很多后來影響巨大的想法,但在當(dāng)時未必能看出來。

Jeff Dean:蒸餾最早的出發(fā)點是,我們當(dāng)時有一個很大的圖像數(shù)據(jù)集,3 億張圖。我們發(fā)現(xiàn),如果為不同圖像類別訓(xùn)練專用模型,比如這個專攻哺乳動物,那個專攻室內(nèi)場景,先在更寬泛的圖像上預(yù)訓(xùn)練,再對聚類后的類別用增強數(shù)據(jù)微調(diào),效果會好很多。但如果把這 50 個模型當(dāng)成一個大集成模型,實際部署并不現(xiàn)實。于是蒸餾的思路就來了:把這些獨立的專家模型“壓縮”成一個可以實際部署的形態(tài)。這和我們今天做的事本質(zhì)差不多,只是現(xiàn)在我們不再用 50 個模型的集成,而是先訓(xùn)練一個超大模型,再把它蒸餾成小得多的模型。

Shawn Wang:我還在想,蒸餾是不是和強化學(xué)習(xí)的革新也有關(guān)系?我試著表達(dá)一下,強化學(xué)習(xí)會讓模型在分布的某一部分突飛猛進(jìn),但可能在其他區(qū)域有損失,是一種不太均衡的技術(shù)。但或許可以通過蒸餾把它“收回來”。大家的普遍期望是:提升能力的同時不在其他地方退步。這種無損能力融合,我感覺一部分應(yīng)該可以通過蒸餾實現(xiàn),但我還沒太理清,相關(guān)論文也不多。

Jeff Dean:我覺得蒸餾的一個核心優(yōu)勢就是:你可以用很小的模型,配合超大數(shù)據(jù)集,通過多次遍歷數(shù)據(jù),從超大模型那里拿到邏輯概率輸出,引導(dǎo)小模型學(xué)到只用硬標(biāo)簽學(xué)不到的行為。我們觀察到,蒸餾可以讓小模型接近大模型的效果。這對很多人來說都是最佳平衡點?,F(xiàn)在 Gemini 已經(jīng)好幾代了,我們都能讓新一代的 Flash 版本達(dá)到甚至大幅超越上一代 Pro 版本的效果。我們會繼續(xù)這么做,因為這是一個很健康的方向。

Shawn Wang:達(dá)拉之前問過:最早的路線圖是 Flash、Pro、Ultra。你們是不是一直拿著 Ultra 當(dāng)“母模型”,從它里面蒸餾?Ultra 就是那個終極源頭嗎?

Jeff Dean:我們有很多種模型,有些是內(nèi)部模型,不對外發(fā)布或部署;有些是 Pro 級別模型,我們也可以從它蒸餾出 Flash 級別模型。這套能力很重要,推理時的動態(tài)擴(kuò)展也能提升模型效果。

Shawn Wang:明白。而且顯然 Flash 的成本優(yōu)勢帶來了絕對統(tǒng)治力。最新數(shù)據(jù)好像是 50 萬億 token,我記不清了,反正每天都在變。

Jeff Dean:對,希望市場份額也在往上走。

Shawn Wang:我是說從成本上看,F(xiàn)lash 太經(jīng)濟(jì)了,幾乎什么場景都能用?,F(xiàn)在 Gmail 里有,YouTube 里有,到處都有。

Jeff Dean:我們也在越來越多的搜索產(chǎn)品里用上它,包括各種 AI 模式。

Shawn Wang:我的天,F(xiàn)lash 都進(jìn) AI 搜索模式了?我都沒想到。

Jeff Dean:Flash 模型的一大優(yōu)點不只是成本更低,還有延遲更低。延遲其實非常關(guān)鍵,因為未來我們會讓模型做更復(fù)雜的事,生成更多令牌。比如你不再只讓它寫個循環(huán),而是讓它寫一整套軟件包。能低延遲完成這些就特別重要。Flash 是一條路徑,我們的硬件平臺也支撐了很多服務(wù)能力,比如 TPU,芯片間的互聯(lián)性能極高,非常適合長上下文注意力、稀疏專家模型這類技術(shù)。這些對規(guī)?;渴鹬陵P(guān)重要。

Alessio Fanelli:那從 Pro 到 Flash 的蒸餾,會不會存在一個臨界點,差不多滯后一代?我有種感覺:很多任務(wù)今天 Pro 已經(jīng)飽和了,到下一代,同樣任務(wù)在 Flash 的價位上就能飽和。再過兩代,F(xiàn)lash 幾乎能做所有人需要的一切。那當(dāng)大部分用戶都滿足于 Flash 時,你們怎么說服內(nèi)部繼續(xù)投入去推 Pro 的前沿?我很好奇你怎么看。

Jeff Dean:如果用戶的需求分布是靜止不變的,那確實會這樣。但現(xiàn)實往往是:模型越強,人們對它的期待就越高。我自己就有體會:一年前我用模型寫代碼,簡單任務(wù)還行,復(fù)雜的就不行;現(xiàn)在我們在復(fù)雜代碼上進(jìn)步巨大,我就會讓它做更難的事。不止編程,現(xiàn)在你會讓它分析全球可再生能源部署、寫一份太陽能報告,這些都是一年前沒人會讓模型做的復(fù)雜任務(wù)。所以你依然需要更強的模型去拓展邊界,同時也能幫我們找到瓶頸:哪里還不行,該怎么改進(jìn),讓下一代更強。

2 “把整個互聯(lián)網(wǎng)納入上下文”,讓模型處理萬億 token

Alessio Fanelli:你們內(nèi)部會用一些專屬基準(zhǔn)或測試集嗎?因為每次公開的都是那幾個基準(zhǔn),從 97% 漲到 99%,你們內(nèi)部怎么推動團(tuán)隊:我們真正要做的目標(biāo)是什么?

Jeff Dean:公開基準(zhǔn)有它的價值,但生命周期有限。剛出來時很難,模型只有 10%–30% 正確率,你可以一路優(yōu)化到 80%–90%。但一旦到 95% 左右,邊際收益就極低了,要么是能力已經(jīng)達(dá)標(biāo),要么是訓(xùn)練數(shù)據(jù)里出現(xiàn)了泄露或相似內(nèi)容。所以我們有一批不公開的內(nèi)部基準(zhǔn),確保訓(xùn)練數(shù)據(jù)里完全沒有,代表模型目前還不具備、但我們希望它擁有的能力。然后我們?nèi)ピu估:是需要更專業(yè)的數(shù)據(jù)?還是架構(gòu)改進(jìn)?或是模型能力升級?怎樣才能做得更好。

Shawn Wang:能不能舉個例子:某個基準(zhǔn)直接啟發(fā)了架構(gòu)改進(jìn)?我正好順著你剛才的話問。

Jeff Dean:我覺得 Gemini 模型尤其是 1.5 首次推出的長上下文能力,就是這么來的。我們當(dāng)時的目標(biāo)就是。

Shawn Wang:當(dāng)時所有人一擁而上,全是一片飄綠的圖表,我就在想:怎么大家同一時間都突破了?

Jeff Dean:Stack Benchmark 這種基準(zhǔn),在 1k、2k、8k 上下文長度上早就飽和了。我們真正在推的是 100 萬、200 萬上下文的前沿,因為這才有真實價值:你可以把上千頁文本、幾小時視頻放進(jìn)上下文里真正使用。單針查找已經(jīng)飽和,我們需要更復(fù)雜的“多針查找”,或是更真實的長上下文理解與生成任務(wù),才能衡量用戶真正需要的能力,而不只是“你能不能找到這個商品編號”。

Shawn Wang:本質(zhì)是檢索,是機(jī)器學(xué)習(xí)里的檢索。我想站在更底層一點說:你看到一個基準(zhǔn),發(fā)現(xiàn)需要改某個架構(gòu)才能解決,但你真的應(yīng)該改嗎?有時候這只是一種歸納偏置。就像曾在谷歌工作的 Jason Wei 說的:你可能短期贏了,但長期不一定能擴(kuò)展,甚至以后還要推翻重做。

Jeff Dean:我不太會糾結(jié)具體要用什么方案,而是先想清楚:我們到底需要什么能力?我們非常確定,長上下文是有用的,但現(xiàn)在的長度還遠(yuǎn)遠(yuǎn)不夠。你真正想要的,其實是回答問題的時候能把整個互聯(lián)網(wǎng)都納入上下文,對吧?但這靠單純擴(kuò)容現(xiàn)有方案是做不到的,現(xiàn)在的算法復(fù)雜度是平方級的。一百萬 tokens 已經(jīng)是現(xiàn)有方案的極限了,你不可能做到十億、更別說萬億 tokens。但如果你能營造出一種“模型可以關(guān)注萬億 tokens”的效果,那就太厲害了,應(yīng)用場景會多到爆炸。

這相當(dāng)于能把整個互聯(lián)網(wǎng)當(dāng)成上下文,能處理 YouTube 視頻的所有像素,以及我們能提取到的深層表征;不只是單個視頻,而是海量視頻。在個人版 Gemini 層面,只要你授權(quán),模型還能關(guān)聯(lián)你所有的個人狀態(tài):你的郵件、照片、文檔、機(jī)票信息等等。我覺得這會非常非常有用。問題在于,如何通過算法改進(jìn)和系統(tǒng)級優(yōu)化,讓模型真正有意義地處理萬億 tokens。

Shawn Wang:對了,我之前算過一筆賬:一個人每天不停說 8 小時話,一天最多也就生成 10 萬 tokens 左右,這個量現(xiàn)在完全裝得下。

Jeff Dean:沒錯。但如果你想理解所有人上傳的視頻內(nèi)容,那就完全不是一個量級了。

Shawn Wang:而且還有個經(jīng)典例子:一旦跳出文本,進(jìn)入蛋白質(zhì)這類信息密度極高的領(lǐng)域,數(shù)據(jù)量就爆炸了。

Jeff Dean:Gemini 從一開始就堅持做多模態(tài)。對很多人來說,多模態(tài)就是文本、圖片、視頻、音頻這些人類熟悉的模態(tài)。但我認(rèn)為,讓 Gemini 理解非人類模態(tài)也非常重要。比如 Waymo 自動駕駛汽車的激光雷達(dá)數(shù)據(jù)、機(jī)器人傳感器數(shù)據(jù),還有各類醫(yī)療模態(tài):X 光、核磁共振、醫(yī)學(xué)影像、基因組信息等等。世界上可能有幾百種數(shù)據(jù)模態(tài),我們至少要讓模型知道:這是一種有意義、有價值的模態(tài)。哪怕你沒有在預(yù)訓(xùn)練里把所有激光雷達(dá)、MRI 數(shù)據(jù)都訓(xùn)進(jìn)去,至少加一小部分進(jìn)去也是很有用的,能讓模型對這類信息有基本概念。

Shawn Wang:正好趁這個機(jī)會,我想問一個一直想問你的問題:有沒有“王者模態(tài)”,也就是能統(tǒng)攝其他所有模態(tài)的模態(tài)?舉個簡單例子:視覺在像素級別就能編碼文本,Deepseek 那篇 OCR 論文就證明了這點。而且視覺也能處理音頻,因為可以轉(zhuǎn)成語譜圖,本質(zhì)也是視覺任務(wù)。這么說的話,視覺是不是就是王者模態(tài)?

Jeff Dean:視覺和動態(tài)時序非常重要。這里說的動態(tài),是視頻,而不是靜態(tài)圖片。進(jìn)化讓眼睛獨立演化了 23 次,是有原因的,感知周圍世界的能力太關(guān)鍵了,而這正是我們希望這些模型具備的能力。模型要能解讀我們看到、關(guān)注到的事物,并幫我們利用這些信息去做事。

Shawn Wang:說到動態(tài)理解,我必須夸一句:Gemini 目前依然是市面上唯一原生支持視頻理解的模型,我經(jīng)常用它看 YouTube。

Jeff Dean:其實很多人還沒真正意識到 Gemini 模型的能力。我在演講里舉過一個例子:給模型一段過去 20 年里 18 個經(jīng)典體育瞬間的 YouTube 集錦,里面有喬丹總決賽絕殺、足球進(jìn)球等等。你直接把視頻丟給它,說:“幫我做一個表格,列出所有事件、發(fā)生時間和簡短描述?!?/p>

它真的能直接從視頻里抽出信息,生成一張 18 行的表格。大多數(shù)人根本想不到,模型可以直接把視頻轉(zhuǎn)成結(jié)構(gòu)化表格。

Alessio Fanelli:你剛才提到“把整個互聯(lián)網(wǎng)納入上下文”,谷歌本身就是因為人類處理不了全網(wǎng)信息,才需要做搜索排序。這對大模型來說邏輯完全不一樣:人類看搜索結(jié)果可能只看前五六條,但對大模型來說,是不是要給它 20 條高度相關(guān)的內(nèi)容?谷歌內(nèi)部是怎么思考的:如何打造一種比傳統(tǒng)人類搜索更寬泛、覆蓋更廣的 AI 模式?

Jeff Dean:即使在大模型出現(xiàn)之前,我們的排序系統(tǒng)也是這么做的:索引里有海量網(wǎng)頁,大部分都不相關(guān),先用輕量方法篩出一批相關(guān)的,比如縮到 3 萬個文檔,再一步步用更復(fù)雜的算法、更精細(xì)的信號去精排,最終只展示給用戶 10 條左右結(jié)果。大模型系統(tǒng)的思路不會差太多。你看似要處理萬億 tokens,但實際流程是:先篩出大約 3 萬個文檔、大概 3000 萬有用 tokens;再從中精挑細(xì)選出 117 個真正值得關(guān)注的文檔,用來完成用戶任務(wù)。

你可以想象這套系統(tǒng):先用輕量模型、高并發(fā)處理,篩出初始 3 萬候選;再用更強一點的模型把 3 萬縮到 117;最后用最強的模型去深度理解這 117 個內(nèi)容。只有這樣的系統(tǒng),才能營造出“模型能處理萬億 tokens”的效果,就像谷歌搜索確實在搜全網(wǎng),但最終只給你最相關(guān)的一小部分。

Shawn Wang:我經(jīng)常跟不了解谷歌搜索歷史的人說,Bert 剛出來就直接用進(jìn)了搜索,效果提升非常明顯。這對谷歌來說肯定是最核心的數(shù)據(jù)。

Jeff Dean:大模型帶來的文本表示方式,讓我們跳出了“關(guān)鍵詞必須精確匹配網(wǎng)頁”的硬限制,真正做到主題和語義相關(guān),而不是字面對應(yīng)。

Shawn Wang:我覺得很多人根本沒意識到,大模型已經(jīng)接管了谷歌、YouTube 這種超高流量系統(tǒng)。YouTube 有個語義標(biāo)識機(jī)制,每個 token 對應(yīng)一個視頻,用碼本預(yù)測視頻,以 YouTube 的規(guī)模來說,這太夸張了。

Jeff Dean:最近 Grok 也用在了可解釋 AI 上。其實在大模型大規(guī)模用于搜索之前,我們就一直在弱化“用戶輸入什么就必須匹配什么”的思路。

Shawn Wang:你有沒有梳理過這一路的演進(jìn)歷程?

Jeff Dean:我 2009 年在一個網(wǎng)絡(luò)搜索與數(shù)據(jù)挖掘會議上做過一次演講,講了 1999 到 2004、2005 年左右,谷歌搜索和檢索系統(tǒng)的五六代架構(gòu)演進(jìn),那部分內(nèi)容我們沒有正式發(fā)過論文。2001 年發(fā)生了一件關(guān)鍵的事:我們在多個維度擴(kuò)容系統(tǒng)。一是把索引做大,覆蓋更多網(wǎng)頁,質(zhì)量自然會提升,索引里沒有的頁面,你永遠(yuǎn)搜不出來。二是擴(kuò)容服務(wù)能力,因為流量暴漲。我們用的是分片架構(gòu),索引變大就加分片,比如從 30 片變成 60 片,以此控制延遲。流量變大就增加副本。

后來我們算了一筆賬:一個數(shù)據(jù)中心有 60 個分片,每個分片 20 個副本,一共 1200 臺帶硬盤的機(jī)器。這些機(jī)器的內(nèi)存加起來,剛好能把整個索引全放進(jìn)內(nèi)存。于是 2001 年,我們直接把全量索引塞進(jìn)內(nèi)存,效果直接起飛。在此之前,你必須非常謹(jǐn)慎,因為每個查詢詞都要在 60 個分片上觸發(fā)一次磁盤尋道,索引越大效率越低。但全量內(nèi)存索引后,哪怕用戶只輸入三四個詞,你擴(kuò)展成 50 個相關(guān)詞都沒問題,可以加同義詞,比如 restaurant、restaurants、cafe、bistro 全都一起搜。我們終于能開始理解詞義,而不是死磕用戶輸入的字面形式。

那是 2001 年,遠(yuǎn)在大模型之前,但思路已經(jīng)是:放寬嚴(yán)格字面匹配,靠近語義理解。

3 “寫大量代碼前,先在腦子里推演一遍設(shè)計空間”

Alessio Fanelli:你設(shè)計系統(tǒng)的原則是什么?尤其是在 2001 年,互聯(lián)網(wǎng)規(guī)模每年翻幾倍、漲三倍,現(xiàn)在大模型也是每年規(guī)模和能力跳一大截。你有什么一貫的設(shè)計原則?

Jeff Dean:首先,設(shè)計系統(tǒng)時,必須先抓住最關(guān)鍵的設(shè)計參數(shù):每秒要扛多少查詢?互聯(lián)網(wǎng)有多大?索引要做多大?每個文檔存多少信息?怎么檢索?流量再漲兩三倍還能不能扛?我一個很重要的設(shè)計原則是:把系統(tǒng)設(shè)計成能擴(kuò)容 5~10 倍,但不用更多。因為一旦變成 100 倍規(guī)模,整個設(shè)計空間會完全不一樣,原來合理的方案會直接作廢。比如從磁盤索引到內(nèi)存索引,就是流量和機(jī)器足夠多之后才變得可行的,一下子打開了全新架構(gòu)。

我很喜歡在寫大量代碼之前,先在腦子里把設(shè)計空間推演一遍?;氐焦雀柙缙?,我們不僅在瘋狂擴(kuò)大索引,索引更新頻率才是變化最夸張的指標(biāo)。以前是一個月更新一次,后來我們做到了單頁面一分鐘內(nèi)更新。

Shawn Wang:這就是核心競爭力對吧?

Jeff Dean:沒錯。新聞類查詢,如果你的索引還是上個月的,那就完全沒用。

Shawn Wang:新聞是個特殊場景,你們當(dāng)時就不能把它拆成獨立系統(tǒng)嗎?

Jeff Dean:我們確實推出了谷歌新聞,但用戶在主搜索里輸新聞相關(guān)關(guān)鍵詞,也必須拿到最新結(jié)果。

Shawn Wang:所以你們還要分類頁面,判斷哪些頁面該高頻更新、頻率是多少。

Jeff Dean:背后有一整套系統(tǒng),用來決定頁面的更新頻率和重要度。有些頁面雖然變化概率低,但只要更新價值極高,依然會非常頻繁地重新抓取。

Shawn Wang:說到延遲和存儲,我必須提你的一篇經(jīng)典之作:《每個程序員都該知道的延遲數(shù)字》。背后有什么故事嗎?就是隨手整理的?

Jeff Dean:里面大概列了八九種、十來項指標(biāo):緩存失效開銷、分支預(yù)測失敗開銷、內(nèi)存訪問開銷、從美國發(fā)數(shù)據(jù)包到荷蘭的時間等等。

Shawn Wang:順便問一下,為什么是荷蘭?是因為 Chrome 的關(guān)系嗎?

Jeff Dean:我們當(dāng)時在荷蘭有個數(shù)據(jù)中心。其實這就回到了快速估算這件事上。這些都是最基礎(chǔ)的指標(biāo),你可以拿它們來做判斷:比如我要做圖片搜索、生成縮略圖,我是提前算好縮略圖,還是實時從大圖里生成?需要多少帶寬?會產(chǎn)生多少次磁盤尋道?你只要手里有這些基礎(chǔ)數(shù)值,幾十秒就能在腦子里做一遍推演。等你用更高級的庫寫軟件時,也要培養(yǎng)出同樣的直覺:比如在某種結(jié)構(gòu)里查一次數(shù)據(jù)大概要多久。

Shawn Wang:這就是簡單的字節(jié)換算,沒什么特別的。我在想,如果你要更新那篇文章的話……

Jeff Dean:我覺得很有必要去算一下模型里的計算量,不管是訓(xùn)練還是推理。

Jeff Dean:一個很好的視角是:你需要從內(nèi)存里搬運多少狀態(tài),片上 SRAM、加速器的 HBM、DRAM,還是網(wǎng)絡(luò)傳輸?然后對比一下,數(shù)據(jù)搬運的成本,和矩陣乘法單元里一次實際乘法運算的成本差多少。其實計算成本非常非常低,根據(jù)精度不同,大概不到 1 pJ。

Shawn Wang:哦,懂了,你是用能耗來衡量的。

Jeff Dean:對,核心就是能耗,以及如何做出能效最高的系統(tǒng)。在同一塊芯片上,只是從一邊的 SRAM 傳到另一邊,能耗就可能達(dá)到 1000 pJ。這就是為什么加速器一定要用批處理(batching)。如果你把一個模型參數(shù)從片上 SRAM 搬到乘法單元,要花 1000 pJ,那你最好把這個參數(shù)重復(fù)用好多次。這就是 batch 維度的意義。batch 設(shè)成 256 就還好,但如果是 1,那就非常不劃算。

Shawn Wang:對,沒錯。

Jeff Dean:因為你花了 1000 pJ,就為了做一次 1 pJ 的乘法。

Shawn Wang:我從來沒聽過從能耗角度去解釋批處理。

Jeff Dean:這就是大家用 batch 的根本原因。理論上,batch=1 延遲最完美,但能耗和計算效率的浪費實在太大了。

Shawn Wang:延遲是最好的。

Jeff Dean:對,但代價太高。

4 TPU 的神級決策:反過來調(diào)整模型架構(gòu)

Shawn Wang:那有沒有類似當(dāng)年“把索引全放進(jìn)內(nèi)存”這種神級技巧?比如 NVIDIA 這次押注 SRAM 搞 Grok,引起很大轟動。我在想,你們做 TPU 的時候是不是早就看到這一點了?畢竟要支撐你們的規(guī)模,肯定提前預(yù)判到了。從這些現(xiàn)象里,你們總結(jié)出了哪些硬件創(chuàng)新或洞察?

Jeff Dean:TPU 有很規(guī)整的結(jié)構(gòu),2D 或 3D 網(wǎng)格,很多芯片連在一起,每塊都掛著 HBM。

在部署某些模型時,從 HBM 拿數(shù)據(jù)比從片上 SRAM 拿數(shù)據(jù),成本和延遲都高得多。所以如果模型夠小,你可以用模型并行,把它分散到很多芯片上,吞吐量和延遲都會明顯提升。把一個中小模型打散到 16、64 塊芯片上,如果全都能放進(jìn) SRAM,提升會非常巨大。這不算意外,但確實是個好技巧。

Alessio Fanelli:那 TPU 的設(shè)計呢?你們怎么決定改進(jìn)方向?舉個例子,有沒有辦法把 1000 pJ 降到 50?值得為了這個專門設(shè)計一顆新芯片嗎?最極端的就是有人說,直接把模型燒進(jìn) ASIC。領(lǐng)域變化這么快,多少事值得用硬件來解決?內(nèi)部是怎么討論的?

Jeff Dean:我們 TPU 芯片設(shè)計架構(gòu)團(tuán)隊和高層建模專家之間有大量協(xié)作。因為你需要協(xié)同設(shè)計:根據(jù)機(jī)器學(xué)習(xí)研究的未來方向,去定義下一代 TPU 應(yīng)該長什么樣。做 ML 硬件的人都知道,今天開始設(shè)計一顆芯片,可能兩年后才進(jìn)數(shù)據(jù)中心,還要用三四年。你必須預(yù)測未來 2~6 年,人們會想跑什么機(jī)器學(xué)習(xí)計算。所以,要有一批人去研究:哪些思路在那段時間里會起效、會更重要。這樣我們才能把有用的硬件特性,加到未來幾代的 TPU 里。

Shawn Wang:芯片迭代周期是兩代之后?

Jeff Dean:差不多。小改動可以塞進(jìn)下一代,大改動必須提前更早啟動設(shè)計。只要條件允許,我們都會這么做。有時會加一些試探性的功能,占芯片面積不大,但如果成了,能直接快 10 倍;就算不成,也就浪費一點點面積,問題不大。但如果是特別大的改動,我們就會非常謹(jǐn)慎,做大量實驗來確認(rèn)方向是對的。

Alessio Fanelli:那有沒有反過來的情況:因為芯片設(shè)計已經(jīng)定了,所以模型架構(gòu)不能那么走,因為不匹配?

Jeff Dean:肯定有。你會反過來調(diào)整模型架構(gòu),讓它在那一代芯片上訓(xùn)練和推理更高效。兩邊是互相影響的。比如未來一代芯片支持更低精度,你甚至可以提前用那個精度訓(xùn)練,哪怕當(dāng)前一代還不完全支持。

Shawn Wang:那精度到底能壓到多低?

Jeff Dean:很多人在說三值精度。我個人非常支持極低精度,因為能省巨大量的能耗。能耗是按每比特傳輸算的,減少比特數(shù)是最直接的方式。業(yè)界已經(jīng)在極低比特精度上取得了很多效果,再配上一組權(quán)重的縮放因子,效果就很穩(wěn)。

Shawn Wang:有意思,低精度,但帶縮放權(quán)重。我以前沒想過這點。

Shawn Wang:說到這,我覺得精度這個概念本身在采樣場景里就很奇怪。我們堆了這么多算力超強的芯片,最后前面還要掛一個隨機(jī)數(shù)生成器。現(xiàn)在業(yè)界有往能量基模型、能量導(dǎo)向處理器發(fā)展的趨勢,你顯然也思考過,能說說你的看法嗎?

Jeff Dean:確實有幾個有意思的方向。能量基模型是一個,不按順序逐 token 解碼的擴(kuò)散模型是另一個。還有 speculative decoding(推測解碼),相當(dāng)于一個很小的草稿 batch,先預(yù)測 8 個 token,有效 batch size 就擴(kuò)大 8 倍,最后接受其中 5~6 個。這樣分?jǐn)傁聛?,把?quán)重搬到乘法單元里的成本就被攤薄了,能帶來幾倍的提升。這些都是非常好的技巧。而且一定要從真實能耗、延遲、吞吐量這幾個角度去看,你才會找到正確的方向:要么能服務(wù)更大模型,要么同等模型成本更低、延遲更低。

Shawn Wang:這個思路在理論上很吸引人,只是還沒真正成為主流。但某種意義上還挺有美感的,如果從硬件底層就設(shè)計好,我們就不用搞那么多取巧的辦法。

Jeff Dean:還有一些更前沿的方向,比如模擬計算基底,而不是數(shù)字電路。理論上能效可能極高,但問題是你要跟數(shù)字系統(tǒng)對接,數(shù)模、模數(shù)轉(zhuǎn)換那部分會吃掉大部分能效優(yōu)勢。但即便只看數(shù)字方向,靠更專用、更高效的硬件,能效上我們還有巨大的提升空間。

5 大一統(tǒng)模型時代到來,不需要專家了?

Alessio Fanelli:你還看到哪些有意思的研究方向?或者有什么在谷歌暫時沒法做,但希望其他研究者去嘗試的方向?

Jeff Dean:我們的研究布局已經(jīng)很廣了。有很多開放問題:怎么讓模型更可靠,能做更長、更復(fù)雜、包含大量子任務(wù)的事情?怎么實現(xiàn)模型調(diào)用其他模型當(dāng)工具,組合起來完成遠(yuǎn)比單模型更有意義的工作?這部分非常有意思。還有,怎么讓強化學(xué)習(xí)在不可驗證的領(lǐng)域也能生效?這是個很棒的開放問題。如果能把數(shù)學(xué)、代碼上的進(jìn)步,復(fù)制到其他沒那么容易驗證的領(lǐng)域,模型能力會再上一個大臺階。

Alessio Fanelli:之前 Noam Brown 來節(jié)目里說,他們已經(jīng)用深度推理證明了這點。某種意義上,你們的 AI 模式也是不可驗證的。我在想這里面有沒有共通的線索?比如都在做信息檢索、返回 JSON。是不是檢索就是那個可以打分、可以驗證的部分?你怎么理解這個問題?

Jeff Dean:可以用其他模型來評估第一個模型的結(jié)果,甚至做檢索。比如讓另一個模型判斷:檢索回來的內(nèi)容相關(guān)嗎?2000 條里最相關(guān)的 50 條是哪些?這類方法其實非常有效。甚至可以就是同一個模型,只是換個提示詞,從“檢索系統(tǒng)”變成“評判器”。

Shawn Wang:我總覺得有一道很明顯的坎:好像簡單的事都做完了,剩下的都特別難。其實每年大家都這么覺得。尤其是 RLVR 這塊,所有人都在問:不可驗證問題的下一階段到底怎么做?然后大家都說:不知道,等著評判。

Jeff Dean:這個領(lǐng)域好就好在,有無數(shù)聰明人在給這些難題想創(chuàng)造性的解法。大家都看得很清楚:模型在某些事上很強,但在邊緣場景就會拉胯。提出技巧、驗證效果、推動進(jìn)步,就是這個領(lǐng)域研究的核心。你想想兩年前,我們連 GSM8K 這種小學(xué)數(shù)學(xué)題都費勁?,F(xiàn)在呢?模型已經(jīng)能純靠語言解國際奧數(shù)、埃爾德什級別的問題。一年半里能力的躍遷是驚人的,其他領(lǐng)域我們暫時還沒完全看清楚路徑,但有一些已經(jīng)看到曙光,我們會全力把這種飛躍復(fù)制過去。

Shawn Wang:沒錯。

Alessio Fanelli:比如 YouTube 縮略圖生成,這個功能會非常實用,我們太需要了。這簡直就是 AGI 級別的需求。

Shawn Wang:對內(nèi)容創(chuàng)作者來說絕對是。

Jeff Dean:我不是 YouTube 創(chuàng)作者,所以對這個問題沒那么敏感,但我知道很多人很在意。

Shawn Wang:確實大家很看重。畢竟大家真的會“以封面論視頻”?;氐綂W數(shù)那個話題,我到現(xiàn)在還覺得很不可思議:一年前我們還在搞 AlphaProof、AlphaGeometry 這些專門的系統(tǒng),今年直接一句“算了,全都塞進(jìn) Gemini 就行”。你怎么看這件事?過去大家普遍認(rèn)為,符號系統(tǒng)和大模型必須結(jié)合,但后來大家直接選擇:全都用大模型解決。

Jeff Dean:我覺得這很合理。人類確實會操作符號,但我們腦子里大概率沒有一個明確的符號系統(tǒng),而是某種分布式表征,本質(zhì)上接近神經(jīng)網(wǎng)絡(luò)。大量神經(jīng)元在特定情況下產(chǎn)生激活模式,讓我們能推理、規(guī)劃、做思維鏈,發(fā)現(xiàn)一條路走不通就換一條。在很多方面,基于神經(jīng)網(wǎng)絡(luò)的模型,其實是在模擬我們直覺中大腦里發(fā)生的事情。所以對我來說,把完全離散、獨立的符號系統(tǒng),和另一套完全不同的思考機(jī)制分開,從來就不太合理。

Shawn Wang:有意思。對你來說可能理所當(dāng)然,但一年前我可不是這么想的。

Jeff Dean:你看奧數(shù)任務(wù)也是一樣,最開始要翻譯成 Lean 語言、用專門工具,第二年還要專用幾何模型,到今年直接換成一個統(tǒng)一模型,就是線上正式版模型,只是多給了一點推理資源。

這其實很好,說明通用模型的能力大幅提升,不再需要專用模型。這和 2013 到 2016 年那波機(jī)器學(xué)習(xí)的發(fā)展非常像:以前每個任務(wù)都要單獨訓(xùn)模型,識別路標(biāo)訓(xùn)一個,語音識別訓(xùn)一個?,F(xiàn)在,大一統(tǒng)模型的時代真的來了。關(guān)鍵在于,這些模型在從未見過的新任務(wù)上泛化能力如何,而它們正在變得越來越強。

Shawn Wang:而且不再需要領(lǐng)域?qū)<?。我之前采訪過相關(guān)團(tuán)隊的人,他說:我完全不懂奧數(shù),不知道比賽在哪舉行、規(guī)則是什么,我只管訓(xùn)模型。挺有意思的,現(xiàn)在只要有機(jī)器學(xué)習(xí)這種通用技能,給數(shù)據(jù)、給算力,就能搞定幾乎任何任務(wù)。這大概就是所謂的“苦澀教訓(xùn)”吧。

Jeff Dean:我認(rèn)為,通用模型在絕大多數(shù)情況下都會勝過專用模型。

6 未來模型知識直接“裝”,“像下載軟件包一樣”

Shawn Wang:這點我想再追問一下。我覺得這里有個漏洞:模型的容量是抽象的,它能裝下的知識只有參數(shù)量對應(yīng)的比特數(shù)。誰都知道 Gemini Pro 有幾萬億參數(shù),但具體沒人知道。但像 Gemma 這類模型,很多人想要開源、本地跑的小模型,它們必然裝不下所有知識。大模型有條件什么都知道,但小模型在蒸餾、壓縮的過程中,其實會記住很多沒用的東西。所以我們能不能把知識和推理剝離開?

Jeff Dean:你確實希望模型把推理做到最強,同時具備檢索能力。讓寶貴的參數(shù)空間去記那些可以查到的冷僻知識,其實不是最優(yōu)使用方式。你更希望參數(shù)用在更通用、更多場景都有用的能力上。但同時,你也不想讓模型完全脫離世界知識。比如知道金門大橋大概有多長,對“橋有多長”有個基本概念,這類常識是有用的。它不需要知道世界上某個偏僻小橋的長度,但具備相當(dāng)規(guī)模的世界知識是有幫助的,模型越大,能裝的就越多。但我確實認(rèn)為,把檢索和推理結(jié)合起來,讓模型擅長多輪檢索,會是關(guān)鍵方向。

Shawn Wang:并且基于中間檢索結(jié)果做推理,會讓模型看起來比實際強得多。比如個人版 Gemini。

Jeff Dean:我們不太可能把我的郵件拿去訓(xùn) Gemini。更合理的方式是:用一個統(tǒng)一模型,把檢索我的郵件、我的照片當(dāng)成工具,讓模型基于這些信息去推理、交互,分多輪完成任務(wù)。這樣才合理。

Alessio Fanelli:你覺得垂直領(lǐng)域模型有意義嗎?比如很多人說“我們要做最好的醫(yī)療大模型、最好的法律大模型”。這些只是短期過渡方案嗎?

Jeff Dean:不,我覺得垂直模型是有價值的。你可以從一個很強的基座模型出發(fā),然后在醫(yī)療、機(jī)器人這類垂直領(lǐng)域富集數(shù)據(jù)分布。我們不太可能把所有機(jī)器人數(shù)據(jù)都塞進(jìn) Gemini 訓(xùn)練,因為要保持能力均衡。我們會給它看一部分機(jī)器人數(shù)據(jù),但如果你想做一個極致優(yōu)秀的機(jī)器人模型,就要在通用模型基礎(chǔ)上,再用更多機(jī)器人數(shù)據(jù)去訓(xùn)練。它可能會因此損失一點翻譯能力,但機(jī)器人能力會大幅提升。

我們訓(xùn)練基座 Gemini 時,一直在做這類數(shù)據(jù)配比權(quán)衡。我們很想加入 200 多種語言的數(shù)據(jù),但這會擠占其他能力:可能 Pearl 編程就沒那么強了,Python 還能保住,但其他小眾語言或多模態(tài)能力可能會受影響。所以我認(rèn)為,未來是專用模型加模塊化模型的組合。你可以同時擁有 200 種語言、超強機(jī)器人模塊、超強醫(yī)療模塊,在不同場景下調(diào)用。比如處理醫(yī)療問題時,就把醫(yī)療模塊和基座模型一起用上,效果會更好。

Shawn Wang:可安裝的知識。

Jeff Dean:沒錯。

Shawn Wang:像下載軟件包一樣。

Jeff Dean:一部分可安裝知識可以來自檢索,另一部分應(yīng)該來自預(yù)訓(xùn)練,比如提前用 1000 億、1 萬億 token 的醫(yī)療數(shù)據(jù)訓(xùn)好。

Shawn Wang:Gemma 3 的論文里已經(jīng)有一點這個味道了。

Alessio Fanelli:問題是,你到底需要幾千億 token,才能追上前沿基座模型的進(jìn)步速度?如果我想做一個更強的醫(yī)療模型,而主模型 Gemini 還在不停進(jìn)化,我需要 500 億 token 嗎?1000 億?如果需要一萬億醫(yī)療 token,那數(shù)據(jù)根本就不存在。

Jeff Dean:醫(yī)療是一個特別有挑戰(zhàn)的領(lǐng)域。很多醫(yī)療數(shù)據(jù)我們沒有合適的訪問權(quán)限,但很多醫(yī)療組織希望用自己的私有數(shù)據(jù)訓(xùn)模型。所以機(jī)會在于:和大型醫(yī)療機(jī)構(gòu)合作,為它們定制模型,效果很可能比只用公開數(shù)據(jù)訓(xùn)練的通用模型更好。

Shawn Wang:對了,這和語言的話題也有點像。你最喜歡舉的一個例子就是:把低資源語言放進(jìn)上下文里,模型直接就能學(xué)會。

Jeff Dean:對,我們用過一個叫 Calaba 的語言,資源極度稀缺,全世界只有大概 120 個人說,還沒有文字。

Shawn Wang:直接放進(jìn)上下文就行,把整個數(shù)據(jù)集塞進(jìn)去。

Jeff Dean:像索馬里語、阿姆哈拉語這類語言,世界上是有一些文本的。我們不會把所有數(shù)據(jù)都放進(jìn) Gemini 訓(xùn)練,但放得越多,模型能力就越強。

Shawn Wang:我個人對語言學(xué)有副業(yè)興趣,大學(xué)時修過幾門課。如果我是語言學(xué)家,能用上這些模型,我會去問關(guān)于語言本身的根本性問題。比如薩丕爾—沃爾夫假說:你說的語言在多大程度上影響你的思維?有些語言里存在其他語言沒有的概念,也有很多概念是重復(fù)的。還有一篇很有名的論文提到“柏拉圖表征”:比如“杯子”的圖片,配上大量帶“cup”的文本,最后表征會收斂到差不多同一個位置。這套邏輯理論上也適用于語言,但有些地方不適用,而這些不適用的地方,恰恰反映了人類獨有的概念差異,有些概念甚至英語里都不存在。這部分我覺得非常有意思。

Jeff Dean:我早年做過一個模型,把文本表征和圖像模型結(jié)合起來,在 ImageNet 這類數(shù)據(jù)上訓(xùn)練,然后把頂層表征融合。你會發(fā)現(xiàn),給模型一張它從未見過的新圖片,它往往能給出正確標(biāo)簽。比如,模型學(xué)過望遠(yuǎn)鏡和雙筒望遠(yuǎn)鏡,但沒見過顯微鏡。給它看顯微鏡的圖片,它居然能輸出“microscope”這個標(biāo)簽,盡管從來沒見過帶這個標(biāo)簽的圖。

Shawn Wang:這太酷了。

7 8 歲就開始琢磨:用算力做大神經(jīng)網(wǎng)絡(luò)

Shawn Wang:以你的視野,我們聊了硬件、模型、研究,你最希望被問到哪一類問題?

Jeff Dean:有件事我覺得挺有意思的。1990 年我本科畢業(yè)論文就做的是神經(jīng)網(wǎng)絡(luò)并行訓(xùn)練。那時候我就覺得,神經(jīng)網(wǎng)絡(luò)是正確的抽象方向,只是算力遠(yuǎn)遠(yuǎn)不夠。系里那臺 32 核的并行計算機(jī),只能跑出稍微有趣一點的模型,遠(yuǎn)遠(yuǎn)解決不了真實問題。直到 2008、2009 年,摩爾定律帶來了足夠的算力,加上更大的數(shù)據(jù)集,神經(jīng)網(wǎng)絡(luò)才真正開始解決大家關(guān)心的真實問題:語音、視覺,最后是語言。

2011 年底我在谷歌開始做神經(jīng)網(wǎng)絡(luò)時,就堅定地認(rèn)為:我們要用大規(guī)模并行計算,把神經(jīng)網(wǎng)絡(luò)的規(guī)模拉上去。我甚至把本科論文里的一些思路重新?lián)炝似饋?,包括模型并行、?shù)據(jù)并行,并且做了對比。可以說,我從 8 歲就開始琢磨這些事了,只不過那時候叫法不一樣。

Shawn Wang:那篇論文是公開的嗎?我們能找到嗎?

Jeff Dean:可以的,網(wǎng)上就能查到。過去這 15 年里,把這些技術(shù)整合在一起,全力做規(guī)模化,是非常關(guān)鍵的。這既包括硬件層面的進(jìn)步,比如推動 TPU 這類專用芯片的研發(fā),也包括軟件層面,做更高層的抽象,讓人們能更方便地把想法交給計算機(jī)去實現(xiàn)。

Shawn Wang:你當(dāng)時是否認(rèn)同這個觀點?或者現(xiàn)在有不同的復(fù)盤?

Jeff Dean:說的是算力配額的“大腦市場”機(jī)制?

Shawn Wang:對,算力配額。David 之前在 OpenAI 做負(fù)責(zé)工程的副總裁,后來也去過谷歌。他的核心觀點是:OpenAI 敢于 all in,把賭注全壓在一件事上;而谷歌更加“民主化”,每個人都有自己的配額。如果你相信規(guī)?;苤匾?,那這就是一個全公司層面的關(guān)鍵決策。

Jeff Dean:我部分同意。事實上,我當(dāng)時還寫過一頁紙的備忘錄,說我們把資源碎片化是很愚蠢的。那時候,谷歌研究室和 Brain 團(tuán)隊在做大語言模型,其他部門在做多模態(tài),DeepMind 那邊也在做 Chinchilla、Flamingo 這些模型。結(jié)果就是,我們不僅算力被拆分,最優(yōu)秀的人才和精力也被拆分了。我當(dāng)時就說,這樣太傻了,為什么不合并起來,集中力量做一個從頭就是多模態(tài)、全能的大一統(tǒng)模型?這就是 Gemini 項目的起源。

Shawn Wang:你這一頁紙的備忘錄成了,很不錯。當(dāng)時名字想好了嗎?大家都知道,Gemini 是你取的。

Jeff Dean:是我取的。當(dāng)時還有另一個候選名字,但我覺得,兩個團(tuán)隊合在一起,某種意義上就像雙胞胎。而且 NASA 也有 Gemini 計劃,是阿波羅登月之前非常關(guān)鍵的一步。所以這個名字很合適,代表雙子攜手。

8 史上最高產(chǎn)工程師寫代碼:帶 50 個“AI 實習(xí)生”

Alessio Fanelli:很棒。我知道時間不多了,最后很好奇:你現(xiàn)在怎么用 AI 寫代碼?你可以說是計算機(jī)歷史上最高產(chǎn)的工程師之一。我看過一篇文章,講你和 Sanjay 的合作方式,你說過:要找到和你思維合拍的人結(jié)對編程,兩個人加起來才會是互補的合力。我就在想,你怎么看待代碼智能體?你會怎么塑造一個和你思維兼容的代碼助手?現(xiàn)在的工具你打幾分?未來方向在哪?

Jeff Dean:首先,代碼工具相比一兩年前已經(jīng)強太多了,現(xiàn)在真的可以把更復(fù)雜的任務(wù)交給它們。人類工程師和代碼模型之間的互動方式,其實會反過來決定它怎么配合你。你可以讓它寫完備的測試,也可以讓它幫你 brainstorm 性能優(yōu)化思路。你和它交互的方式,會決定它的輸出風(fēng)格、解決問題的粒度,以及你希望它更自主,還是更頻繁地和你對齊。沒有哪一種風(fēng)格是萬能的。有些問題你需要高頻交互,有些問題你直接說“幫我把這個實現(xiàn)出來”就行。

未來會出現(xiàn)更多獨立軟件智能體,幫你代勞各種事情。難點在于設(shè)計合適的人機(jī)交互模式、界面,決定它什么時候該打斷你:“我需要更多指引”或者“我做完了,下一步做什么”。這部分我們還沒有終極答案,模型變強之后,交互模式還會變。你可以想象成:你帶了 50 個實習(xí)生,你會怎么管理?如果他們能力很強,你可能真的會想要 50 個。

Shawn Wang:但管理成本也很高。

Jeff Dean:沒錯。但未來很可能每個人都能擁有 50 個虛擬實習(xí)生。那你該怎么安排?你肯定會讓他們組成小組,你不用管 50 個人,只需要對接 5 個小組,讓他們各自干活。最終會演變成什么樣,我也不完全確定。

Alessio Fanelli:那人與人的協(xié)作呢?AI 輔助編程的好處是能帶來新的思路。但如果有大量代碼智能體在并行寫代碼,其他人要介入就很困難,因為要追上巨量的上下文。你會不會擔(dān)心,團(tuán)隊里的人會變得更孤立?

Jeff Dean:有可能。但反過來想,傳統(tǒng)沒有 AI 輔助的團(tuán)隊,50 個人干活,組織結(jié)構(gòu)天然是層級化的,各組之間交互不多。但如果是 5 個人,每人管理 50 個虛擬智能體,這 5 個人之間的溝通帶寬,反而可能比傳統(tǒng) 5 個組長協(xié)調(diào) 50 個人的模式更高。

Alessio Fanelli:那你自己的工作節(jié)奏有改變嗎?會不會花更多時間和人對齊架構(gòu)、設(shè)計目標(biāo)?

Jeff Dean:我覺得很有意思的一點是:以前教別人寫軟件,都會說要把需求文檔寫清楚,但大家其實都不當(dāng)回事。但現(xiàn)在,如果你要讓智能體幫你寫代碼,你必須極其清晰地定義需求,這會直接決定輸出質(zhì)量。你沒說它要處理某種邊界情況、沒強調(diào)性能要求,它就可能不做。人們會越來越擅長清晰、無歧義地描述目標(biāo),這其實不是壞事,不管是不是工程師都是一項有用的技能。

Shawn Wang:我開玩笑說,現(xiàn)在給模型下指令,和高階高管溝通沒區(qū)別,像寫內(nèi)部備忘錄一樣,字斟句酌。而且我認(rèn)為多模態(tài)非常重要。谷歌的 Anti-Gravity 團(tuán)隊一上來就做了很強的多模態(tài),包括視頻理解。這是你能給模型的、最高帶寬的“提示詞”,非常強。

Alessio Fanelli:你平時是怎么整理自己腦子里那些經(jīng)驗的?比如你那種超強的性能優(yōu)化直覺,大家都說你一眼就能看出哪里能提效。那如果把這些經(jīng)驗寫成通用文檔,再讓模型去檢索學(xué)習(xí),會不會很有價值?就像邊界情況,就是個很好的例子。做系統(tǒng)的人腦子里都有特定的邊界場景,但現(xiàn)在每次都要重復(fù)說一遍。你覺得人們會花更多時間去寫文檔、提煉通用經(jīng)驗嗎?

Jeff Dean:我確實認(rèn)為,寫得好的軟件工程指南會非常有用。既可以給模型當(dāng)輸入,也可以讓其他開發(fā)者參考,讓他們在寫提示詞時,更清楚底層系統(tǒng)應(yīng)該實現(xiàn)什么。不一定需要為每個場景單獨定制,只要有通用指南,放進(jìn)代碼智能體的上下文里,就會很有幫助。比如分布式系統(tǒng),可以列出:要考慮哪些故障類型、有哪些處理方案,像 Paxos 復(fù)制、雙寫請求、只要一個返回即可容忍故障等。把 20 個這類分布式系統(tǒng)設(shè)計技巧總結(jié)一下,就能很大程度提升代碼智能體生成可靠、健壯分布式系統(tǒng)的能力。

9 延遲能突破 1 萬 token/s,人類不用讀代碼了

Shawn Wang:我就在想,Gemini 什么時候能自己造出 Spanner(解決了分布式系統(tǒng) CAP 不可能三角的關(guān)系型數(shù)據(jù)庫)?

Alessio Fanelli:搞不好代碼它早就全看過了。這就是個好例子。CAP 定理是公認(rèn)的真理,不能打破,但最后你們還是做出了看似打破它的東西。

Shawn Wang:我很好奇,模型算不算某種意義上“打破”了它?你會說你們打破了 CAP 定理嗎?在特定假設(shè)下,比如精準(zhǔn)時鐘同步的前提下。

Alessio Fanelli:有時候你不必死守所謂的真理。但模型有時候會過于相信你告訴它的東西。

Jeff Dean:回到提示詞和迭代的問題。我一直想做一個對比實驗:一種是,用三次快速但普通的模型調(diào)用,中間加入人類對齊,人看一遍結(jié)果,再給新提示;另一種是,花很久寫一個超長、超精細(xì)的提示詞,直接丟給一個超強模型一次做完。我想看看這兩種方式的效果差距。很多時候效果不好,不是模型不行,而是需求描述不完整,模型根本不可能猜到你想要什么。

Shawn Wang:就是定義不清晰,模型可以生成 10 個結(jié)果,只有一個是你想要的。而用輕量快模型多輪交互,反而夠用。

Jeff Dean:我非常重視延遲。低延遲交互體驗,比慢 10 倍、20 倍的系統(tǒng)舒服太多。未來我們會看到模型、軟件、硬件整體延遲比現(xiàn)在低 20 倍、50 倍,這對需要大量交互的系統(tǒng)至關(guān)重要。

Shawn Wang:現(xiàn)在有兩個極端,一邊是極致快,另一邊是 DeepThink 這種極致深思考。

Jeff Dean:如果不考慮成本和延遲,所有人都會一直用 DeepThink。如果底層硬件和系統(tǒng)把延遲再提 20 倍,成本下來,沒理由不用。

Shawn Wang:帕累托曲線會一直往上走,不斷外擴(kuò)。我們來問點預(yù)測吧。你有沒有什么一直關(guān)注的小測試,或者哪些東西你覺得現(xiàn)在還不夠好,但很快能實現(xiàn)?

Jeff Dean:我說兩個不算這一類的預(yù)測吧。第一,了解你、能訪問你所有授權(quán)的個人數(shù)據(jù)的個性化模型,相比通用模型會帶來巨大的價值提升。能關(guān)聯(lián)我所有的郵件、照片、看過的視頻、一切信息,這會非常有用。第二,越來越專用的硬件會讓模型延遲更低、能力更強、成本更親民,這一點也會非常關(guān)鍵。

Shawn Wang:你說的低延遲,大家一般用 token 每秒衡量。現(xiàn)在大概是 100 token/s,你覺得能到 1000?10000 有意義嗎?

Jeff Dean:絕對有。因為有思維鏈推理。你可以并行做更多輪推演,生成更多代碼,再用思維鏈校驗正確性。10000 token/s 會非常強。

Shawn Wang:到 10000 token/s,人就不用讀代碼了,直接讓模型生成。

Jeff Dean:它最終不一定輸出 10000 token 代碼,可能只有 1000 token 代碼,但背后有 9000 token 的推理過程,這樣的代碼質(zhì)量會高得多。

Alessio Fanelli:就像“如果我有更多時間,我會寫一封更短的信”。Jeff,今天太棒了,感謝你的時間。

Jeff Dean:很開心,謝謝邀請。

https://youtu.be/F_1oDPWxpFQ

聲明:本文為 InfoQ 整理,不代表平臺觀點,未經(jīng)許可禁止轉(zhuǎn)載。

InfoQ 新年禮物上線啦!

AI 快訊輪播推送正式上線,給你更優(yōu)的閱讀體驗、更強的 AI 賦能、更懂 AI 行業(yè)的資訊檢索~我們會持續(xù)優(yōu)化體驗,追求更深度的 AI 能力內(nèi)化改造,歡迎大家體驗并反饋!立即前往 InfoQ 官網(wǎng),體驗 AI 快訊帶來的全新閱讀感受吧!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
從康波周期來看,2026年處于什么階段?

從康波周期來看,2026年處于什么階段?

楓冷慕詩
2026-02-05 13:35:30
上海著名主持人直播中淚目!中東戰(zhàn)火下,有人平安返航、有人新婚分離、有人只想回家

上海著名主持人直播中淚目!中東戰(zhàn)火下,有人平安返航、有人新婚分離、有人只想回家

新民晚報
2026-03-02 14:52:26
剛剛發(fā)布的iPhone 17e,價格太良心了!

剛剛發(fā)布的iPhone 17e,價格太良心了!

機(jī)智貓
2026-03-02 23:46:07
印度公司欺騙中國,轉(zhuǎn)賣稀土給美國雷神造導(dǎo)彈,阿三既蠢又邪惡

印度公司欺騙中國,轉(zhuǎn)賣稀土給美國雷神造導(dǎo)彈,阿三既蠢又邪惡

我心縱橫天地間
2026-01-29 21:09:12
突發(fā)!李雨桐實名開撕薛之謙,劇情反轉(zhuǎn)比翻書還快,結(jié)局全網(wǎng)傻眼

突發(fā)!李雨桐實名開撕薛之謙,劇情反轉(zhuǎn)比翻書還快,結(jié)局全網(wǎng)傻眼

阿廢冷眼觀察所
2026-03-03 07:19:00
誰能想到她已經(jīng)62了,說18都有人信,怎么做到這么好的狀態(tài)的

誰能想到她已經(jīng)62了,說18都有人信,怎么做到這么好的狀態(tài)的

白宸侃片
2026-02-11 11:56:19
汪小菲沒想到,小兒子才生7天,S家汪家“兩重天”,王思聰沒說錯

汪小菲沒想到,小兒子才生7天,S家汪家“兩重天”,王思聰沒說錯

千言娛樂記
2026-03-02 21:47:06
鴻蒙智行處罰違規(guī)營銷門店

鴻蒙智行處罰違規(guī)營銷門店

每日經(jīng)濟(jì)新聞
2026-03-02 17:08:50
27天入賬330萬,趙心童和女友林薇的“頂配愛情”沖上熱搜

27天入賬330萬,趙心童和女友林薇的“頂配愛情”沖上熱搜

科學(xué)發(fā)掘
2026-03-02 16:46:08
13勝2平!亞足聯(lián)確認(rèn) 中國女足創(chuàng)36年神跡 今日亞洲杯首秀保底5-0

13勝2平!亞足聯(lián)確認(rèn) 中國女足創(chuàng)36年神跡 今日亞洲杯首秀保底5-0

侃球熊弟
2026-03-03 00:10:03
2歲的兒媳婦自己找上門!驚呆了!生活里那些驚人的巧合

2歲的兒媳婦自己找上門!驚呆了!生活里那些驚人的巧合

另子維愛讀史
2026-02-05 23:23:06
不拼GDP、不炫富,浙江第二有錢的城市,吊打眾多省會

不拼GDP、不炫富,浙江第二有錢的城市,吊打眾多省會

毒sir財經(jīng)
2026-03-02 21:00:47
1991 年,鄧小平特派代表赴美團(tuán)聚張學(xué)良,邀他重返故土,張學(xué)良回應(yīng):“回大陸可以,但我有三個要求”

1991 年,鄧小平特派代表赴美團(tuán)聚張學(xué)良,邀他重返故土,張學(xué)良回應(yīng):“回大陸可以,但我有三個要求”

文史明鑒
2025-12-21 17:07:19
凌晨!河北突發(fā)地震!

凌晨!河北突發(fā)地震!

新牛城
2026-03-03 09:29:46
三十年后小孩終于認(rèn)慫:行行行,《拳皇97》我打不過你們

三十年后小孩終于認(rèn)慫:行行行,《拳皇97》我打不過你們

街機(jī)時代
2026-03-02 18:00:03
離譜!一男子存500萬一年定期,利息151000。到期取錢,工作人員卻說,存單是假的!男子怒了直接告上法院!

離譜!一男子存500萬一年定期,利息151000。到期取錢,工作人員卻說,存單是假的!男子怒了直接告上法院!

上海約飯局
2025-12-02 18:47:01
伊朗吃肉的時候,對中國防得嚴(yán)嚴(yán)實實,生怕中國占一點便宜

伊朗吃肉的時候,對中國防得嚴(yán)嚴(yán)實實,生怕中國占一點便宜

百態(tài)人間
2026-02-24 15:37:37
鄒市明一家國外度假!冉瑩穎膘肥體壯不好惹,軒軒一頭白毛好土氣

鄒市明一家國外度假!冉瑩穎膘肥體壯不好惹,軒軒一頭白毛好土氣

小徐講八卦
2026-03-01 05:51:11
特朗普列四大目標(biāo):戰(zhàn)爭恐拖更久,不排除派地面部隊

特朗普列四大目標(biāo):戰(zhàn)爭恐拖更久,不排除派地面部隊

觀察者網(wǎng)
2026-03-03 08:22:01
香港中聯(lián)辦原副主任祁斌,新職明確

香港中聯(lián)辦原副主任祁斌,新職明確

觀察者網(wǎng)
2026-03-02 21:29:04
2026-03-03 10:24:49
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術(shù)社區(qū)媒體
12096文章數(shù) 51783關(guān)注度
往期回顧 全部

科技要聞

蘋果iPhone17e發(fā)布:4499元起 升級A19芯片

頭條要聞

牛彈琴:多國對轟炸保持沉默 西班牙首相確實是條漢子

頭條要聞

牛彈琴:多國對轟炸保持沉默 西班牙首相確實是條漢子

體育要聞

伯納烏8萬人暴怒!高呼78歲老佛爺下課

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

霍爾木茲海峽近乎停擺 布油直逼80美元

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

教育
健康
藝術(shù)
本地
時尚

教育要聞

內(nèi)蒙古教育反腐風(fēng)暴!千余人被處分后如何重建公平?

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

藝術(shù)要聞

14個字,您能全認(rèn)嗎?探討情緒對人際關(guān)系的影響。

本地新聞

津南好·四時總相宜

普通人穿衣真的很簡單!單品選對、搭配合理,大方舒適又得體

無障礙瀏覽 進(jìn)入關(guān)懷版