国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Jeff Dean新訪談:未來開發(fā)者人均50個(gè)智能體,寫需求成核心技能

0
分享至

谷歌首席AI科學(xué)家、傳奇工程師Jeff Dean,在最新訪談中放出了一個(gè)炸裂預(yù)言:

未來每個(gè)工程師可能會(huì)各自管理50個(gè)智能體實(shí)習(xí)生,完成大量并行任務(wù),而且溝通效率會(huì)比人更高效。

未來最重要的技能將會(huì)是“寫清楚需求”,因?yàn)锳gent的輸出質(zhì)量完全取決于你如何定義問題。

好家伙,那以后豈不是……寫需求比寫代碼還重要?



Jeff Dean還揭秘了谷歌目前遵循的帕累托前沿策略,新模型的推出主要有兩條路線:

一方面是高端前沿模型,用于深度推理、復(fù)雜數(shù)學(xué)問題等高難任務(wù);

另一方面是高性價(jià)比模型,用于低延遲場景,比如更流暢的Agent式編程。



想必大家都知道了,Gemini 3 Flash能做到又快又智能,最大的秘訣就在于蒸餾

Jeff Dean在這期訪談中親口認(rèn)證:通過蒸餾,小模型可以非常接近大模型性能

他們讓小模型在大量訓(xùn)練數(shù)據(jù)上多次迭代學(xué)習(xí),同時(shí)利用大模型輸出的logits信息,讓小模型學(xué)到更細(xì)膩的行為。

這就是為什么Gemini能夠做到“下一代Flash ≈ 上一代Pro,甚至更好”。并且他也透露,谷歌內(nèi)部會(huì)持續(xù)推進(jìn)這條路線

另外,Jeff Dean非常相信“低延遲”的價(jià)值:他認(rèn)為如果延遲降低20-50倍,用戶體驗(yàn)會(huì)徹底改變。

他還指出,內(nèi)部一開始就希望Gemini是個(gè)多模態(tài)模型,但多模態(tài)不只是文本、圖像、視頻、音頻這些,讓模型理解“非人類”的模態(tài)同樣非常有用。

比如Waymo車輛的LIDAR傳感器數(shù)據(jù),或者機(jī)器人數(shù)據(jù)、醫(yī)療影像數(shù)據(jù)等等。未來可能有數(shù)百種模態(tài)。

AI生成



在這期訪談中,你還可以了解到:

  • Jeff Dean早在幾十年前就堅(jiān)信規(guī)?;K將取勝,以及“更大的模型、更多的數(shù)據(jù)、更好的結(jié)果”這一信條,這一信條持續(xù)了15年;
  • LLM訓(xùn)練與推理不僅關(guān)心計(jì)算量,也關(guān)心數(shù)據(jù)搬運(yùn)成本;對硬件優(yōu)化、batch size、延遲、吞吐量的設(shè)計(jì),都可以用能量消耗作為第一性原則衡量;
  • TPU和ML研究團(tuán)隊(duì)必須緊密互動(dòng)、協(xié)同設(shè)計(jì),硬件設(shè)計(jì)需預(yù)測未來2–6年的模型趨勢;
  • Gemini早期資源太分散,Jeff Dean稱“這是愚蠢的”;
  • Jeff Dean給出兩個(gè)預(yù)測:未來真正“個(gè)性化”的模型會(huì)極其重要,以及低延遲會(huì)改變很多應(yīng)用場景

以下為本場訪談重點(diǎn)內(nèi)容實(shí)錄,圍繞核心觀點(diǎn)做了摘選整理,部分文字在不改變原意的基礎(chǔ)上做了適度刪改,enjoy!

蒸餾是Flash模型突破的關(guān)鍵

Shawn Wang:首先得說一句,恭喜你們占據(jù)了帕累托前沿。

(編者注:帕累托前沿描述的是多個(gè)目標(biāo)之間權(quán)衡時(shí)的最優(yōu)解集合。此處指谷歌既能推出高性能的前沿模型,又能推出低成本、低延遲的高性價(jià)比模型,在性能 vs 成本/延遲這兩個(gè)維度上已經(jīng)達(dá)到了最優(yōu)權(quán)衡狀態(tài))

Jeff Dean:謝謝。能站在帕累托前沿當(dāng)然是好事。

Shawn Wang:是的。我覺得你們做的不只是追求最強(qiáng)能力,還同時(shí)兼顧效率,真正“擁有”了帕累托前沿——既有頂級性能,也有成本與效率控制,還提供了完整的模型梯度供用戶選擇。

這里面有一部分來自你們的硬件工作,一部分來自模型設(shè)計(jì),還有很多長期積累的“秘密武器”??吹竭@一切整合起來,確實(shí)令人印象深刻。



Jeff Dean:確實(shí),這不是單一因素,而是從硬件到軟件、從系統(tǒng)到模型的全棧協(xié)同。

所有這些結(jié)合在一起,才能既做出能力極強(qiáng)的大模型,也能通過軟件技術(shù)把這些能力“壓縮”到更小、更輕量、更低成本、更低延遲的模型里,同時(shí)仍然保持相當(dāng)強(qiáng)的能力。

Alessio Fanelli:你們內(nèi)部,會(huì)不會(huì)對帕累托前沿的“低端”也有很大壓力?

新實(shí)驗(yàn)室往往拼命往性能最前沿沖,因?yàn)樾枰谫Y。但你們有數(shù)十億用戶。早年做CPU規(guī)劃時(shí),如果每個(gè)用戶每天多用三分鐘語音模型,算下來都需要翻倍的算力。

現(xiàn)在在谷歌內(nèi)部是怎么權(quán)衡的?如何在“追求前沿”和“必須規(guī)?;渴稹敝g做決策?

Jeff Dean:我們始終希望擁有站在前沿、甚至推動(dòng)前沿的模型,因?yàn)橹挥性谀抢?,你才能看到“新能力”的誕生——那些上一代模型不具備的能力。

但我們也清楚,這類模型通常更慢、更貴。很多廣泛場景其實(shí)更需要低延遲、低成本的模型。

所以我們的策略是同時(shí)做兩件事:一方面有高端前沿模型,用于深度推理、復(fù)雜數(shù)學(xué)問題等高難任務(wù);

另一方面有高性價(jià)比模型,用于低延遲場景,比如更流暢的 Agent 式編程。兩者都重要。

而且通過蒸餾技術(shù),我們可以把前沿模型的能力遷移到小模型上。因此這不是“二選一”,反而是相輔相成——沒有前沿模型,也很難得到高質(zhì)量的小模型。



Alessio Fanelli:蒸餾這個(gè)方法你和Geoffrey Hinton早在 2014 年就提出了。

Jeff Dean:別忘了Oriol Vinyals。

Alessio Fanelli:這么多年過去,你怎么看待這些技術(shù)理念的“周期性”?比如稀疏模型。很多想法在當(dāng)時(shí)未必看起來重要,但后來影響巨大。你們?nèi)绾闻袛嗄男┲档迷谙乱淮P椭兄匦聦徱暎?/p>

Jeff Dean:當(dāng)年做蒸餾,動(dòng)機(jī)其實(shí)來自圖像任務(wù)。

我們有一個(gè) 3 億張圖片的數(shù)據(jù)集。如果針對不同類別訓(xùn)練“專家模型”——比如一個(gè)專門識別哺乳動(dòng)物,一個(gè)專門識別室內(nèi)場景——然后做成 50 個(gè)模型的集成,效果會(huì)很好。但顯然不可能線上部署50個(gè)模型。

于是我們想:能否把這些專家模型“壓縮”進(jìn)一個(gè)更小、可部署的模型里?這就是蒸餾的由來。今天其實(shí)邏輯類似,只不過我們不是蒸餾50個(gè)模型,而是從一個(gè)極大規(guī)模模型蒸餾到小模型。

Shawn Wang:蒸餾和強(qiáng)化學(xué)習(xí)革命之間是不是也有關(guān)聯(lián)?比如RL會(huì)在某些能力分布上“打尖”,但可能犧牲其他區(qū)域。

如果能通過蒸餾把能力重新平衡回來,實(shí)現(xiàn)“能力合并而不退化”,那是不是理想狀態(tài)?

Jeff Dean:蒸餾的關(guān)鍵優(yōu)勢之一,是小模型可以在大量訓(xùn)練數(shù)據(jù)上多次迭代學(xué)習(xí),同時(shí)利用大模型輸出的 logits 信息,而不僅是硬標(biāo)簽。這能引導(dǎo)小模型學(xué)到更細(xì)膩的行為。

實(shí)踐中我們確實(shí)發(fā)現(xiàn),小模型可以非常接近大模型性能



這也是為什么在多個(gè)Gemini世代中,我們都能做到“下一代Flash ≈ 上一代Pro,甚至更好”。這是一條我們會(huì)持續(xù)推進(jìn)的路徑。

Shawn Wang:那Ultra呢?是不是內(nèi)部有一個(gè)“母體模型”一直在蒸餾?

Jeff Dean:我們有很多不同規(guī)模和用途的模型,有些不對外發(fā)布,有些是Pro級別。蒸餾可以來自不同來源。另外,推理階段擴(kuò)展也是提升能力的重要方式。

Shawn Wang:Flash的經(jīng)濟(jì)性確實(shí)帶來了規(guī)模優(yōu)勢。聽說已經(jīng)50萬億tokens?

Jeff Dean:市場份額方面,希望還在增長。

Shawn Wang:Flash現(xiàn)在幾乎無處不在——Gmail、YouTube、搜索AI模式。
Jeff Dean:是的。Flash的優(yōu)勢不僅是便宜,還有低延遲。而延遲非常關(guān)鍵

未來模型會(huì)被要求完成更復(fù)雜任務(wù),比如寫整個(gè)軟件包,而不僅是一段循環(huán)代碼。這會(huì)生成大量token,因此低延遲系統(tǒng)至關(guān)重要。

Flash 是一個(gè)方向。硬件層面,比TPU芯片之間的高性能互聯(lián),也對長上下文attention或稀疏專家模型的可部署性至關(guān)重要。

Alessio Fanelli:那你們會(huì)不會(huì)擔(dān)心某種“飽和”?比如兩代之后Flash就能覆蓋大多數(shù)需求,那還有動(dòng)力繼續(xù)推Pro前沿嗎?

Jeff Dean:如果人類提問的分布是靜態(tài)的,那可能會(huì)。但事實(shí)是,模型能力越強(qiáng),人們問的問題越復(fù)雜。

一年前我只會(huì)讓模型做簡單coding,現(xiàn)在我會(huì)讓它做復(fù)雜系統(tǒng)分析。用戶需求本身在進(jìn)化。前沿模型推動(dòng)能力邊界,同時(shí)也讓我們看到瓶頸在哪里,從而改進(jìn)下一代。

Alessio Fanelli:內(nèi)部還依賴公開benchmark嗎?



Jeff Dean:公開benchmark有價(jià)值,但生命周期有限。理想benchmark初始分?jǐn)?shù)應(yīng)在 10%–30%,然后通過改進(jìn)提升到80%–90%。

超過95%就意義不大了,要么能力已掌握,要么可能出現(xiàn)數(shù)據(jù)泄露。我們有很多內(nèi)部保留測試集,專門評估未出現(xiàn)在訓(xùn)練數(shù)據(jù)中的能力。然后分析是數(shù)據(jù)問題、架構(gòu)問題還是能力缺口。

Shawn Wang:有沒有某個(gè)benchmark直接促成了架構(gòu)創(chuàng)新?

Jeff Dean:長上下文能力就是一個(gè)例子。Gemini 1.5開始我們明顯推進(jìn)了長上下文。像“needle in a haystack”這種單針測試現(xiàn)在基本飽和了。真正有意義的是更復(fù)雜的多針檢索或真實(shí)任務(wù),比如從數(shù)千頁文本或數(shù)小時(shí)視頻中提取信息。

Shawn Wang:但會(huì)不會(huì)有“過擬合 benchmark”的風(fēng)險(xiǎn)?像Jason Wei說的,那是一種inductive bias,可能短期有效,長期未必可擴(kuò)展。

Jeff Dean:我們更關(guān)注的是“需要什么能力”,而不是某個(gè)具體解法。長上下文顯然有用,但當(dāng)前仍然太短。

理想狀態(tài)是“能在回答問題時(shí)訪問整個(gè)互聯(lián)網(wǎng)”。但現(xiàn)有二次復(fù)雜度attention不可能擴(kuò)展到萬億token。我們需要算法與系統(tǒng)層面的突破,創(chuàng)造“可訪問萬億 token 的幻覺”。

如果能做到,就可以訪問整個(gè)互聯(lián)網(wǎng)、YouTube視頻像素、個(gè)人郵件、照片、文檔(在用戶授權(quán)下)。那將極具價(jià)值。關(guān)鍵在于:如何在算法和系統(tǒng)層面實(shí)現(xiàn)這種規(guī)模躍遷。

Gemini一開始就強(qiáng)調(diào)多模態(tài)

Shawn Wang:順便說一句,我之前算過一筆賬——如果一個(gè)人每天連續(xù)講八個(gè)小時(shí)、天天講,最多也就生成大概10萬個(gè)token,這其實(shí)完全在可承受范圍內(nèi)。

Jeff Dean:對,不過如果你再進(jìn)一步說——好,我想要理解人們上傳到視頻里的所有內(nèi)容,那情況就不一樣了。

Shawn Wang:而且經(jīng)典的例子是,當(dāng)你從語言擴(kuò)展到其他模態(tài),比如蛋白質(zhì)之類的信息,那信息密度就高得多了。

Jeff Dean:沒錯(cuò)。我覺得像Gemini這樣的模型之所以強(qiáng)調(diào)多模態(tài),是因?yàn)?strong>我們從一開始就希望它是多模態(tài)的



很多人理解的多模態(tài)是文本、圖像、視頻、音頻這些“人類感知”的模態(tài)。但我認(rèn)為,讓模型理解“非人類”的模態(tài)同樣非常有用。

比如來自Waymo車輛的LIDAR傳感器數(shù)據(jù),或者機(jī)器人數(shù)據(jù)、醫(yī)療影像數(shù)據(jù),比如X光、MRI,以及基因組信息。

世界上可能有數(shù)百種不同的數(shù)據(jù)模態(tài),我們希望模型至少能接觸到這些模態(tài),知道它們是有意義的。

即使你沒有在所有LIDAR或MRI數(shù)據(jù)上大規(guī)模訓(xùn)練,僅僅少量納入,也會(huì)非常有價(jià)值,因?yàn)檫@會(huì)“暗示”模型:這些都是現(xiàn)實(shí)世界中的重要信號。

Shawn Wang:那你是否認(rèn)為存在某種“王者模態(tài)”?比如視覺可以在像素層面編碼文本;有篇DeepSeq CR的論文就是這么做的。

視覺還能通過頻譜圖來表示音頻。所以會(huì)不會(huì)視覺才是“統(tǒng)治一切”的模態(tài)?



Jeff Dean:視覺和運(yùn)動(dòng)(比如視頻而不是靜態(tài)圖像)確實(shí)非常重要。

進(jìn)化在 23 次獨(dú)立的過程中演化出了“眼睛”,這本身就說明視覺對理解世界是多么關(guān)鍵。

而我們希望這些模型也是在“感知世界”。所以關(guān)鍵在于:它們是否能解釋所看到或關(guān)注到的內(nèi)容,并利用這些信息幫助我們完成任務(wù)。

Shawn Wang:說到視頻,我得夸一句,Gemini目前可能還是唯一一個(gè)原生支持視頻理解的模型。我經(jīng)常用它分析YouTube。

Jeff Dean:是的,其實(shí)很多人并不了解Gemini到底能做什么。

我有個(gè)例子:一個(gè)YouTube視頻合集,包含過去20年18個(gè)經(jīng)典體育瞬間,比如Michael Jordan在總決賽最后時(shí)刻的跳投、一些足球進(jìn)球等等。

你可以直接把視頻給模型,說“請幫我做一個(gè)表格,列出每個(gè)事件是什么、發(fā)生日期以及簡要描述?!?/p>

結(jié)果你會(huì)得到一個(gè)18行的結(jié)構(gòu)化表格——這其實(shí)是把視頻轉(zhuǎn)成類似SQL表結(jié)構(gòu)的信息。很多人并不會(huì)把“視頻理解”聯(lián)想到這種能力。

谷歌搜索的演變:從分片到AI搜索

Alessio Fanelli:在谷歌內(nèi)部有沒有討論過“照料整個(gè)互聯(lián)網(wǎng)”這個(gè)問題?谷歌本身就是因?yàn)槿祟悷o法瀏覽整個(gè)互聯(lián)網(wǎng)而存在的,通過排序系統(tǒng)幫人篩選。

對于LLM來說,排序邏輯是不是不同?人類可能只看前5個(gè)鏈接,但LLM是否應(yīng)該關(guān)注20個(gè)高度相關(guān)的鏈接?你們內(nèi)部是怎么思考這種“更廣泛搜索模式”的?

Jeff Dean:其實(shí)在大語言模型出現(xiàn)之前,我們的排序系統(tǒng)就是這樣分層處理的。

首先從一個(gè)巨大的索引中篩出相關(guān)子集,可能從數(shù)十億網(wǎng)頁縮小到3萬份候選文檔,然后逐層使用更復(fù)雜的算法和信號精煉,最終展示前10個(gè)結(jié)果。LLM系統(tǒng)本質(zhì)上也類似。



你可以“關(guān)注”萬億級 token,但你需要先篩選出 3 萬份候選文檔(也許對應(yīng)3000萬token),然后進(jìn)一步縮減到 117份真正關(guān)鍵的文檔,再由最強(qiáng)的模型處理這117份。

這樣你就實(shí)現(xiàn)了一種“仿佛瀏覽了萬億token”的效果,就像谷歌搜索給人的感覺一樣——雖然你在搜索整個(gè)互聯(lián)網(wǎng),但實(shí)際上只處理了一小部分最相關(guān)的內(nèi)容。

Shawn Wang:很多人不了解LLM在高流量系統(tǒng)里的滲透程度。比如 BERT 很早就進(jìn)入谷歌搜索系統(tǒng),提升了質(zhì)量。

Jeff Dean:是的,引入LLM表示方式之后,我們可以跳出“必須精確匹配用戶輸入詞語”的限制,而更關(guān)注頁面的主題是否與查詢相關(guān)。

Shawn Wang:其實(shí)在LLM之前,你們就已經(jīng)在“軟化查詢詞”了吧?

Jeff Dean:沒錯(cuò)。我在2009年的一個(gè)會(huì)議上做過一次回顧演講,講1999到2004年搜索系統(tǒng)經(jīng)歷的五六次架構(gòu)重構(gòu)。

2001年是一個(gè)關(guān)鍵點(diǎn)。當(dāng)時(shí)我們?yōu)榱藬U(kuò)展規(guī)模,把索引分片,比如60個(gè)shard,每個(gè)shard多個(gè)副本。

當(dāng)副本數(shù)量足夠多時(shí),我們意識到——整個(gè)索引其實(shí)可以全部放進(jìn)內(nèi)存!一旦索引在內(nèi)存中,你就可以對用戶原本三四個(gè)詞的查詢,擴(kuò)展出50個(gè)相關(guān)詞,比如restaurant、restaurants、cafe、bistro等等。



這是2001年的事情,遠(yuǎn)早于LLM,但本質(zhì)是一樣的——從“精確詞匹配”走向“語義理解”。

Alessio Fanelli:在系統(tǒng)設(shè)計(jì)上,你有什么原則?當(dāng)規(guī)模以倍數(shù)級增長時(shí),你怎么思考?

Jeff Dean:首先要弄清楚最重要的設(shè)計(jì)參數(shù):每秒查詢數(shù)、索引規(guī)模、每個(gè)文檔的數(shù)據(jù)量等等。

好的系統(tǒng)應(yīng)該能承受5到10倍的增長,但如果增長到100倍,可能就需要完全不同的架構(gòu)。比如從磁盤索引轉(zhuǎn)為內(nèi)存索引——這在流量足夠大時(shí)才合理。

設(shè)計(jì)前我喜歡在腦子里推演各種可能性,而不是一開始就寫代碼。

Shawn Wang:更新頻率是不是變化最大的參數(shù)?

Jeff Dean:對。最早我們一個(gè)月更新一次索引,后來可以做到單頁亞分鐘更新。

因?yàn)樾侣勵(lì)惒樵冃枰獙?shí)時(shí)性。即便某頁面更新概率低,但如果它很重要,也值得頻繁抓取。這背后有一整套系統(tǒng)在判斷抓取頻率與頁面重要性。

用能量來衡量數(shù)據(jù)搬運(yùn)成本

Shawn Wang:說到延遲,我必須提一下你的經(jīng)典文章《每個(gè)程序員都應(yīng)該知道的延遲數(shù)字》。

(編者注:這是Jeff Dean在谷歌早期寫的一篇經(jīng)典內(nèi)部文章,后來被公開分享,主要目的是幫助程序員理解計(jì)算機(jī)系統(tǒng)中各種操作的延遲成本,從而在設(shè)計(jì)軟件和系統(tǒng)時(shí)能做出合理的權(quán)衡)

Jeff Dean:那里面其實(shí)列了大概八到十種關(guān)鍵指標(biāo),比如一次緩存未命中要多久、一次分支預(yù)測失敗要多久、一次主存訪問要多久、從美國往荷蘭發(fā)一個(gè)數(shù)據(jù)包要多久之類的。

Shawn Wang:順便問一句,為什么是荷蘭?是因?yàn)镃hrome嗎?

Jeff Dean:不是,是因?yàn)槲覀儺?dāng)時(shí)在荷蘭有數(shù)據(jù)中心。其實(shí)關(guān)鍵點(diǎn)在于,你要能做“信封背面的估算”。這些延遲數(shù)字就是原材料。

比如你要設(shè)計(jì)一個(gè)圖片搜索系統(tǒng),結(jié)果頁要生成縮略圖——你可以選擇提前預(yù)計(jì)算縮略圖,也可以實(shí)時(shí)從大圖生成。那帶寬要多少?需要多少次磁盤尋址?你完全可以在30秒到1分鐘內(nèi),用這些基礎(chǔ)數(shù)字做一個(gè)腦內(nèi)推演。

隨著你使用更高層的庫寫軟件,你也應(yīng)該培養(yǎng)類似的直覺——比如某種數(shù)據(jù)結(jié)構(gòu)的查找大概要多久。

Shawn Wang:如果現(xiàn)在更新這份“延遲數(shù)字”清單,你會(huì)加什么?

Jeff Dean:我覺得現(xiàn)在特別值得思考的是,在模型訓(xùn)練或推理時(shí),你在做的計(jì)算到底意味著什么。

一個(gè)很好的視角是:你需要從內(nèi)存中搬運(yùn)多少“狀態(tài)”?是片上SRAM?是加速器上的HBM?是DRAM?還是通過網(wǎng)絡(luò)傳輸?

然后問一個(gè)問題——這些數(shù)據(jù)搬運(yùn)的成本,相對于一次矩陣乘法里的乘法操作,貴多少?其實(shí)乘法本身的能耗非常低,根據(jù)精度不同,大概是小于1皮焦耳(picojoule)

Shawn Wang:哦,你是用能量來衡量的?



Jeff Dean:對,最終一切都?xì)w結(jié)為能量效率

比如,從芯片另一側(cè)的SRAM搬數(shù)據(jù),甚至都沒出芯片——可能就要1000皮焦耳。于是你就明白了,為什么加速器需要“batch”。

如果你把一個(gè)模型參數(shù)從SRAM搬到乘法單元,花了1000皮焦耳,那你最好多次使用它。假設(shè)batch size是 256,那這筆成本還能攤?。坏绻鸼atch是 1,那就太虧了。

Shawn Wang:對,因?yàn)槟慊?000皮焦耳,只做了1皮焦耳的乘法。

Jeff Dean:沒錯(cuò)。所以從能量角度看,batching 是非常自然的選擇。理想情況下我們當(dāng)然希望batch size是1,因?yàn)檠舆t最低。但能量效率和計(jì)算效率會(huì)非常糟糕。

Shawn Wang:我還是第一次聽到用能量分析batching的解釋。

Jeff Dean:這其實(shí)就是大家做batching的原因。

TPU和ML必須做協(xié)同設(shè)計(jì)

Shawn Wang:那在硬件上有沒有類似當(dāng)年“把索引全部放進(jìn)內(nèi)存”那樣的轉(zhuǎn)折?比如NVIDIA在SRAM上的激進(jìn)下注。你們在TPU設(shè)計(jì)時(shí)是否也早就預(yù)見到這種趨勢?

Jeff Dean:TPU采用的是規(guī)則的2D或3D mesh 結(jié)構(gòu),每個(gè)芯片都有HBM。對于某些模型推理任務(wù),從HBM讀數(shù)據(jù)的延遲和成本比從片上SRAM高得多。

所以如果模型夠小,你可以做模型并行,把它分布在16或64個(gè)芯片上,只要全部參數(shù)都能放進(jìn)SRAM,就能同時(shí)提升吞吐和延遲。這其實(shí)是一個(gè)很自然的技術(shù)選擇。



Alessio Fanelli:在TPU設(shè)計(jì)中,你們?nèi)绾螞Q定優(yōu)化方向?比如能不能把那1000皮焦耳降到50?是否值得為此設(shè)計(jì)一顆新芯片?但ML變化這么快,做硬件會(huì)不會(huì)太冒險(xiǎn)?

Jeff Dean:我們在TPU架構(gòu)團(tuán)隊(duì)和ML研究團(tuán)隊(duì)之間有很多互動(dòng),因?yàn)楸仨氉?strong>“協(xié)同設(shè)計(jì)”

問題是——你今天開始設(shè)計(jì)一顆芯片,可能兩年后才部署到數(shù)據(jù)中心,然后還要用三到五年。也就是說,你要預(yù)測兩到六年后人們會(huì)運(yùn)行什么樣的ML計(jì)算,而這個(gè)領(lǐng)域變化極快。



所以如果研究團(tuán)隊(duì)對未來兩三年內(nèi)可能成功的方法有洞察,我們就能在“TPU N+2”版本里加入對應(yīng)的硬件特性。有時(shí)可以加入一些“投機(jī)性功能”,占用很小的芯片面積,但如果成功可能帶來10倍提升;失敗了損失也不大。

但有些改動(dòng)代價(jià)很大,就必須通過大量ML實(shí)驗(yàn)來驗(yàn)證方向。

Alessio Fanelli:有沒有反過來的情況?因?yàn)樾酒O(shè)計(jì)已經(jīng)定了,所以模型架構(gòu)不得不調(diào)整?

Jeff Dean:當(dāng)然會(huì)。模型架構(gòu)有時(shí)會(huì)為了適配現(xiàn)有硬件而調(diào)整。比如未來一代支持更低精度,你可能提前為那個(gè)精度訓(xùn)練模型,即便當(dāng)前代還不支持。

Shawn Wang:那精度還能降多低?有人說三值化(ternary)都可以。

Jeff Dean:我個(gè)人很喜歡低精度,因?yàn)槊繙p少一位比特,就減少搬運(yùn)時(shí)的能量消耗。很多成功做法是:權(quán)重本身用極低比特表示,但給一組權(quán)重共享一個(gè)縮放因子。

Shawn Wang:低精度加縮放因子?挺有意思的。說到精度,我們最終是采樣生成的,還會(huì)加隨機(jī)數(shù)——那這么精細(xì)的計(jì)算是不是有點(diǎn)諷刺?

Jeff Dean:確實(shí)有很多趨勢值得關(guān)注。比如能量驅(qū)動(dòng)模型、擴(kuò)散模型(不再順序解碼 token)、投機(jī)解碼。

比如一次預(yù)測8個(gè)token,然后接受其中5或6個(gè),相當(dāng)于把有效batch提升了5倍,大幅攤薄參數(shù)搬運(yùn)成本。從能量、延遲、吞吐的角度看問題,會(huì)自然引導(dǎo)你找到更優(yōu)解。

Shawn Wang:還有模擬計(jì)算這種更激進(jìn)的方向呢?

Jeff Dean:模擬計(jì)算很有意思,理論上功耗低。但現(xiàn)實(shí)中你往往要和數(shù)字系統(tǒng)接口,做數(shù)模、模數(shù)轉(zhuǎn)換,這會(huì)損耗掉不少能效優(yōu)勢。

不過我認(rèn)為,在現(xiàn)有數(shù)字架構(gòu)下,我們在能效上還有巨大的提升空間。

幾個(gè)新的研究角度

Alessio Fanelli:從研究角度看,還有哪些方向你覺得特別值得探索?

Jeff Dean:一個(gè)大問題是如何讓模型更可靠,能完成更長、更復(fù)雜、包含大量子任務(wù)的工作。也許一個(gè)模型調(diào)用其他模型作為工具,協(xié)作完成更大規(guī)模任務(wù)。

還有一個(gè)開放問題是:如何把強(qiáng)化學(xué)習(xí)擴(kuò)展到“不可驗(yàn)證”的領(lǐng)域?,F(xiàn)在數(shù)學(xué)和編程的進(jìn)步,很大程度上來自可驗(yàn)證獎(jiǎng)勵(lì)。如果我們能在不可驗(yàn)證領(lǐng)域也實(shí)現(xiàn)類似突破,模型能力會(huì)有很大提升。



Alessio Fanelli:比如Deep Research或AI Mode,其實(shí)也是某種信息檢索。是不是“檢索”本身就是可驗(yàn)證的部分?

Jeff Dean:可以用另一個(gè)模型來評估第一個(gè)模型的結(jié)果,比如判斷檢索結(jié)果是否相關(guān),或者從2000條結(jié)果中打分選出最相關(guān)的50條。有時(shí)甚至可以用同一個(gè)模型,只是通過不同提示詞,讓它充當(dāng)“批評者”。

Shawn Wang:感覺我們好像做完了“簡單的部分”,接下來全是硬骨頭。但每年都這么覺得。

Jeff Dean:這個(gè)領(lǐng)域的好處是,有很多聰明人都在想辦法解決這些問題。

兩年前,我們還在為GSM8K這種“小明有兩只兔子又買三只”的題目發(fā)愁?,F(xiàn)在模型已經(jīng)能做IMO和Erd?s水平的數(shù)學(xué)推理了,而且是純語言形式完成。這在一年半內(nèi)是驚人的躍遷。



對其他領(lǐng)域,我們也希望實(shí)現(xiàn)類似的飛躍。雖然有些方向還看不清路徑,但研究本身就是不斷嘗試、驗(yàn)證、推進(jìn)的過程,這正是它迷人的地方。

Shawn Wang:比如說,自動(dòng)生成YouTube縮略圖,這就非常有用了。那就是AGI了,我們真的需要它。

Shawn Wang:對內(nèi)容創(chuàng)作者來說,那絕對是。

Jeff Dean:我不是YouTube創(chuàng)作者,所以我個(gè)人沒那么在意這個(gè)問題,不過我知道很多人確實(shí)很在意。

統(tǒng)一模型時(shí)代已經(jīng)到來

Shawn Wang:說回IMO,我到現(xiàn)在都還沒消化一件事:一年前我們還有AlphaProof、AlphaGeometry這些專用系統(tǒng),結(jié)果今年直接說“算了,全丟給 Gemini”。

你怎么看這種從“符號系統(tǒng) + 專用模型”到“全LLM一統(tǒng)天下”的轉(zhuǎn)變?

Jeff Dean:這對我來說其實(shí)挺自然的。人類確實(shí)在操作符號,但我們的大腦里未必真的是離散的符號系統(tǒng)。更可能是某種分布式的神經(jīng)表示——大量神經(jīng)元的激活模式。

當(dāng)我們看到某些東西時(shí),激活特定模式,從而進(jìn)行推理、規(guī)劃、鏈?zhǔn)剿伎?,甚至回滾再嘗試其他路徑。

從這個(gè)角度看,用神經(jīng)網(wǎng)絡(luò)來模擬這種過程是合理的。我一直覺得,把完全獨(dú)立的離散符號系統(tǒng)和神經(jīng)模型硬性分開,其實(shí)不太有道理。

Shawn Wang:也許對你來說很明顯,但對我一年前來說并不明顯。

Jeff Dean:我覺得,從“把問題翻譯成Lean再用專用幾何模型求解”,到第二年直接用一個(gè)統(tǒng)一的大模型(基本就是生產(chǎn)版模型,只是給了更多推理預(yù)算),這其實(shí)說明通用模型能力的巨大提升。你已經(jīng)不再需要那些專用系統(tǒng)了。

這和2013到2016年機(jī)器學(xué)習(xí)的發(fā)展很像——那時(shí)每個(gè)任務(wù)都要訓(xùn)練一個(gè)獨(dú)立模型:街道標(biāo)志識別一個(gè)模型,語音識別一個(gè)模型。

現(xiàn)在,統(tǒng)一模型時(shí)代已經(jīng)到來。問題變成:它們對從未見過的新任務(wù)的泛化能力如何?而答案是——越來越好。

Shawn Wang:而且甚至不需要領(lǐng)域?qū)<?。我采訪過Ete,他說自己甚至不知道IMO在哪舉行、規(guī)則是什么,只是訓(xùn)練模型。這種“通用ML技能 + 數(shù)據(jù) + 算力”就能解決各種任務(wù),某種程度上像是“苦澀的教訓(xùn)”。

(編者注:Ete是指愛德華·格列芬斯特,一位Google DeepMind的研究科學(xué)家,他參與過多項(xiàng)與推理、語言模型相關(guān)的研究;

“苦澀教訓(xùn)”是“強(qiáng)化學(xué)習(xí)之父”理查德·薩頓提出的理念:研究者總想把人類知識編入AI,短期有效但長期看,依靠大規(guī)模算力和通用算法的方法最終會(huì)勝出)



Jeff Dean:在大多數(shù)情況下,通用模型會(huì)勝出

Shawn Wang:但這里有個(gè)疑問:模型容量是有限的,參數(shù)本質(zhì)上只能容納有限的比特。比如 Gemma 這種小模型,很多人希望本地開源模型,但它們會(huì)記住一些其實(shí)沒必要記住的知識。

大模型可以包羅萬象,但小模型容量有限。我們能否把“知識”和“推理能力”分離?

Jeff Dean:理想情況下,模型應(yīng)該把寶貴的參數(shù)空間更多用于推理能力,而不是記住那些可以檢索到的冷門事實(shí)。比如某個(gè)偏僻小橋的長度,沒必要死記硬背。但模型也不能完全脫離世界知識。

比如知道Golden Gate Bridge大概多長,有助于建立尺度感。所以需要一定的常識。模型越大,能容納的知識越多。但我認(rèn)為,把檢索和推理結(jié)合起來——尤其是多階段檢索 + 推理——會(huì)讓模型顯得更強(qiáng)大。

Shawn Wang:比如“個(gè)人版Gemini”。

Jeff Dean:對,我們不太可能把我的私人郵件數(shù)據(jù)直接訓(xùn)練進(jìn)Gemini。更合理的是,用統(tǒng)一模型,再讓它通過工具檢索我的郵件、照片等,然后對這些結(jié)果進(jìn)行推理,并進(jìn)行多輪交互。

垂直模型仍有意義

Alessio Fanelli:那你怎么看垂直模型?比如“醫(yī)療 LLM”“法律 LLM”這種。

Jeff Dean:垂直模型是有意義的。它們應(yīng)該基于一個(gè)強(qiáng)大的基礎(chǔ)模型,然后在特定領(lǐng)域數(shù)據(jù)上進(jìn)一步強(qiáng)化。

比如機(jī)器人領(lǐng)域,我們不會(huì)在基礎(chǔ)Gemini中塞進(jìn)所有機(jī)器人數(shù)據(jù),因?yàn)槲覀冃枰胶饽芰Α5绻阆胱鲆粋€(gè)頂級機(jī)器人模型,就應(yīng)該在基礎(chǔ)模型上再加大量機(jī)器人數(shù)據(jù)訓(xùn)練。



代價(jià)可能是多語言能力下降,但機(jī)器人能力更強(qiáng)。我們始終在做數(shù)據(jù)分布的權(quán)衡。

理想情況是模塊化:一個(gè)擁有200種語言能力的模塊、一個(gè)頂級機(jī)器人模塊、一個(gè)頂級醫(yī)療模塊,可以組合調(diào)用。比如遇到醫(yī)療問題,就調(diào)用醫(yī)療模塊增強(qiáng)基礎(chǔ)模型。

Shawn Wang:就像“可安裝知識包”。

Jeff Dean:對。有些可以通過檢索實(shí)現(xiàn),有些可能需要預(yù)訓(xùn)練,比如用上千億token的醫(yī)療數(shù)據(jù)。

Shawn Wang:說到語言,你以前提到過一個(gè)例子:把低資源語言直接放進(jìn)上下文,模型就能學(xué)。

Jeff Dean:對,比如Kalaman語,全世界只有大約 120 人使用,而且沒有書面文本。對于像索馬里語或阿姆哈拉語這樣的語言,世界上其實(shí)有不少文本。

我們在 Gemini 訓(xùn)練中可能只用了其中一部分。如果增加更多數(shù)據(jù),這些語言的能力就會(huì)提升。

Shawn Wang:我對語言學(xué)也很感興趣。如果我是語言學(xué)家,拿到這些模型,我會(huì)問一些根本問題。比如薩丕爾-沃爾夫假說:語言是否影響思維?

還有所謂“柏拉圖式表示”——圖像里的“杯子”和文本里的“cup”最終在模型里映射到同一向量空間。理論上這應(yīng)該跨語言成立,但有些語言有獨(dú)特概念,英語沒有,這些差異其實(shí)很有意思。

Jeff Dean:我之前做過一個(gè)叫DeViSE的模型,把語言模型的詞向量和圖像模型(類似 ImageNet 訓(xùn)練的)融合在一起。

結(jié)果發(fā)現(xiàn),如果給它一個(gè)訓(xùn)練集中沒有類別的圖像,它也常常能給出正確標(biāo)簽。

比如圖像模型訓(xùn)練時(shí)見過telescope和binoculars,但沒見過microscope。當(dāng)給它顯微鏡圖片時(shí),它卻能正確生成“microscope”這個(gè)標(biāo)簽,盡管從未見過帶這個(gè)標(biāo)簽的圖像。

Shawn Wang:這很酷。

Jeff Dean:確實(shí)挺有意思。

Gemini早期資源太分散是“愚蠢”的

Shawn Wang:最后一個(gè)問題,你希望別人多問你什么?我們聊了硬件、模型、研究。

Jeff Dean:有件事挺有趣。我1990年本科畢業(yè)時(shí),做的畢業(yè)論文就是并行神經(jīng)網(wǎng)絡(luò)訓(xùn)練。當(dāng)時(shí)我就覺得神經(jīng)網(wǎng)絡(luò)是正確抽象,只是算力遠(yuǎn)遠(yuǎn)不夠。

系里的32處理器并行機(jī)只能訓(xùn)練稍微有點(diǎn)意思的模型,但遠(yuǎn)不足以解決現(xiàn)實(shí)問題。直到2008、2009年,隨著摩爾定律和更大的數(shù)據(jù)集,神經(jīng)網(wǎng)絡(luò)才真正開始解決語音、視覺、語言等問題。



我2011年底在谷歌重新投入神經(jīng)網(wǎng)絡(luò)研究時(shí),核心想法就是:我們應(yīng)該用大規(guī)模并行計(jì)算把神經(jīng)網(wǎng)絡(luò)規(guī)模推上去

我還復(fù)活了本科論文里的模型并行和數(shù)據(jù)并行思想——那時(shí)候我用的名字不一樣,但本質(zhì)就是這兩種并行方式。歷史有時(shí)候會(huì)兜個(gè)圈再回來。

Shawn Wang:這個(gè)是公開的嗎?我們能去網(wǎng)上查到嗎?

Jeff Dean:可以,在網(wǎng)上都能找到。
不過說到更宏觀一點(diǎn)的事情,我覺得過去十五年真正重要的一點(diǎn),是把各種技術(shù)結(jié)合起來,并且持續(xù)推動(dòng)Scaling

這不僅僅是算法問題,還包括硬件的進(jìn)步,比如構(gòu)建像TPU這樣的專用硬件;也包括軟件層面的抽象能力,讓研究者和工程師能夠更好地向計(jì)算機(jī)表達(dá)自己的想法。

Shawn Wang:關(guān)于后來對算力資源分配的反思——有人提到所謂的“算力配額市場”。

David在OpenAI做過VP of Engineering,后來又去了Google。他的觀點(diǎn)是,OpenAI 當(dāng)時(shí)愿意“押上全部籌碼”去做一件事,而 Google 更民主化,每個(gè)人都有自己的算力配額。

(編者注:此處指David Luan,是 AI 領(lǐng)域知名的技術(shù)專家,曾任職于Google Brain和OpenAI,后來創(chuàng)辦了 AI 初創(chuàng)公司Adept)
如果你真的相信 Scaling 是關(guān)鍵,那這其實(shí)是一個(gè)全組織層面的戰(zhàn)略選擇。你當(dāng)時(shí)會(huì)認(rèn)同這種說法嗎?還是有不同的復(fù)盤結(jié)論?

Jeff Dean:我在一定程度上是同意的。事實(shí)上,我當(dāng)時(shí)還寫過一頁memo,說我們把資源拆分得太零散是“愚蠢”的



當(dāng)時(shí)的情況是這樣的:Google Research里有團(tuán)隊(duì)在做大語言模型,Brain團(tuán)隊(duì)里也在做;同時(shí)其他團(tuán)隊(duì)在做多模態(tài)模型;而當(dāng)時(shí)的 DeepMind也在做像Chinchilla、Flamingo這樣的模型。

問題在于,我們不僅把算力分散在多個(gè)方向上,還把最優(yōu)秀的人才分散開了。我當(dāng)時(shí)的觀點(diǎn)是:這沒有必要。為什么不整合起來,做一個(gè)統(tǒng)一的、從一開始就是多模態(tài)的、在各方面都很強(qiáng)的單一模型?

這就是Gemini項(xiàng)目的起點(diǎn)。

Shawn Wang:所以那份一頁紙的memo成功了?另外,Gemini這個(gè)名字也是你起的嗎?

Jeff Dean:是的,是我起的
當(dāng)時(shí)也有別的備選名字,但我覺得“Gemini”挺好。因?yàn)檫@兩個(gè)組織像是“雙胞胎”一樣的存在,現(xiàn)在合并在一起。另外,NASA 早期的Gemini項(xiàng)目也是通往Apollo計(jì)劃的重要一步。這個(gè)隱喻也很貼切——雙子合一。

未來人均50個(gè)智能體實(shí)習(xí)生

Alessio Fanelli:我很好奇你現(xiàn)在是怎么用AI來寫代碼的。你一直是工程能力極強(qiáng)的人。我看到你說過,結(jié)對編程時(shí)要找到思維方式互補(bǔ)的人。

那現(xiàn)在有了coding agents,你會(huì)如何“塑造”一個(gè)與自己思維方式匹配的智能體?你如何評價(jià)現(xiàn)在這些工具?未來應(yīng)該往哪個(gè)方向發(fā)展?

Jeff Dean:首先,編程工具相比一兩年前已經(jīng)有了巨大進(jìn)步?,F(xiàn)在你可以把更復(fù)雜的任務(wù)交給它們。

一個(gè)很有意思的點(diǎn)是:你和模型互動(dòng)的方式,會(huì)反過來決定它如何與你合作。你可以讓它寫測試、幫你做性能優(yōu)化brainstorming,也可以讓它完全獨(dú)立去完成一個(gè)模塊。

不同任務(wù)適合不同交互模式。有些任務(wù)需要頻繁互動(dòng);有些你可以清晰定義需求,然后讓它獨(dú)立完成。

我認(rèn)為未來會(huì)有越來越多獨(dú)立運(yùn)行的軟件智能體替你做事。關(guān)鍵問題是:人機(jī)交互模型該怎么設(shè)計(jì)?什么時(shí)候它應(yīng)該打斷你?什么時(shí)候獨(dú)立推進(jìn)?

這個(gè)問題還沒有最終答案。而且隨著模型能力提升,這些交互決策也會(huì)改變。如果你有50個(gè)實(shí)習(xí)生,你會(huì)怎么管理?也許你真的會(huì)想要50個(gè)——前提是他們足夠優(yōu)秀。

Shawn Wang:那管理成本也很高。

Jeff Dean:是的。但你可能會(huì)把他們分成小組,而不是直接管理 50 個(gè)人。
同樣的,如果一個(gè)人管理50個(gè)虛擬智能體,而不是50個(gè)真人工程師,也許組織結(jié)構(gòu)和溝通帶寬會(huì)更高效。

五個(gè)工程師各自管理50個(gè)智能體,彼此之間可能反而有更高帶寬的交流,而不是每人都要協(xié)調(diào)一個(gè)50人團(tuán)隊(duì)。



Alessio Fanelli:那你覺得這種模式會(huì)不會(huì)讓人變得更孤立?比如你想找別人一起“pair programming”,但現(xiàn)在已經(jīng)有50個(gè)智能體并行完成了大量工作,要把上下文講清楚反而更難。

Jeff Dean:也許。但傳統(tǒng)的軟件組織其實(shí)也是高度分工的。50個(gè)人在不同模塊上工作,本來也不會(huì)高頻互動(dòng)。

如果是5個(gè)人各自管理50個(gè)智能體,反而可能在這5人之間形成更高效的協(xié)作結(jié)構(gòu)。具體會(huì)怎么演化,我也不確定。

“寫好需求”將會(huì)是核心技能

Alessio Fanelli:那你的工作節(jié)奏會(huì)怎么改變?是不是要花更多時(shí)間在設(shè)計(jì)和specification上?

Jeff Dean:我覺得這是個(gè)非常關(guān)鍵的變化。過去大家都被教導(dǎo)要寫清晰的specification,但說實(shí)話,沒有多少人真正重視“英文規(guī)格說明”這個(gè)產(chǎn)物。

但如果你是讓一個(gè)agent為你寫代碼,你必須把specification寫得非常清楚。因?yàn)?strong>輸出質(zhì)量完全取決于你如何定義問題。如果你沒寫清楚某個(gè)corner case,沒強(qiáng)調(diào)性能要求,模型就很可能忽略這些。

因此,我認(rèn)為未來一個(gè)重要能力是:用非常精確、無歧義的方式表達(dá)你想要什么。這不僅對軟件工程重要,對任何復(fù)雜任務(wù)都是重要能力。

能夠“清晰表達(dá)需求”,會(huì)成為一種核心技能。



Shawn Wang:我常開的一個(gè)玩笑是:高級的executive communication,某種程度上已經(jīng)接近“魔法”了——就像寫內(nèi)部備忘錄一樣,你必須極其謹(jǐn)慎地權(quán)衡措辭。我覺得現(xiàn)在做提示工程其實(shí)也越來越像這種溝通藝術(shù)。

而且我認(rèn)為“多模態(tài)”非常重要。比如Google當(dāng)年推出的一些模型,一開始就強(qiáng)調(diào)強(qiáng)多模態(tài)能力,包括視頻。這其實(shí)是給模型最高帶寬的一種輸入方式,是一種極其強(qiáng)大的溝通手段。

Alessio Fanelli:那你怎么處理自己腦子里那些經(jīng)驗(yàn)性的知識?比如你對性能優(yōu)化有很強(qiáng)的“直覺感”,知道哪些地方可能有提升空間。

現(xiàn)在是不是更有價(jià)值把這些通用經(jīng)驗(yàn)系統(tǒng)性寫下來,作為可以檢索的資料喂給模型?

比如邊界情況就是個(gè)好例子——以前你腦子里自然會(huì)想到某些特定場景,現(xiàn)在是不是每次都得明確寫出來?你會(huì)建議大家花更多時(shí)間寫這些“通用指南”嗎?

Jeff Dean:我確實(shí)認(rèn)為,高質(zhì)量的軟件工程指南會(huì)變得更重要。因?yàn)樗鼈兗瓤梢宰鳛槟P偷妮斎肷舷挛模部梢员黄渌こ處熼喿x,從而幫助他們寫出更清晰的prompt。

未必需要為每個(gè)具體問題都寫一份專門文檔,但如果你有一些通用指南,然后把它們放進(jìn) coding agent 的上下文中,那會(huì)非常有幫助。

舉個(gè)例子,在分布式系統(tǒng)里,你可以列出常見故障類型,以及對應(yīng)的處理技術(shù)。比如Paxos這樣的復(fù)制協(xié)議,或者向兩個(gè)節(jié)點(diǎn)發(fā)送請求、只需一個(gè)返回即可容錯(cuò)的策略。

如果你寫一份包含 20 種類似技術(shù)的簡明說明,那大概率能幫助coding agent構(gòu)建出更可靠、更健壯的分布式系統(tǒng)。

模型的“個(gè)性化”和低延遲會(huì)極其重要

Shawn Wang:回到prompt和迭代這個(gè)話題。我一直想做一個(gè)A/B實(shí)驗(yàn):

是三次“快速但能力一般”的模型調(diào)用、每次都有人類校準(zhǔn)效果更好?還是一次寫一個(gè)非常長、非常詳盡的prompt,然后讓一個(gè)很強(qiáng)的模型一次完成更好?

很多時(shí)候性能不佳,是因?yàn)槟銢]寫清楚需求,而不是模型不行。模型其實(shí)可以生成10種合理結(jié)果,只是你想要其中1種。

Jeff Dean:對,本質(zhì)上是“欠規(guī)格化”。如果問題沒被清晰定義,模型只能猜。而多輪快速交互,往往足夠逼近你真正想要的結(jié)果。
我個(gè)人非常相信“低延遲”的價(jià)值。低延遲交互會(huì)讓系統(tǒng)使用體驗(yàn)變得愉悅得多。如果響應(yīng)慢10倍或20倍,體驗(yàn)完全不同。

未來我們會(huì)看到模型和底層軟硬件系統(tǒng)帶來20倍甚至50倍的延遲下降。這對那些需要在每次交互之間完成大量內(nèi)部計(jì)算的系統(tǒng)至關(guān)重要。

Shawn Wang:但另一方面,也有像DeepThink這種強(qiáng)調(diào)深度推理、但延遲較高的模型。

Jeff Dean:如果成本和延遲不是問題,你當(dāng)然會(huì)一直用DeepThink。

假設(shè)硬件提升20倍延遲降低,那你自然希望模型具備更強(qiáng)推理能力。但有趣的是,當(dāng)硬件變快后,你往往又會(huì)設(shè)計(jì)出更復(fù)雜的模型,再次把時(shí)間用滿。

Shawn Wang:帕累托前沿總是在往上爬。最后問個(gè)預(yù)測問題。有沒有你覺得現(xiàn)在還不滿意、但很快會(huì)實(shí)現(xiàn)的能力?

Jeff Dean:我給兩個(gè)預(yù)測。

第一,真正“個(gè)性化”的模型會(huì)極其重要。一個(gè)了解你、掌握你所有狀態(tài)、并且可以在你授權(quán)范圍內(nèi)檢索你全部歷史信息的模型——你看過的郵件、照片、視頻——會(huì)比通用模型強(qiáng)大得多。



第二,更專用化的硬件會(huì)讓模型延遲大幅下降,同時(shí)能力提升、成本下降。這會(huì)改變很多應(yīng)用場景

Shawn Wang:大家常用“每秒tokens數(shù)”來衡量速度。比如現(xiàn)在100 tokens/s,如果能到1000有意義嗎?那10000呢?

Jeff Dean:當(dāng)然有意義。

更高的tokens/s意味著你可以做更多并行rollout,可以生成更多代碼,可以在生成背后做大量思維鏈推理驗(yàn)證。10,000 tokens/s 會(huì)非常強(qiáng)大。

Shawn Wang:到那個(gè)速度,你都不會(huì)讀代碼了。

Jeff Dean:未必。也許最終代碼只有1000 tokens,但背后用了9000 tokens的推理。這樣生成的代碼,反而更值得閱讀。


https://www.youtube.com/watch?v=F_1oDPWxpFQ

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗頂住了,兩大援軍已到!特朗普宣布一件事,臺當(dāng)局坐不住了

伊朗頂住了,兩大援軍已到!特朗普宣布一件事,臺當(dāng)局坐不住了

各生歡喜者
2026-03-06 03:23:56
烏克蘭威脅出兵進(jìn)攻匈牙利 德國力挺,英國中立,法國態(tài)度耐人尋味

烏克蘭威脅出兵進(jìn)攻匈牙利 德國力挺,英國中立,法國態(tài)度耐人尋味

Ck的蜜糖
2026-03-10 17:32:25
感謝大連!國安撿漏簽下未來10年希望,李明給俱樂部留下臨別禮

感謝大連!國安撿漏簽下未來10年希望,李明給俱樂部留下臨別禮

體壇鑒春秋
2026-03-10 12:07:33
這菜再貴也要吃,大量上市!通便排毒,殺菌消炎,提高免疫力

這菜再貴也要吃,大量上市!通便排毒,殺菌消炎,提高免疫力

阿龍美食記
2026-03-10 16:31:51
CCTV5直播,中國女足四分之一決賽潛在對手曝光,贏球就進(jìn)世界杯

CCTV5直播,中國女足四分之一決賽潛在對手曝光,贏球就進(jìn)世界杯

側(cè)身凌空斬
2026-03-09 19:36:41
全網(wǎng)刷屏的“龍蝦”,真的勸你不要盲目跟風(fēng)!

全網(wǎng)刷屏的“龍蝦”,真的勸你不要盲目跟風(fēng)!

科普中國
2026-03-10 10:45:51
1949年,萬余名山東干部南下,大多數(shù)終生未歸,到底去干什么了

1949年,萬余名山東干部南下,大多數(shù)終生未歸,到底去干什么了

鶴羽說個(gè)事
2026-03-05 17:15:25
掛五星紅旗就能過霍爾木茲海峽?船舶的身份,早已不靠肉眼判斷

掛五星紅旗就能過霍爾木茲海峽?船舶的身份,早已不靠肉眼判斷

黃娜老師
2026-03-09 23:27:30
悲壯?伊朗女足去機(jī)場時(shí)只剩半支隊(duì):8人逃離 另有多人仍留在酒店

悲壯?伊朗女足去機(jī)場時(shí)只剩半支隊(duì):8人逃離 另有多人仍留在酒店

風(fēng)過鄉(xiāng)
2026-03-10 14:56:51
科學(xué)家在65光年外,發(fā)現(xiàn)了一顆藍(lán)色的木星,任何生命都無法存活

科學(xué)家在65光年外,發(fā)現(xiàn)了一顆藍(lán)色的木星,任何生命都無法存活

觀察宇宙
2026-03-09 20:57:12
深圳男子買彩票中2億,7天后辦理銀行卡,卻被銀行保安趕了出來

深圳男子買彩票中2億,7天后辦理銀行卡,卻被銀行保安趕了出來

今天說故事
2025-05-28 14:13:27
記者問蔣萬安:你是臺灣人還是中國人?蔣萬安的回答出乎預(yù)料。

記者問蔣萬安:你是臺灣人還是中國人?蔣萬安的回答出乎預(yù)料。

阿七說史
2026-03-09 16:04:51
第32波打擊!以色列本土告急,美軍迎來不眠之夜,特朗普發(fā)表講話

第32波打擊!以色列本土告急,美軍迎來不眠之夜,特朗普發(fā)表講話

頭條爆料007
2026-03-10 06:13:31
博納影業(yè)爆雷!于冬欠賭場473萬,去年虧損14億

博納影業(yè)爆雷!于冬欠賭場473萬,去年虧損14億

光影新天地
2026-03-10 11:29:53
難怪蔣介石稱贊:胡璉是常勝將軍,你看胡璉打仗時(shí),他都忙了些啥

難怪蔣介石稱贊:胡璉是常勝將軍,你看胡璉打仗時(shí),他都忙了些啥

云霄紀(jì)史觀
2026-03-10 17:43:32
全民養(yǎng)龍蝦,釋放了四個(gè)信號

全民養(yǎng)龍蝦,釋放了四個(gè)信號

賽格大道
2026-03-09 18:54:36
沒想到,兩會(huì)還沒結(jié)束,48歲王勵(lì)勤高調(diào)官宣喜訊,又讓人刮目相看

沒想到,兩會(huì)還沒結(jié)束,48歲王勵(lì)勤高調(diào)官宣喜訊,又讓人刮目相看

八斗小先生
2026-03-10 16:56:35
伊朗女足手語比出求救訊號,伊朗球迷圍堵大巴呼吁保護(hù)球隊(duì)成員

伊朗女足手語比出求救訊號,伊朗球迷圍堵大巴呼吁保護(hù)球隊(duì)成員

懂球帝
2026-03-09 12:29:07
長安街外地車禁行,尾號限行最新周期,外地司機(jī)進(jìn)京必讀攻略

長安街外地車禁行,尾號限行最新周期,外地司機(jī)進(jìn)京必讀攻略

右耳遠(yuǎn)聞
2026-03-10 11:26:44
伊朗最大的內(nèi)鬼被處決了

伊朗最大的內(nèi)鬼被處決了

霹靂炮
2026-03-10 13:07:38
2026-03-10 18:48:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12260文章數(shù) 176413關(guān)注度
往期回顧 全部

科技要聞

全民"養(yǎng)蝦"背后:大廠集體下場瘋狂賣Token

頭條要聞

專家:打擊伊朗遭3大反噬 特朗普政府或真有點(diǎn)"撐不住"

頭條要聞

專家:打擊伊朗遭3大反噬 特朗普政府或真有點(diǎn)"撐不住"

體育要聞

加蘭沒那么差,但鱸魚會(huì)用嗎?

娛樂要聞

肖戰(zhàn)首奪SMG視帝,孫儷四封視后創(chuàng)歷史

財(cái)經(jīng)要聞

“龍蝦補(bǔ)貼”密集出爐 最高1000萬!

汽車要聞

MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

態(tài)度原創(chuàng)

家居
藝術(shù)
健康
教育
軍事航空

家居要聞

自然肌理 溫度質(zhì)感婚房

藝術(shù)要聞

30000畝杏花開了,新疆的春天這么美!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

教育要聞

放假通知:2026中小學(xué)生暑假放假時(shí)間確定了,家長看后卻心情復(fù)雜

軍事要聞

剛說完戰(zhàn)爭很快結(jié)束 特朗普改口

無障礙瀏覽 進(jìn)入關(guān)懷版