国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

我們和田淵棟做了一次年末總結(jié):關于Scaling、頓悟及AGI還有多遠

0
分享至

2025 年 10 月,Meta 宣布裁減 AI 部門約 600 名員工,這場劇烈的人事震蕩,將田淵棟推向了公眾視野的中心。作為 Meta FAIR(Facebook AI Research,F(xiàn)acebook 人工智能研究院)的研究科學家總監(jiān),田淵棟在這家公司工作了超過十年,主導了從圍棋 AI Dark Forest/OpenGo,表示學習(Representation Learning),打開模型黑箱,到大模型長文本快速高效推理,還有連續(xù)思維鏈(Coconut,Chain of Continuous Thought)等一系列前沿研究。

他離職的消息傳出后,OpenAI、英偉達、xAI 等公司紛紛在社交媒體評論區(qū)公開搶人,場面頗為壯觀。

兩個月過去,當硅谷的喧囂逐漸平息,我們在年末與田淵棟進行了一次長談。彼時他已卸下管理者的身份,正處于一個“比較好的時間段”——用他自己的話說,可以做一些探索。

在年末的這次對話中,我們請他一起回顧這一年。他談到了為什么 Scaling Law“肯定有效果,只是不那么有趣”;為什么他相信一定存在某條隱藏的路線,“可以讓現(xiàn)在的智能以一千倍的效率來達成”;為什么當前的 Transformer 框架可能不是最終的解,“必須有一個完全不一樣的跳躍”。他也坦言,關于 AI 能否達到人類學習效率這個問題,今年的研究讓他“更清楚地看到了差距”。更近,還談不上。

他認為未來研究者最需要的是 taste,“本質(zhì)上是指方向的能力,用強化學習的話說,就是那個值函數(shù)”。談到未來個體的工作方式,他說:“以后一定會出現(xiàn)一人 CEO 的情況,我自己是公司的 CEO,下面有一堆 AI 幫我把事情干了?!?/p>

以下是我們的對話實錄。

十年最大的收獲,是形成獨立的 research taste

DeepTech:你在 Meta 工作了十年,現(xiàn)在回頭看,最大的收獲是什么?離開之后有什么新的感受?

田淵棟:十年里面應該說發(fā)生了很多事情,僅僅一兩句話很難概括??偟膩碚f,這十年最大的收獲還是讓自己通過努力獲得了獨立和獨特的研究品味(research taste),能夠從初心出發(fā)立項,逐步追逐自己想要做的長期研究。

當然,最近一兩年的最大收獲是積累了很多大模型研發(fā)的實戰(zhàn)經(jīng)驗,包括參與 Llama 項目,對推理模型的具體問題有了更深的理解。

雖然最后 Llama 4 由于種種原因沒有太成功,但我們還是在強化學習訓練的核心問題上有一些探索,比如說訓練穩(wěn)定性、訓推互動、模型架構設計,和預訓練/中期訓練的互動,長思維鏈的算法,數(shù)據(jù)生成的方式,后訓練框架的設計等等。這個經(jīng)驗本身是很重要的,對我的研究思路也帶來了很大的改變。

離開之后,很多偏管理的事務消失了,我能更集中地做自己真正想做的事情,親手推進一些工作。而且我現(xiàn)在想做的一些方向,并不完全依賴大規(guī)模資源,因此這是一個相對合適的階段,可以開展探索。

今年做了什么:圍繞泛化與訓練效率的幾條關鍵線索

DeepTech:你每年都會在知乎上寫年終總結(jié),今年也快到尾聲了。能不能先帶大家回顧一下你今年的主要研究工作?它們之間有什么聯(lián)系?

田淵棟:今年應該也會寫。距離 12 月 31 號還有幾天,而且有大語言模型幫忙,寫作效率會比以前高一些。

今年大部分時間都在 Llama 那邊幫忙,研究工作如果要找一個主線的話,大概是:如何找到更有效率的訓練方法,找到更好的方式打開模型的黑箱,知道泛化能力的來源。我覺得這些是比較有意思的方向。

值得一提的是幾篇文章。比如我自己做的關于 Grokking(頓悟現(xiàn)象)的分析,探討神經(jīng)網(wǎng)絡在訓練的時候如何達到泛化的效果,數(shù)據(jù)的多寡是否能得出頓悟和泛化的深層次數(shù)學規(guī)律。

還有一篇叫“The Path Not Taken”,分析了強化學習和監(jiān)督學習微調(diào)之間有什么區(qū)別,為什么會導致最終效果的不同。之前已經(jīng)有文章指出,如果你用 on-policy data(即由模型自己生成的數(shù)據(jù))去訓練模型,模型會較少產(chǎn)生災難性遺忘或者過擬合的問題。但如果你用外來的數(shù)據(jù)強制讓模型學習,它就會產(chǎn)生一些奇怪的現(xiàn)象。


圖丨相關論文(來源:arXiv)

后來我們進一步發(fā)現(xiàn),二者對內(nèi)部權重的改動方式并不相同。強化學習改變權重時,不會去觸動那些最大的特征向量的方向,只在比較小的特征方向上進行改變,這樣其實沒有影響模型的筋骨,只是做了一些微調(diào)。但如果你直接在模型上做微調(diào),且數(shù)據(jù)并非模型自生成,就有可能改變它的筋骨,導致一些本質(zhì)行為的變化。

還有像 Deep Confidence 那篇論文,研究怎么樣通過置信度來提高效率。這篇更偏工程和實用化一點,也許我并不用打開黑箱子,只要觀察第一層某些 token 之間的置信度變化,就能大致判斷當前推理過程是否存在問題;先剔除那些不太好的推理軌跡,保留更自信的推理過程,最終效果往往會更好。

通過這些工作,我們可以更好地了解模型在推理和學習過程中,什么樣的權重變化是本質(zhì)的變化,什么樣的方式能夠讓模型變得更強。我覺得這應該是以后比較重要的一個方向。

DeepTech:我們還注意到,你今年在研究實踐上做了一個新的嘗試,就是用 AI 輔助研究?

田淵棟:對,這篇關于 Grokking 的文章,其實是通過我自己和 GPT 相互腦暴之后做出來的,跟之前的做法完全不一樣。效率比以前高很多,也許以前四五個月做一篇文章,花很多時間?,F(xiàn)在可能只需要幾個禮拜,就能做一篇比較好的、至少對業(yè)界的難題有一些洞察(insights)的文章出來。

像八月之前我們都還在 Llama 團隊,沒有太多時間去做研究,回到 FAIR 之后,我本來以為重新開始研究工作需要花些時間,想不到換這種方式之后,很快就有突破了,這點讓我很有觸動。

所以我覺得整個研究的范式和學習的范式,都可能會發(fā)生很大的變化。2026 年會有很大的區(qū)別。

DeepTech:我注意到你今年的很多工作都在探討一個主題:模型思考和推理的效率。比如 Deep Confidence 通過自信度篩選提高推理效率,GSM-∞ 探索長文本推理的復雜度,Grokking 揭示如何用更少的樣本實現(xiàn)泛化。這條主線最終想解決的問題是什么?

田淵棟:最終目標當然是希望找到更好的算法來訓練模型,或更好地優(yōu)化模型推理過程。我們希望達到人的那種能力:數(shù)據(jù)很少,但模型能力依然能變強。

但是我覺得從長期上來說,這條路可能需要一個完全不一樣的算法?,F(xiàn)在 Transformer 框架可能不是最終的解,我傾向于認為必須出現(xiàn)一次完全不一樣的跳躍,從當前的算法跳入到另一套完全不同的算法。

過去大家已經(jīng)在現(xiàn)有算法架構上已經(jīng)做了非常多改進,但是如果你要再往下走得更深,有可能要對這個問題的本質(zhì)進行一個比較好的理解。像我這篇關于頓悟的文章,對“模型如何學到更好的表示”給出了一種比較新的想法,算是一個新的突破,后面應該也會繼續(xù)深入。

DeepTech:我也覺得目前這些思路,包括 test-time scaling(推理時擴展)之類的,似乎是有上限的。真正重要的就是像你在 grokking 所研究的,在訓練過程中找到合適的內(nèi)部表示。

田淵棟:是的,我覺得 TTS 還是有上限的,最終還是要靠更好的表示來達到泛化目的。試想預訓練的數(shù)據(jù)里面全是枚舉法,做 RL 使勁刷 token 能頓悟出數(shù)學歸納法嗎?我覺得以現(xiàn)在大模型的能力,這個不太可能。

這也解釋了為什么像伽羅華(群論的奠基人)這樣的人是天才,他能在幾乎沒有多少樣本的情況下發(fā)現(xiàn)新的抽象和思維方式。這種跨時代的“科學發(fā)現(xiàn)”,現(xiàn)在的大模型還是做不到的。以后如果有一個更好的方式學到這些表示,對后訓練會有很大的幫助。

Scaling 還能繼續(xù),但解決不了學習效率

DeepTech:你在去年的年終總結(jié)中提到,等到 Scaling Law 到了極限,理解內(nèi)在機制才會變得關鍵。最近伊利亞(Ilya Sutskever)也在說我們從 Scaling 時代到了研究時代。從你今年的研究來看,我們現(xiàn)在靠近 Scaling 的真正極限了嗎?什么信號才會告訴我們這條路到頭了?

田淵棟:我在兩月前的硅谷 101 訪談里面也提到了比較相似的觀點,比如說人腦的數(shù)據(jù)效率很高,模型泛化能力從哪里來,研究品味(research taste)很重要等等。Scaling Laws 應該說現(xiàn)在還沒有完全到極限。因為還是有很多辦法可以提高效果,你看 Gemini 3 出來之后,還是有很多辦法可以讓模型變得比原來更強很多。

只是說現(xiàn)在的問題是,這個 Scaling 最終能不能達到人這樣的效率,也就是人能在小樣本下迅速學會新東西的能力。

大廠當然可以繼續(xù)堆樣本、堆訓練,把模型越做越大。我聽說 Gemini 3 模型就非常大。通過這種方式,總能不斷塞入更多知識,讓模型越來越強。

但是另外一方面,我們也必須面對這個現(xiàn)實:人的頭腦功耗非常低,吃的東西也是有上限的,但是人不管怎么樣,在某些方面還是要遠遠超過 AI 現(xiàn)在的能力。所以作為科學家或者做基礎研究的人,你還是要去思考這種問題:到底是為什么?也許存在一條隱藏的路線,可以讓現(xiàn)在的智能以一千倍的效率來達成。

如果我們再繼續(xù)卷這個 Scaling,肯定是有效果的,只是說對于像我這樣的人來說,可能會覺得這不是特別有趣,還是想要做些別的。所以就是總要有人去探索不一樣的路線,而不是所有人都扎堆在同一方向。畢竟智能的終級答案還沒有揭曉。

DeepTech:你在去年的年終總結(jié)里給 AGI(Artificial General Intelligence,通用人工智能)下的定義是看 AI 能否達到人類的學習效率,尤其是從小樣本中頓悟的能力。從你今年的研究來看,我們離這個定義的 AGI 是更近了,還是差距更清楚了?

田淵棟:應該說是更清楚看到差距了。更近應該還談不上,因為畢竟那篇 Grokking 的文章并沒有完全給出一個更好的算法,只是用來做分析。我們可以分析出來它內(nèi)部的學習過程是什么樣子,明白了為什么,之后才能想辦法做改進。

這篇文章跟以前很多對 Grokking 的分析文章相比,應該說是開了一個新的思路,而且這個新思路現(xiàn)在看起來是越來越像是對的了。本來這篇文章是要假設訓練中存在正則化才可能出現(xiàn)特征涌現(xiàn),這個和實驗不太符合;但后來在評審的壓力下我又有了新的發(fā)現(xiàn),同樣的框架,可以證明沒正則化也會出現(xiàn)特征涌現(xiàn)??傮w而言,我認為這是一個較大的突破。

至少對于這個領域來說,有很多人在做 feature learning(特征學習),那么這些特征是通過什么過程學出來的?我們這篇文章可能會給大家?guī)硪恍┯幸馑嫉?、新的思路?/p>

DeepTech:明年會繼續(xù)在這個研究的基礎上做進一步探索嗎?

田淵棟:應該會的,在最近的一次訪談中我談到過一些可能的思路:核心還是 feature learning,也就是如何超越線性化視角(例如 NTK),理解特征如何從數(shù)據(jù)中被抓取出來并進入網(wǎng)絡權重。一旦 feature learning 這一層被解開,我們就有機會做 reverse engineering,更清楚地看見模型究竟如何學習、如何預測。

再往下一步,我認為應當回到對稱性。群的本質(zhì)正是對稱性。數(shù)據(jù)構成的流形應當存在某種全局結(jié)構,這才是泛化性的基礎;如果輸入具有群結(jié)構,在其之上就會產(chǎn)生更緊致的表示,從而超越單純的記憶能力,獲得泛化的結(jié)果。

不過更具體的細節(jié)我暫不便展開,因為我這邊接下來會有比較大的變化。

DeepTech:好的,期待你之后的研究成果。你之前提到目前的 AI 研究需要“從煉金術到化學的轉(zhuǎn)變”。你認為這個轉(zhuǎn)變會是漸進的,還是需要一個“頓悟”的時刻?需要基礎范式的改變嗎?

田淵棟:我覺得還是需要范式的改變??赡芪覀冏罱K的算法不是跟現(xiàn)在一樣的,肯定會出現(xiàn)完全不一樣的算法體系。

如果我們觀察人類大腦,會發(fā)現(xiàn)它是在一套極其嚴苛的硬件約束下,實現(xiàn)了一套極高效率的邏輯。

在生物學上存在各種各樣的約束,比如說人是不能做梯度傳遞的,人神經(jīng)元之間的傳導速度非常慢,是毫秒級而不是納秒級,而且人腦不可能以很高的帶寬把大量數(shù)據(jù)從一端傳到另一端,這些都是人腦的很大局限。

所以我們現(xiàn)在看到的 AI 系統(tǒng),是大量人類精心設計出來的體系,在某些能力上遠超人腦本身。但是為什么人作為一個整體能夠做出很好的預測,能夠有這樣的認知能力?我覺得有可能是整個算法是不一樣的。

至于新算法的轉(zhuǎn)變是不是漸進的,我覺得可以參考歷史。一開始有一些人在嘗試,后來發(fā)現(xiàn)有效果了,嘗試的人就越來越多,最終變成下一個時代的主流。

DeepTech:那除了學習人類本身的思考方式之外,會不會讓 AI 更強大的方法,反而可能與人腦思維模式完全不同?

田淵棟:這個是有可能的。但是我一直有一個信念:對于人也好,機器也好,或者其他生物也好,某種底層的數(shù)學原理都應該是比較接近的。因為數(shù)據(jù)在那兒,大家都看到一樣的數(shù)據(jù),通過某種比較有趣的數(shù)學變換,最終達到相似的表示,同時對問題有相似的理解。

已經(jīng)有一些研究把人腦神經(jīng)元放電表示與大模型的表示進行對比,發(fā)現(xiàn)兩者相關性較強。雖然算法不同,但表示可能相近。這也解釋了為什么今天的 AI 和人類還蠻相似的,比如都會舉一反三,都會有幻覺,都會犯錯誤,不像以前科幻小說里描述的 AI 非常精確、沒有情感?,F(xiàn)在的 AI 更像是個“文科生”。

也許就是兩條不同的道路可能得到相似的內(nèi)部表示。但人腦得到這個表示的效率遠遠高于現(xiàn)在 AI 的效率,這是為什么 AI 現(xiàn)在還是需要很多很多樣本去把這個表示學出來。如果我們能夠找到更好的對于這個表示的學習過程,也許就能得到更高效的新算法。

DeepTech:今年你有沒有看到一些在新的方向上比較有意思的探索?

田淵棟:最近有一些,比如 sparse/linear attention(稀疏/線性注意力)怎么做,如何對自注意力機制做更多變體;還有進一步加速推理的一些手段,我們也做了一些(例如 DeepConf 和 ThreadsWeaver)。

另一個方向是隱空間推理?,F(xiàn)在已有很多人在探索這條路。我們?nèi)ツ昴甑子幸黄恼陆?Coconut(連續(xù)思維鏈),做完之后整個組被拉去做 Llama,沒有時間做后續(xù)。但明顯能看見整個 community 都非常有熱情,大家想要在上面做各種各樣的工作,特別在后訓練和強化學習上也有些比較有意思的結(jié)果。

我覺得以后推理過程本身可能真的是在連續(xù)隱空間中進行的,連續(xù)的內(nèi)部表示其實很重要——思考未必用語言 token 表達,有些思考并不以語言形式呈現(xiàn),而是通過某種抽象的高維向量來表示思考過程,這有時候會變得更有效率。

我們有一篇文章證明,隱空間推理的效率其實比顯式的 token 效率要高,并分析了兩者差異。隱空間推理的推理鏈長度可以顯著短于顯式空間,可能呈平方關系。而且可以看出來為什么能做到這一點,很多時候所謂思維鏈并不是推理的過程本身,往往是人類在得到了答案之后,再用答案反推出一個看起來合理的解釋。真正的推理可能是在這個思維鏈產(chǎn)生之前發(fā)生的。


圖丨相關論文(來源:arXiv)

在這篇文章中這一點被體現(xiàn)得很清楚:搜索時我可以保留所有可能的路徑,但當某條路徑達到目的地后,才回過頭去找那條“應該思考”的路徑。這比顯式把所有路徑都寫出來更高效。所以如果繼續(xù)深挖,我相信會出現(xiàn)更高效的推理方式。

變革性答案會出現(xiàn)在哪里

DeepTech:那么,可能帶來變革性研究的突破會出現(xiàn)在哪里?最近 IBM 總裁克里希納說,現(xiàn)有研究路徑可能很難達到 AGI,而變革性答案可能來自學術界而非產(chǎn)業(yè)界,你怎么看?

田淵棟:這有可能,但學術界也有學術界的問題。我傾向把答案看得更廣,它可能來自一些不被看好、或者不被看好卻堅持下去的方向。這些方向可能來自學術界,也可能來自小公司或小實驗室。

因為大的實驗室有些時候研究方向太過于集中了,大家都在追趕。所有的時間和精力都花在怎么樣讓最終的數(shù)字從 5% 變成 10%,或者 10% 變成 20%。其實很難去想到一個全新的瘋狂想法。

長期追趕,會使人更難提出全新的、甚至“瘋狂”的想法。相反,如果有時間去思考新路徑,這些地方可能產(chǎn)生新范式,而新范式也可能與 AGI 結(jié)合起來。

所以這個地方不一定是在學術界,可能在別的地方,完全看最聰明的頭腦和最前沿的資本怎么樣結(jié)合起來。

DeepTech:包括 Meta 最近的一系列變革,比如 FAIR 的一些基礎研究人員轉(zhuǎn)入新的超智能實驗室,還有其他一些巨頭的變動。這種變化是不是意味著大廠的實驗室將來會更注重商業(yè)化方向,更基礎的理論性研究將來會是什么樣的存在?

田淵棟:應該這樣說,每個巨頭現(xiàn)在都處于一個比較焦慮的狀態(tài)。因為大家都不希望在這場比賽中落后,落后可能會意味著全面的落后。如果真的 AGI 來了,它可能在很快的時間內(nèi)學會所有的東西。第一個造出來的系統(tǒng)會越跑越快,就是所謂的 recursive self-improvement(遞歸自我改進),不斷自我迭代,最終的模型變得非常強,理想上超過人類的能力,達到所謂超人工智能(Superintelligence,或者簡寫為 ASI)。

如果大家知道模型能力在超過某個臨界點是指數(shù)增長的話,那么一旦你的指數(shù)增長比別人快一點點,以后就會越來越快、越來越多,最終會把整個市場全部吃掉。這個是之前一個未來學家科茲威爾講的“嚇尿指數(shù)”(St-Your-Pants Index),也是大家的一個焦慮的點。

因為這種焦慮,巨頭很難投入大量時間做基礎研究:他們可能會覺得這就是我們現(xiàn)在的目的,如果不做這個我們就完蛋了,所以會花很多時間和精力去做這個。

當然你可以說這個事情不太可能發(fā)生,但一旦發(fā)生了,那就是 0 和 1 的區(qū)別,要不就登上 ASI 的快車,要不就成為無關人士。和將來的無窮大相比,現(xiàn)在手上的幾百億美金,其實和街邊的乞丐也沒什么區(qū)別了。大模型最近的飛速發(fā)展,也是會給人這樣的印象——之前的知識或者積累什么的,好像都沒什么用了。

這個可能是大家深層次的焦慮所在。應該說不僅 Meta,其他公司最近也頻繁有一些變化。大廠高管的職業(yè)穩(wěn)定性也不像以前那么穩(wěn)定。過去相對穩(wěn)定,很多事可以做很多年;現(xiàn)在如果做不出來,就會發(fā)生進一步調(diào)整。至少投資方或 CEO 會更緊張,于是出現(xiàn)這些變化。

那么基礎性、理論性的研究,要怎么做呢?大公司還有很多組,每個組都有自己的一些小生態(tài)。在那么大的一個生態(tài)位里面,總是存在一些角落是可以做一些基礎性研究的。

但是這些生態(tài)在時間空間上不夠連續(xù),可能這兩個月可以做,明年那兩個月就不行;今天這個組可以做,明天那個組就不行。因為變動很大,就會出現(xiàn)這種問題。如何解決,我們也沒有答案,因為這確實是很新的局面。

研究方式正在重寫

DeepTech:關于 AI 輔助研究,這也是一個非常新的變化。AI 給你最大的價值是什么?有沒有被 AI 啟發(fā)過的時刻?

田淵棟:AI 現(xiàn)在其實更像一個博士生,或者說是一個博聞強記、知道很多東西的人,但是很多時候它抓不住重點,思路和想法都沒有那么銳利。

什么叫他的思維非常銳利?就是說他能一針見血地發(fā)現(xiàn)問題在哪里,話也不多。我們說“He is very sharp”,或者有個形容詞是“人狠話不多”??戳艘幌轮?,“這句話不對”,或者“這地方有問題,你快點把它解決”,沒有空話套話。這樣的能力,現(xiàn)在 AI 是沒有的?,F(xiàn)在 AI 是倒過來的,就是那種話特別多但是沒有一句話是重點,這個時候會非常煩惱。

但即便如此,它仍然非常有價值。第一,它很博學,能給出大量想法。大多數(shù)想法可能不對,但偶爾會有一兩個讓人覺得“有點意思”,值得繼續(xù)深挖。這時人充當 verifier(驗證者),或教練、法官,把有價值的部分抓出來并判斷方向,這一點非常重要。AI 提供候選想法,人負責篩選與判斷,最終找到好方向。

所以我也有很多時候是被 AI 啟發(fā)的,覺得某些角度很有意思,可能挖下去能體現(xiàn)出更好的東西,從而發(fā)現(xiàn)新方向。

另外當然是 AI 可以幫你做很多臟活累活,有些代碼你不用寫。如果你用過 Claude Code 或者 Codex,你會發(fā)現(xiàn)現(xiàn)在編程的方式已經(jīng)完全不一樣了。

最早大模型出來之后,它輔助編程的方式是加速,變成 Copilot,我先寫一段 comments,述接下來要做什么,再讓它生成代碼,這個還沒那么快,是第一代 AI 輔助編程。

第二代 AI 輔助編程變成了類似于 agent 這種類型,我告訴它怎么改文件,讓它自動修改?,F(xiàn)在基本進入第三代:給它一個很大的代碼庫,甚至我也未必完全理解代碼庫細節(jié),只要提出需求,比如重構、加功能、找 bug,它就能協(xié)助完成。

所以人慢慢從寫代碼的人變成項目經(jīng)理,變成教授那樣的角色。通過這個方式,我就不要再參與具體執(zhí)行,可以把精力集中在這個問題怎么樣去建模,怎么樣往正確的方向去走,以及做指導和判斷。很多臟活累活 AI 可以自己做了,這是最大的價值。人的洞察力越強,AI 對人的幫助就越大。

綜合下來,跟一年前的我相比,加上這個 GPT-5 的話,我效率可能提高了四到五倍的樣子。而且還有很大空間,還有很多地方可以讓它繼續(xù)把事情做得更好。

DeepTech:現(xiàn)在 AI 就像一個非常勤懇的博士生,一天不知疲倦地干活,可以幫你發(fā)現(xiàn)一些以前人們可能發(fā)現(xiàn)過但沒有注意到的方向,然后給你提出來。你識別到了之后,又可以在這些方向上進一步去挖掘。

田淵棟:對,這是 AI 現(xiàn)在最大的助力。而且這個事情,如果一個人越聰明,或者說越有見地,或者對這個業(yè)內(nèi)有經(jīng)驗的話,他加 AI 的效率提升是高于一個新手加 AI 的提升。所以這其實是一個強者越強的模式,是一個很不一樣的趨勢。反過來,新手加 AI 可能會把事情搞砸,因為一些可能出錯的代碼被不加甄別地放進去了。

DeepTech:你認為一個人加頂尖 AI 這種工作模式,未來有可能達到一個小型研究團隊的產(chǎn)出效率嗎?

田淵棟:我覺得是有可能的,甚至還會超過。因為人與人協(xié)作需要時間,比如周末晚上我不可能發(fā)消息要求你立刻做事,就算發(fā)了,你也未必馬上做,可能兩天后才完成。

但 AI 永遠在線,你給它一個 idea,它立刻開始做。這個過程應該說是遠遠高于以前老師帶學生這樣的過程。只要老師清楚自己要做什么,這種效率往往高于傳統(tǒng)“老師帶學生”的方式。

DeepTech:如果這樣的話,會對未來做研究的組織形態(tài)意味著什么樣的影響?

田淵棟:其實現(xiàn)在已經(jīng)有發(fā)生變化了。今年我已經(jīng)知道不少學術界的老師已經(jīng)出走學術界,要么創(chuàng)業(yè),要么加入大廠的一些團隊,做一些 hands-on 的工作,參與大模型研發(fā)。這種從學術界到工業(yè)界的遷移非常突然,而且在加速。

之后會發(fā)生什么,沒人能確定。而且確實有不少博士生可能已經(jīng)提前畢業(yè)或者很早畢業(yè),比如以前博士需要五六年,但現(xiàn)在有時兩三年就畢業(yè),因為不畢業(yè)機會就會錯過。為什么?因為對他們來說,一個博士畢業(yè)的文憑和一個大廠的機會相比,權衡在變化:過去可能傾向先讀完再找工作,現(xiàn)在天平開始傾斜。由此,很多老師未必能招到學生,也會帶來一系列連鎖變化。

DeepTech:在這種研究模式下,你認為未來的研究者最需要的核心能力是什么?是想象力,執(zhí)行力,還是我們現(xiàn)在經(jīng)常提到的研究品味(research taste)?

田淵棟:我覺得 taste 是很重要的,因為 taste 本質(zhì)上來說是一個指方向的能力,你認為這個方向有道理,就會堅持并往下走。用強化學習的角度來說,taste 就是那個在當前路徑還不完整不清晰時的值函數(shù)(value function)。

值函數(shù)能告訴你在這個研究還沒有開展之前,或者剛剛開展的時候,哪條路不能走、哪條路可以走,這就是研究品味的關鍵作用。如果沒有 taste,那么能探索的方向太多,但很多方向到不了你想要的結(jié)果,會浪費大量時間;有 taste,值函數(shù)就能引導你走向更可能正確的道路。

除此之外,執(zhí)行力與恒心也很重要?,F(xiàn)在大家都有大模型,但很多人只是嘗鮮,用一用覺得不錯,就放下了。真正能做成事的人,往往能夠長期使用工具,在同一件事上持續(xù)深挖,把它做到足夠好。

以前的武俠小說,大家都在搶一本武功秘籍,或者大家去找阿拉丁神燈許愿望。但是現(xiàn)在是倒過來的邏輯:武功秘籍到處都有,人手一本,或者人手不止一本,很便宜就可以看到,賣家還天天愁你不用,每天使勁推銷。但很多人沒有時間和精力去學;就算看了,也鉆不進去,也就學不會。

在這種情況下,更重要的是專注與恒心:愿意長期投入;同時具備行動力,愿意去看、去做,而不是每天刷手機。再加上一點運氣與探索,最終才能做出與他人不同的東西。

總之,想象力、研究品味、恒心與行動力,這些能力都需要具備,才更可能成功。

DeepTech:你也會寫小說,前段時間剛看了你的小說《幽夜星火》。這個小說是有用 AI 在輔助創(chuàng)作嗎?

田淵棟:這個沒有,這是之前寫的。《幽夜星火》是《破曉之鐘》的后續(xù),還沒寫完,我現(xiàn)在不是很滿意,之后可能會做較大修改,修改后再出版會更好。當然,當時的寫作方式和現(xiàn)在也不一樣了。現(xiàn)在有很多 AI 工具可用,可以建立工作流,提高寫小說的效率,這也是現(xiàn)在在做的事情。

DeepTech:你在《破曉之鐘》的序言里寫了一句話:小說和做研究都是去找出一條新的路徑來。反過來看,小說創(chuàng)作對于你做 AI 研究有什么反哺嗎?

田淵棟:我覺得目前看起來還是更像是一個思維的放松,跟做研究本身不一樣的一個思維方式,能去探索一些不一樣的東西,去想、去思考,這個會很有趣。對換腦筋、同時保證思維的活躍性挺有幫助的。有些時候會想到一些奇怪的事情,這些事情不是特別清楚,但是如果換換腦子再回來會有很多想法。

DeepTech:明年小說創(chuàng)作上會有什么計劃嗎?

田淵棟:看時間吧,我可能還是會比較忙。但應該會找一些時間寫一寫,因為這也是一種放松與調(diào)劑。希望把第二部寫完,給大家一些有意思的內(nèi)容。其實第二部很多高潮橋段早就想好了,只是需要在新的環(huán)境里把它們真正寫出來。

DeepTech:你前面提到的一句話我覺得非常有感觸。就是 AI 行業(yè)變化非???,模型的迭代、公司的戰(zhàn)略調(diào)整之類的。作為剛剛經(jīng)歷過這種調(diào)整或動蕩的研究者,你覺得在這種不確定的環(huán)境當中如何保持自己的方向感或者掌控感?

田淵棟:首先是要有自己的信念,就是 research belief,這個很重要。更具體說,就是 taste?,F(xiàn)在每天有無數(shù)文章發(fā)布,隨便刷 arXiv 都是新論文。如果一直追趕,就會產(chǎn)生強烈不確定感,仿佛今天不看完就會落后于時代。

這不是一個正確的思維方式。因為如果這么做,那會非常累,而且也永遠處于追趕地位。更好的辦法是我有一個想法,我一定要把它做出來,或者相信這個想法很重要,認為它能通向正確的路徑。有這樣一個信念之后,再去找相應的文章。這樣一方面有更多時間思考,另一方面也更容易做出與別人不同的東西。

DeepTech:我看你之前的訪談下面有評論說“優(yōu)秀的人是先有世界觀,然后才有方法論”,這和你剛才說的很契合。

田淵棟:對,是這樣子。世界觀是一個提綱挈領的關系,這個提綱告訴我這個人我要做什么,然后再去尋找方法。因為如果要學會所有東西再去做,那是不可能的,永遠學不完。有提綱之后再去搜索的話,效率永遠高于你把所有的知識都學完的,因為你會知道什么細節(jié)是關鍵的,什么則無關緊要。

DeepTech:你個人是怎么判斷什么研究或者什么方向值得長期投入的呢?

田淵棟:這有三樣不同的東西。首先是你內(nèi)心喜歡什么,這是內(nèi)在的動力。比如說你做這件事情很開心,也不必先考慮它對這個世界有什么價值,這是一個很重要的要求。

其次是你的能力能做到什么程度,有些人能力強,隨隨便便就把一件別人覺得困難的研究問題解決了,自己也不會覺得特別辛苦。第三是看對外的經(jīng)濟和社會價值,做出來的東西是不是為大眾所稱道。

這三樣東西必須得占一樣,然后才能保證這個事情能往前推進。只是不同的人權重不一樣——有些人說我特別想要外界對我的承認,或者工資很高,這個也是可以的,那他就會做那些待遇很豐厚的工作。還有一些人說我并不指望外面給我很多工資,但是我做這件事情讓我覺得很開心,也一樣成立。最終還是要看每個人在這幾根軸上的權重有多少,用它來去衡量自己想做什么工作。

我當然會建議所有人在這三根線上都試一試,看哪些工作是你最喜歡、最有內(nèi)心滿足感但是不賺錢的,哪些工作是你能賺到更多錢但是內(nèi)心不滿足的,還有什么工作是你能力很強但是你不愿意做的。這些東西都可以組合,最終你發(fā)現(xiàn)有一些交集,有一些東西既能讓你賺到足夠的錢,又能夠讓你有內(nèi)心滿足感,那么這些方向可能是你將來的職業(yè)。

DeepTech:這也可能是一個比較理想的狀態(tài)。

田淵棟:是,但是要不停地去嘗試。最怕的是不嘗試,天天抱怨不喜歡現(xiàn)在的工作,卻不去試別的可能性,也不去尋找真正讓自己開心的方向。長期陷在抱怨里,對個人并不好。

DeepTech:是的,也許可以先賺夠錢再去嘗試更喜歡的方向;或者先做滿足的事,再努力賺錢。

田淵棟:對,都是有可能的。而且不同階段的權衡不一樣。剛畢業(yè)時更需要經(jīng)濟基礎,那當然可以先去賺錢;如果經(jīng)濟壓力不大,時間就會變得更重要。人的一生時間有限,用這段時間做出最有意思的東西很重要。不同階段心態(tài)不同,最終判斷也會不同。

DeepTech:那如果你現(xiàn)在可以完全自由地選擇一個研究方向,不受任何資源或者發(fā)表壓力的話,你最想攻克的問題是什么?

田淵棟:自然而然就是我之前做的那些,關于神經(jīng)網(wǎng)絡如何有好的表示,如何進行頓悟,怎么樣能夠獲得泛化能力,怎么樣讓它變得更強,怎么樣讓它變得有跟人一樣的效率,這些都是我想要做的問題。應該說我的研究方向一直以來都比較特立獨行,當然與此同時也注重與整個人工智能大方向的結(jié)合,這樣至少還能跟上,而不是被時代淘汰。

2026 我們可以期待什么

DeepTech:最后做一個總結(jié)和展望。2025 年對你來說也是一個比較重要的節(jié)點,如果給今年做一個小結(jié),你最大的收獲是什么?

田淵棟:收獲還是不小的。一個是參與了 Llama 項目,會有很多經(jīng)驗,對大模型的研發(fā)和具體問題有更深的理解。至少對于我們來說有這樣 hands-on 的 experience,雖然只有幾個月,但改變了我對于很多問題的一些想法和思路,這是很重要的。而且對我的人生也會帶來很大的改變。在離職之后,基本上我所有時間都在自己動手,應該說也有更多 hands-on 的經(jīng)驗了。

另外就是怎么樣用 AI 和人的相互交互,如何讓 AI 幫助研究變得更快、更高效,并幫助我們找到更好的方向。今年我找到了更有效的方法,讓 AI 更好、更快地提高研究速度與效率。

在這種變化下,我們的研究方式會和過去非常不同。我們正處于一個特殊的節(jié)點上,繼續(xù)往后走,世界,至少學術世界,可能會與過去完全不同。這是很大的變化。當然,研究本身也有不少進展,比如隱空間推理被更多人使用;對頓悟的理解更深入;對強化學習、對 fine-tuning 的理解也更深入一些。

當然之后我的年終總結(jié)會講得更詳細一點。

DeepTech:在你看來,明年 AI 領域最值得期待的進展會是什么?

田淵棟:我同意最近大家的一些新看法。因為至少在兩三年前,AI 仍偏實驗室階段,這兩年大家更多在“刷榜”,推理模型很強,很多問題被解決,包括 IMO(國際數(shù)學奧林匹克)、ICPC(國際大學生程序設計競賽)這類數(shù)學與編程競賽也能解決。

2026 年的話,我覺得可能大家不再滿足于刷榜了,因為大家都會刷。之前也有看到一條有意思的推特說“只要是有榜就能上去”。這句話雖然說是夸張的,但我覺得它是對的。只要有榜,總有辦法可以刷上去,我也從各種途徑知道各種刷榜的技巧。但是問題就在于:第一,沒有榜你怎么刷?第二,AI 能否落地,能否給大家?guī)韺嶋H結(jié)果?

大家花了那么多錢,多少個 billion 的錢去做 AI,AI 確實給大家提供很多幫助。但經(jīng)濟上這些投入能得到多少回報,會影響整個投資環(huán)境與投資人心態(tài)。所謂回報,核心就是:能不能通過 AI 得到真實的 business value(商業(yè)價值),這會成為下一階段更主流的方向。

比如 OpenAI 發(fā)布 GPT-5.2 時,你看 Sam Altman 會強調(diào)“能帶來什么價值”,而不再強調(diào)刷榜到什么程度,因為大家都知道能刷上去,關鍵是能否產(chǎn)生實際價值。

再比如說 AI 幫你做 PPT,最近 Nano Banana 非?;?,為什么?是因為它很快地幫你做 PPT。這個完全改變了辦公室的流程。類似地,能否用 AI 做 Excel 表格、做各種報表文檔,這些都會成為重點。


(來源:田淵棟)

所以 2026 年有很多的變化可能會跟我們?nèi)粘I钕⑾⑾嚓P。包括學術,AI 參與學術工作后,它能否比以前做得更好?如果我們通過 AI 能夠極大地提高 scientific discovery(科學發(fā)現(xiàn))的速度,那它就非常有價值。應該說明年或后年,可能是 AI 如何證明自己價值的關鍵階段。

DeepTech:非常期待明年能看到一些突破的進展。很多人甚至說 26 年、27 年是 AGI 的元年,我覺得這個可能還是稍微有點遠,但一些大的突破應該還是可以看到的。

田淵棟:我覺得是這樣子的。這個是比較有趣的一個狀態(tài),我們既作為研究員,又作為一個觀察者,看能否見證一些有意思的事情。AGI 可能還需要一點時間,還需要一些突破,我覺得按照現(xiàn)在的方案堆數(shù)據(jù)還是不行的。

另外再從寫小說這件事來說,AI 寫小說的風格跟以前也是完全不一樣的。以前可能容易寫出一些無聊套路,比如“最終王子公主幸福地生活在一起了”,沒什么意思。

但是現(xiàn)在 AI 已經(jīng)學到更多有意思的套路,或者有意思的思路,能夠讓小說本身變得非常有趣。未來也許會出現(xiàn) AI 在創(chuàng)作與文學上的突破,關鍵看大家怎么用,但我認為應該會發(fā)生。

DeepTech:我前段時間用 Gemini 3 和 Claude 4.5,我覺得它們的文筆已經(jīng)非常出色了。

田淵棟:對,大概是這樣子。這是一個非常大的變化,而且很多時候看文筆已經(jīng)出色了,文筆不再是壁壘。那么有壁壘的地方就是你的創(chuàng)意和你的思路,你的想法到底是什么。

我現(xiàn)在的感受是:AI 在寫局部段落時已經(jīng)非常好,但對整個故事走向或結(jié)局的把控還是差一點。比如像 Gemini3 能寫出那么多有意思的小點子,然后發(fā)現(xiàn)最后的結(jié)局居然比較平凡沒有張力,就會失望。相比之下,頂級的小說家在這方面其實還是比較厲害的,所以應該說人在這方面還有不少優(yōu)勢的。

DeepTech:未來可能我們更多要扮演的角色更像是一個 CEO,去把控底下的各種 AI 做事的方向。

田淵棟:是,以后一定會出現(xiàn)一人 CEO 的情況。就是我自己是公司的 CEO,然后我下面有一堆 AI 幫我把事情干了。

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
網(wǎng)紅司曉迪凌晨發(fā)文自爆與多位男明星有染,身材確實太好了!

網(wǎng)紅司曉迪凌晨發(fā)文自爆與多位男明星有染,身材確實太好了!

徐幫陽
2026-01-04 16:55:12
馬杜羅被抓后,不到48小時,中俄聯(lián)手行動,美國或又跳進一個泥潭

馬杜羅被抓后,不到48小時,中俄聯(lián)手行動,美國或又跳進一個泥潭

科普100克克
2026-01-04 18:20:43
選人用人的腐敗,才是壓在百姓頭上最沉的大山!

選人用人的腐敗,才是壓在百姓頭上最沉的大山!

思如哲思
2026-01-05 06:34:35
【李作鵬】某醫(yī)生肆意抹黑,林彪“死黨”說:毛澤東不是那種人

【李作鵬】某醫(yī)生肆意抹黑,林彪“死黨”說:毛澤東不是那種人

年之父
2026-01-03 09:50:01
王祖貽在合肥逝世,享年99歲

王祖貽在合肥逝世,享年99歲

極目新聞
2026-01-04 22:24:40
天安門墻繪村爆火背后:5次失利的央美落榜生,用畫筆改寫自己和村莊的命運

天安門墻繪村爆火背后:5次失利的央美落榜生,用畫筆改寫自己和村莊的命運

極目新聞
2026-01-04 12:14:55
2026高速新政放大招!春節(jié)免費9天+5條高速永久免費,你能省多少

2026高速新政放大招!春節(jié)免費9天+5條高速永久免費,你能省多少

今朝牛馬
2026-01-04 20:53:19
“四哥”走了!黑豹樂隊創(chuàng)始人郭傳林去世,享年66歲,曾挖掘竇唯、鄭鈞,和黃家駒同臺演出

“四哥”走了!黑豹樂隊創(chuàng)始人郭傳林去世,享年66歲,曾挖掘竇唯、鄭鈞,和黃家駒同臺演出

極目新聞
2026-01-05 09:34:31
河北農(nóng)村的取暖困境與民營燃氣企業(yè)的利潤狂歡

河北農(nóng)村的取暖困境與民營燃氣企業(yè)的利潤狂歡

ICT解讀者
2026-01-04 15:56:36
給嬰兒喂安眠藥后續(xù):月嫂單位被扒,黑幕曝光,孩子狀態(tài)讓人擔憂

給嬰兒喂安眠藥后續(xù):月嫂單位被扒,黑幕曝光,孩子狀態(tài)讓人擔憂

奇思妙想草葉君
2026-01-03 19:47:31
連續(xù)兩場得分掛零!約基奇因傷缺陣后,最先露餡的果然是布朗

連續(xù)兩場得分掛零!約基奇因傷缺陣后,最先露餡的果然是布朗

移動擋拆
2026-01-05 08:23:08
落選秀單節(jié)21分坎寧安27+6+7,米切爾30分難救主,活塞復仇騎士

落選秀單節(jié)21分坎寧安27+6+7,米切爾30分難救主,活塞復仇騎士

釘釘陌上花開
2026-01-05 05:35:01
美軍或用對付伊拉克的方法,對付中國?一旦開戰(zhàn),衛(wèi)星肯定不保

美軍或用對付伊拉克的方法,對付中國?一旦開戰(zhàn),衛(wèi)星肯定不保

妙知
2025-12-09 00:16:52
上海通報:崇明房屋征收事務所公職人員陳淵,接受審查調(diào)查

上海通報:崇明房屋征收事務所公職人員陳淵,接受審查調(diào)查

上觀新聞
2026-01-04 16:40:04
中方制裁剛落地,特朗普就改主意了!取消撤離計劃,賴在琉球保臺

中方制裁剛落地,特朗普就改主意了!取消撤離計劃,賴在琉球保臺

來科點譜
2026-01-05 09:05:28
沉默24小時后,美歐日澳一擁而上,不許大陸收臺,中方警告了29國

沉默24小時后,美歐日澳一擁而上,不許大陸收臺,中方警告了29國

來科點譜
2026-01-05 09:07:34
越南轉(zhuǎn)頭又要中國造高鐵,直接表示不要技術,只要中國能來就行

越南轉(zhuǎn)頭又要中國造高鐵,直接表示不要技術,只要中國能來就行

我心縱橫天地間
2026-01-04 14:13:28
笑不活!司曉迪“可汗大點兵”炸翻頂流圈,我卻笑死在成毅評論區(qū)

笑不活!司曉迪“可汗大點兵”炸翻頂流圈,我卻笑死在成毅評論區(qū)

八卦南風
2026-01-03 17:33:45
“老虎”哈桑被詐騙!流亡的阿薩德家族,揮金如土卻被嚴密控制

“老虎”哈桑被詐騙!流亡的阿薩德家族,揮金如土卻被嚴密控制

鷹眼Defence
2026-01-02 16:33:51
英超巨大爭議!維爾茨進球失而復得,VAR兩次介入,畫線遭質(zhì)疑

英超巨大爭議!維爾茨進球失而復得,VAR兩次介入,畫線遭質(zhì)疑

奧拜爾
2026-01-05 00:49:25
2026-01-05 10:04:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16081文章數(shù) 514448關注度
往期回顧 全部

科技要聞

雷軍新年首播:確認汽車業(yè)務降速

頭條要聞

牛彈琴:美國露出獠牙 現(xiàn)在有三個國家感到最危險

頭條要聞

牛彈琴:美國露出獠牙 現(xiàn)在有三個國家感到最危險

體育要聞

女子世界第一,9年前在咖啡店洗碗

娛樂要聞

《小城大事》上星央八 熱血筑夢正當時

財經(jīng)要聞

李迅雷:擴內(nèi)需要把重心從"投"轉(zhuǎn)向"消"

汽車要聞

最高續(xù)航310km 嵐圖泰山8或?qū)⑸习肽臧l(fā)布

態(tài)度原創(chuàng)

親子
家居
本地
房產(chǎn)
公開課

親子要聞

向太慈母多敗兒?原生家庭會帶來多大傷害?

家居要聞

黑白碰撞 個性多元冷冽風

本地新聞

即將過去的2025年,對重慶的影響竟然如此深遠

房產(chǎn)要聞

單盤最高狂賣64億!海南樓市2025年最全榜單發(fā)布!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版