国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

專訪前FAIR研究總監(jiān)田淵棟:Meta裁員之后,對AI的一些遺憾與思考

0
分享至

在2025年10月22日,Meta首席執(zhí)行官扎克伯格批準(zhǔn)了對公司人工智能部門裁減約600名員工的計(jì)劃。這是Meta今年在AI領(lǐng)域的最大規(guī)模裁員,主要針對被稱為“超智能實(shí)驗(yàn)室”的核心研發(fā)部門。

本篇文章,我們也采訪了這次裁員風(fēng)波中的核心人物之一:前FAIR團(tuán)隊(duì)研究總監(jiān)田淵棟。我們的采訪聊了不止Meta,還有在公司層面之外,這些資深A(yù)I科學(xué)家對AI路線和未來前沿研究的一些思考,包括LLM路線、開閉源、Research Lab的存在,以及AI人才對研發(fā)和工程的選擇等等話題,希望對大家所有幫助。

至于Meta為什么要進(jìn)行這次裁員,公司的AI開源路線是如何碰壁的,以及空降的新AI負(fù)責(zé)人Alex Wang將會如何重塑Meta的AI策略等等內(nèi)容,我們都在上一篇文章中都提到了,大家可以點(diǎn)擊圖片跳轉(zhuǎn)閱讀。

01

被裁并不意外只是一次被加速的個(gè)人選擇

陳茜:

我看你還穿著FAIR的衣服。

田淵棟:

哈哈哈哈,我覺得像我們這樣的人,一般也不是很在意穿著,公司發(fā)什么衣服就穿什么衣服。


陳茜:

過去幾天對你來說是什么樣子的?我知道很多人來聯(lián)系你,包括媒體還有很多公司都來找你,你自己是什么樣的一個(gè)心態(tài)?

田淵棟:

因?yàn)?/strong>我在被裁之前已經(jīng)有offer了,我在被裁之前我已經(jīng)跟我那些上級說過:哎呀,我不是很爽,我可能要look around(到處看機(jī)會),他們是知道的,所以被裁我也沒有特別驚訝。

所以我覺得無所謂,反正我有offer。當(dāng)然我拿了offer之后,后來我想想還是在Meta再待一陣子,因?yàn)楫吘惯€是有卡(GPU算力)嘛,還可以再做點(diǎn)東西。但是他們把我裁了的話,那就這樣了唄。

過去這兩天有很多的人找我,很多人跟我聊天,想問有沒有什么機(jī)會什么的,包括各大公司,肯定你想到公司都聯(lián)系我了,而且都比較高級別的人。還有很多小公司有一些co-founding(聯(lián)合創(chuàng)始)的機(jī)會。

總得來說有很多機(jī)會吧,所以現(xiàn)在應(yīng)該說還在考慮,還沒有決定。因?yàn)楝F(xiàn)在離裁員還不到一個(gè)禮拜,還不到168個(gè)小時(shí),所以還是需要想一想,再考慮考慮。

陳茜:

裁員是你意料之中的嗎?你當(dāng)時(shí)感覺到裁員會來嗎?

田淵棟:

肯定在意料之中,不然的話我不會去找工作嘛。因?yàn)槲以诠疽呀?jīng)待了10年多了,所以也許這個(gè)正好是個(gè)時(shí)機(jī),可以出來看看,這是我的想法。

至于那公司里面情況怎么樣,我現(xiàn)在還不太方便評論,但是反正這個(gè)可能是個(gè)人選擇,只是說這次裁員加速了這個(gè)個(gè)人選擇。本來可能還在公司里再待一會,比如再待個(gè)半年,然后再考慮一下,但是如果被裁員的話,反正現(xiàn)在都已經(jīng)出來了,那就出來吧。

02

AI行業(yè)趨勢未來“執(zhí)行層”的人會變少

陳茜:

裁600人,當(dāng)時(shí)看到這個(gè)數(shù)字的時(shí)候我還是挺震驚的,覺得有點(diǎn)多。雖然不是完全裁,他們可能有機(jī)會轉(zhuǎn)去其他的組。只是說這個(gè)AI部門,他們覺得沒有必要有這么多人的崗位在這邊了,需要把這個(gè)部門重新地restructure(重組)一下。


圖片來源:CNBC

田淵棟:

對,大概是這樣子。我覺得(裁員)可以說是行業(yè)趨勢吧,我們不說Meta具體這幾次情況,因?yàn)槲乙膊环奖阃嘎短?,但我覺得行業(yè)趨勢是如此。

因?yàn)锳I本身自動化的程度是最高的,比如我們今天有很多人標(biāo)數(shù)據(jù),可能明天模型強(qiáng)了,不需要那么多人標(biāo)數(shù)據(jù)了,后天模型更強(qiáng)了,那需要的人就會少。

我以前聽說過各種消息,比如說以前on call說我這個(gè)模型傳到一半掛了,馬上打電話過來說:“掛了掛了,馬上起來?!比缓笠蕖⒁{(diào)參數(shù),看能不能把它救回來。但是現(xiàn)在因?yàn)橛泻芏嗟淖詣踊墓ぞ?,如果整個(gè)系統(tǒng)做得很好的話,這種事情也變得會很少。所以這樣的話你會相信,各種各樣的pipeline(項(xiàng)目流程)都慢慢變得成熟、變成自動化。那你覺得需要很多人嗎?也并不需要那么多人。所以我覺得大趨勢肯定是做這個(gè)事情的人會越來越少,應(yīng)該是這樣的一個(gè)狀態(tài)。

陳茜:

所以你覺得這次裁員不是Meta這一個(gè)公司的問題,而是大趨勢可能工程師或者是從事AI的人會越來越少。

田淵棟:

應(yīng)該是這么說,如果說得比較嚇人就是,大趨勢是總有一天大家都沒有工作,或者說沒有傳統(tǒng)意義上的工作。現(xiàn)在的情況是我受雇一個(gè)公司,然后我?guī)瓦@公司把事情做好,也許以后并不需要這樣。

比如說如果我去當(dāng)CEO,或者我去當(dāng)一個(gè)小公司的領(lǐng)導(dǎo)者,或者我自己去創(chuàng)業(yè)的話,現(xiàn)在這些工具拿到手之后,我自己都會覺得我并不需要太多人做這事情。有很多事情可以自動化了,而且自動化的程度非常高。所以也許我本來是需要一個(gè)團(tuán)隊(duì),比如說需要幾百人、幾千人去做一件事情,現(xiàn)在也許不需要那么多人,很多事情可以自動化,可以用agent(智能體)來做。

所以在這種情況下,我覺得總的來說做AI的人可能會越來越少,但是探索用AI來做工具、做其他東西的人會越來越多,大概是這樣的一個(gè)過程。

陳茜:

你覺得在foundation model(基礎(chǔ)模型)研究上面的人會越來越少嗎?

田淵棟:

應(yīng)該說對foundation mode(基礎(chǔ)模型)的探索性的研究會越來越多。但是按照我們之前工程上的邏輯,把這個(gè)模型做出來、訓(xùn)練出來的這些人會越來越少。因?yàn)橐院髸l(fā)現(xiàn)大家都遵循同樣的邏輯,把這個(gè)模型訓(xùn)練出來,代碼都是可以跑的,然后都是能有效果的。那為什么還需要這么多人呢?肯定有更多人會說我們可以做研究,或者是做一些其他探索性的工作,這樣的人會越來越多。

陳茜:

做應(yīng)用的人也會越來越多。

田淵棟:

對,但是這個(gè)應(yīng)用不是那種一般性的應(yīng)用,很多時(shí)候可能會落地到某個(gè)具體的垂直領(lǐng)域,或者說用這個(gè)東西做一些你現(xiàn)在想做的事情,這樣的人應(yīng)該會越來越多。

陳茜:

但這是中間層的,做執(zhí)行的那部分人會變少。

田淵棟:

對,因?yàn)樽鰣?zhí)行那些人,首先他們的工作比較重復(fù)的,可能很多事情是需要修或者需要處理,但是如果工具的自動化程度越來越高的話,重復(fù)性的勞動就會減少。


陳茜:

在這次裁員之前,你本來在FAIR里面在研究什么?

田淵棟:

在裁員之前,我們是今年1月份的時(shí)候去GenAI幫忙,這段時(shí)間之內(nèi),我們大部分時(shí)間沒有在做研究,而是在做各種比較救火的工作。

陳茜:

當(dāng)時(shí)就是Llama 4。

田淵棟:

對,當(dāng)然我個(gè)人還是會有一些其他工作,比如說和外面一些其他的一些朋友合作的一些工作,像我們今年四五月份有一篇文章是分析一下我們之前的連續(xù)思維鏈,它的一些理論上的比較厲害的地方。而且這篇文章至少影響力也挺大的,大家會覺得這篇文章給連續(xù)思維鏈Coconut加了一個(gè)備注。因?yàn)槲覀冊诶碚撋献隽烁钊氲姆治?,這個(gè)分析能夠讓連續(xù)思維鏈這個(gè)思路,讓大家覺得可能更有道理,可能會有更多的工作再做下去。

03

開源仍會繼續(xù)

模型的“用途”才是核心問題

陳茜:

你可以說一下,開源、閉源接下來的一個(gè)發(fā)展嗎?因?yàn)楝F(xiàn)在有很多外界認(rèn)為開源在一個(gè)大公司的架構(gòu)里面就不可行了,因?yàn)楝F(xiàn)在前沿模型競爭太激烈了。別人都在閉源,你一個(gè)人開源你可能也堅(jiān)持不下來。你覺得是不是接下來開源模型距離閉源模型的差距越來越遠(yuǎn)?還有人會做開源嗎?

田淵棟:

我覺得硅谷這邊還是會有開源的,像我知道的一些公司,比如Reflection AI它們應(yīng)該就在做開源的模型,它們是有很多的要求、很多的想法想要做這些東西。像之前的OpenAI也做過一些,比如開源的GPT-oss model。所以我覺得開源還是會有的,而且一定會繼續(xù)發(fā)生,像Ai2也在做開源的工作。我覺得接下來更大的問題是:這些模型有什么用?


硅谷101視頻節(jié)目截屏

陳茜:

你指的是開源的模型有什么用?

田淵棟:

不管開源還是閉源的,因?yàn)槟P鸵坏┏鰜碇?,這個(gè)模型本身大家可以拿來當(dāng)聊天工具、搜索工具、效率工具,全部都可以,這些東西可能大公司會做。但還有很多的其他的方向,比如這個(gè)模型可以拿來做一些科學(xué)研發(fā)或者說做科學(xué)家的工作,或者說做垂直領(lǐng)域的一些工作,這個(gè)東西小公司就可以做。在一定程度之后,這個(gè)模型需要有多強(qiáng)能夠把這個(gè)問題做出來,可能是一個(gè)因人而異或者說因問題而異的問題。因?yàn)樽罱K發(fā)現(xiàn),我真的需要一個(gè)模型在所有方面、在不同領(lǐng)域都很強(qiáng)嗎?不一定,可能只在你在意的方向上比較強(qiáng),這個(gè)時(shí)候可能就開始分化了。每個(gè)人、每個(gè)模型可能都有自己的想法,每個(gè)公司做這個(gè)模型有自己的目的,會有各種各樣不同模型做不同的事情。在這種情況下,就可能會有一個(gè)不同的策略。

可能有些模型希望開源,因?yàn)殚_源之后,大家用了之后,可以用來做一個(gè)社區(qū)作為工具、平臺,這個(gè)時(shí)候你開源是很說得通的。比如說我有一個(gè)模型,這個(gè)模型訓(xùn)練完之后可以調(diào)用某種標(biāo)準(zhǔn)工具集,然后我在標(biāo)準(zhǔn)工具集上,我可以再用這個(gè)模型去做一個(gè)平臺讓大家用著,那肯定要開源。如果是其他的一些領(lǐng)域,比如說如果這個(gè)模型是用來做個(gè)性化的搜索或者推薦,這種模型應(yīng)該說不太愿意開源吧?;蛘哒f每個(gè)人自己訓(xùn)練一個(gè)模型,但是不開源。所以最終看最終的目的是什么,而不是非常泛泛地說:開源和閉源哪個(gè)好、哪個(gè)不好。最終還是看公司的策略,因?yàn)槊總€(gè)公司和每個(gè)人其實(shí)都是不一樣的

陳茜:

所以你覺得就是在SOTA(最前沿模型)上面可能很難有一個(gè)開源的模型去跟閉源的模型直接地競爭,但是在很多小的垂類的這種模型上面,還是有非常非常多開源的機(jī)會的。

田淵棟:

應(yīng)該說是這樣。

04

LLM的最大問題:需海量數(shù)據(jù)

陳茜:

你覺得LLM(大語言模型)是正確的路線嗎?

田淵棟:

我覺得LLM是一個(gè)很有意思的路線,但我不知道會不會是正確的路線。


陳茜:

這一點(diǎn)你是同意Yann LeCun的嗎?

田淵棟:

這個(gè)不好說吧。我們大家都是做科學(xué)家的,有科學(xué)家想法的人都會希望找到一個(gè)更好的東西,而不是說我現(xiàn)在就滿足于現(xiàn)在的框架,然后我就在上面做到死,肯定不會這樣子。所以我總會說有各種各樣可能的問題,這些可能的問題怎么樣用別的方式來解決,這個(gè)是一個(gè)很大的問號。

陳茜:

現(xiàn)在大語言模型最大的問題是什么?

田淵棟:

最大的問題就是數(shù)據(jù)量需要很多。需要很多數(shù)據(jù)量,那么訓(xùn)練出來的模型質(zhì)量就肯定很好了,但是肯定沒有人那么高效,這個(gè)是很大的問題。因?yàn)閷θ藖碚f能學(xué)完的樣本數(shù)非常少,人一生能學(xué)到的token的數(shù)目可能就只有最多最多100億的級別,特別是文本token,這個(gè)之前我也在一個(gè)演講分享上面算過,大概是這個(gè)數(shù)字。但是現(xiàn)在大語言模型訓(xùn)練的數(shù)據(jù)很輕易的能達(dá)到10萬億或者說30萬億這樣的大小,中間有1000倍的差距。這1000倍差距。怎么樣去用人類的學(xué)習(xí)能力去彌補(bǔ)?很難彌補(bǔ),但人就是能學(xué)得很好。

在人類歷史長河中,有各種各樣非常厲害的科學(xué)家,他們的思路和想法都是獨(dú)一無二的,他們那個(gè)時(shí)候也沒有看過那么多書,也沒有那么多的數(shù)據(jù),但他們就是能夠發(fā)現(xiàn)一個(gè)很有意思的新的定理、新的證明、新的發(fā)現(xiàn)或者新的發(fā)明。所以對他們來說,他們這些能力從哪來的?大語言模型現(xiàn)在那么多token放進(jìn)去了之后,有沒有達(dá)到人的能力?這個(gè)其實(shí)是現(xiàn)在很大的一個(gè)問號。

所以如果是這樣的話,其實(shí)也許我們現(xiàn)在訓(xùn)練算法并沒有達(dá)到最優(yōu)的,有可能有更好的算法、更好的邏輯,或者更好的方式去學(xué)習(xí)在數(shù)據(jù)中涌現(xiàn)出來的那些表征,用它來解決問題。也許梯度下降可能并不是一個(gè)特別好的方案。可能突然有一天也許不要做梯度下降了,可能別的方法來做,這是我的一個(gè)暴論吧。這樣的話也許我們整個(gè)訓(xùn)練的框架可能要改變。當(dāng)然這個(gè)不一定現(xiàn)在能出現(xiàn),但是我覺得以后可能是一個(gè)可以去實(shí)驗(yàn)的比較有意思的方向。

05

強(qiáng)化學(xué)習(xí)與高級智能

陳茜:

我看最近業(yè)界對強(qiáng)化學(xué)習(xí)有一點(diǎn)爭論,特別是最近Andrej Karpathy接受了一個(gè)播客采訪,也發(fā)表了一些比較負(fù)面的一些觀點(diǎn),你是怎么看RL(強(qiáng)化學(xué)習(xí))這條路線的?


Andrej Karpathy,圖片來源:The Information

田淵棟:

對,我一直是做這個(gè)方向的,我也是這么覺得的。因?yàn)镽L(強(qiáng)化學(xué)習(xí))本質(zhì)上來說是個(gè)搜索的過程,它的好處就是對于你給定的一些難的問題,讓它去搜出來,在搜索的過程中它學(xué)到的數(shù)據(jù)、獲得的信息的質(zhì)量要優(yōu)于被喂的數(shù)據(jù)。這個(gè)就相當(dāng)于有一個(gè)人是去老師那邊聽課,他就相當(dāng)于是Supervised Learning(監(jiān)督學(xué)習(xí))。還有一個(gè)人說我不去老師那邊聽課,我就自己去玩,然后把問題解決了。這兩種方式我覺得后者學(xué)習(xí)出來的能力應(yīng)該說更本質(zhì),解決問題能力更強(qiáng)。所以我覺得RL(強(qiáng)化學(xué)習(xí))在這方面應(yīng)該是優(yōu)于SFT(監(jiān)督式微調(diào))的。

你看現(xiàn)在很多的文章,在很多問題上,尤其是推理問題是,確實(shí)強(qiáng)化學(xué)習(xí)的能力比SFT(監(jiān)督式微調(diào))能力要強(qiáng)。你知道你要做強(qiáng)化學(xué)習(xí)才能讓這個(gè)模型真的學(xué)會推理,如果你做SFT(監(jiān)督式微調(diào))的話,這個(gè)模型可能就記憶了,就是之前的那些推理的過程它并沒有產(chǎn)生泛化能力,或者在新的問題上可能泛化能力沒有那么強(qiáng)。特別是如果你做了大量的SFT,這個(gè)模型的質(zhì)量就可能會下降。所以這是這兩個(gè)的區(qū)別。

但是強(qiáng)化學(xué)習(xí)它只是個(gè)范式,它不是說是有什么神秘東西在里面。因?yàn)樗罱K的目的還是改變權(quán)重,這跟SFT(監(jiān)督式微調(diào))是一樣的,只是說改變權(quán)重的方式不太一樣。所以其實(shí)最終也許存在一個(gè)方式可以統(tǒng)一強(qiáng)化學(xué)習(xí)和SFT(監(jiān)督式微調(diào))監(jiān)督式微調(diào)吧。因?yàn)樽罱K目的都是改變權(quán)重,也許我有更好的方法來做這些問題。而強(qiáng)化學(xué)習(xí)對大家來說,就是一種不同的數(shù)據(jù)采集的方式而已。它是通過邊搜索邊采集,然后把這些數(shù)據(jù)放在一起再去做訓(xùn)練。這樣的方式相當(dāng)于是一個(gè)主動學(xué)習(xí)的方式,跟SFT(監(jiān)督式微調(diào))的方式是不一樣的。


所以我覺得強(qiáng)化學(xué)習(xí)最大的好處是:它是主動學(xué)習(xí)的,它能對數(shù)據(jù)的分布產(chǎn)生很積極的影響,這是它最最核心的地方。而不是說是它的目標(biāo)函數(shù)不一樣,或者說它的訓(xùn)練算法不一樣,不是這樣子。我覺得最終還是看它采集的數(shù)據(jù),它的質(zhì)量是跟SFT(監(jiān)督式微調(diào))是不同的。所以它才能夠解決一些比較難的問題吧。

Andrej Karpathy之前說的那些東西有些我也覺得挺好的,像關(guān)于AGI(通用人工智能)還有10年這樣的論斷,比如我們是進(jìn)入了以十年為尺度的時(shí)代,而不是進(jìn)入一個(gè)立即就能獲得AGI能力的這樣一個(gè)世界。對于這點(diǎn)我也是相信的。像我自己之前也是用過GPT-5幫我一起做一篇文章,我最近一篇文章其實(shí)是我和GPT-5通過self-play(自我博弈)做出來的。相當(dāng)于我沒有任何的學(xué)生,我就每天跟GPT-5去對話,我說我有這樣的問題要解決,這個(gè)問題我們怎么制定研究方法,然后它會給你規(guī)劃。

但是你會發(fā)現(xiàn)如果你自己沒有domain knowledge(專業(yè)知識),這個(gè)規(guī)劃其實(shí)做出來了也是跟大家差不多的,沒有什么創(chuàng)新性、沒有什么原創(chuàng)性。但是作為研究員就是對這個(gè)問題有很深的理解,或者說我知道這個(gè)規(guī)劃或者說它的這個(gè)思考的方式是不對的,或者說它的規(guī)劃有致命的問題。把它指出來跟它說了之后,GPT-5就會在這方面更深入,最終得到一個(gè)比較好的結(jié)果。所以這種高層的human insights(人類洞察力)、human knowledge(人類知識)和對這個(gè)問題的獨(dú)到見解,這些東西現(xiàn)在的模型是缺的。你必須有這些東西之后才能讓這個(gè)模型變得更強(qiáng)。所以你要說AGI沒有這些東西那就不能稱之為AGI。

陳茜:

但模型是不是永遠(yuǎn)都沒有辦法獲得最頂尖的這種insight(洞察力)?因?yàn)閕nsight還是永遠(yuǎn)都是人來引領(lǐng)的。

田淵棟:

是的,跟以前自動駕駛是一樣的:一開始進(jìn)展非???,大家會覺得馬上就能取代人了,但是越往后走問題越大,為什么呢?因?yàn)楹玫亩床?、好的?shù)據(jù)越來越少、越來越難找、數(shù)據(jù)越來越少,那模型就訓(xùn)練不上去。人對于數(shù)據(jù)的獲取能力和人對于數(shù)據(jù)的深度挖掘能力永遠(yuǎn)是超過計(jì)算機(jī)的、超過所有的模型。同樣的問題,可能人只要一兩個(gè)樣本就能看到本質(zhì),但是計(jì)算機(jī)或者說現(xiàn)在的大模型的話它可能需要比如說至少幾百、上千的樣本才能大概感覺到一個(gè)輪廓,預(yù)訓(xùn)練可能是需要更多的樣本。

在這種情況下,如果樣本數(shù)不夠的話,人永遠(yuǎn)是比現(xiàn)在的大模型要厲害的。特別是對一些小領(lǐng)域的專家,他們甚至自己也沒有辦法把自己學(xué)過的樣本吐出來給計(jì)算機(jī)看,因?yàn)檫@些樣本可能在他腦子里,就是他的經(jīng)驗(yàn),這些經(jīng)驗(yàn)很難去量化成一些句子。如果是這樣的話,AI就只能永遠(yuǎn)是跟著人后面走了。

人通過某種比較好的信息處理的方式獲得一些洞察,然后灌給計(jì)算機(jī)、灌給AI,讓AI在這個(gè)方向上去做得更好,目前是這樣的一個(gè)狀態(tài)。

06

計(jì)算量不是全部

Scaling Law是悲觀的未來

田淵棟:

我覺得這也是跟我之前的一些論斷是比較接近的,因?yàn)槲乙郧耙彩墙舆^采訪,我說:Scaling Law(縮放法則)是一個(gè)悲觀的未來。因?yàn)镾caling Law這個(gè)話題本身是一個(gè)很奇怪的話題。

如果在以前跟大家說,我加指數(shù)級的樣本或者指數(shù)級的計(jì)算能力進(jìn)去之后,我們的表現(xiàn)會上升而且上升的速度是線性的。我覺得以前的機(jī)器學(xué)習(xí)科學(xué)家會覺得這些事情是trivial(微不足道)的。因?yàn)椴还苁裁茨P停愣伎梢宰龀鲞@樣的論斷:往里面塞數(shù)據(jù),然后就會有更好的結(jié)果。

但是我覺得我們真正追求的是:什么樣的模型能夠在這條路線上走得更有效率、更高效、更快,而不是說是滿足于這個(gè)law(法則)是對的。因?yàn)檫@個(gè)law(法則)它給你通向的未來是一個(gè)比較悲觀的未來,你需要用指數(shù)級的樣本塞進(jìn)去才能得到一個(gè)比較好的結(jié)果。如果是這樣的話,總有一天我們地球上所有的資源全部會被用完。地球上所有的能源、所有的電力全部都會被用來訓(xùn)練大模型。在這種情況下,我們是不是還要依賴于這個(gè)能力去改變我們這個(gè)世界?這個(gè)是一個(gè)很大的問題

我覺得某個(gè)時(shí)候可能大家會意識到:計(jì)算量不是全部,我們可能需要對模型有更深的理解。而且這改變應(yīng)該會慢慢會發(fā)生,這是我的一個(gè)想法。

陳茜:

我們就需要一個(gè)更高效的方法來發(fā)展智能,你覺得需要花很長的時(shí)間才會找到這個(gè)解法嗎?

田淵棟:

我覺得大家也在努力吧,所以應(yīng)該會花一些時(shí)間去做這些事情。至少對于現(xiàn)在來說,大語言模型它的能力是很強(qiáng)的,就算我們這個(gè)模型能力現(xiàn)在停滯不前,它對于各行各業(yè)的影響也是非常大的。我覺得至少能夠自動化很大一部分東西,能讓很多人的能力變得更強(qiáng)。我都覺得我加大語言模型,已經(jīng)遠(yuǎn)遠(yuǎn)超過以前的我了。所以這讓我覺得,這上面有很多很多空間可以做。所以我有很大的一個(gè)感慨就是,我覺得本身是一個(gè)新時(shí)代的到來了,就算大語言模型的進(jìn)展不夠快的話,未來至少兩到三年、三到五年這段時(shí)間之內(nèi),還有很多機(jī)會的。

陳茜:

所以你接下來還是想做前沿研究這一塊,還是想去嘗試一下application(應(yīng)用)這一塊?

田淵棟:

當(dāng)然最好是把兩個(gè)合起來,如果我能夠做一個(gè)前沿研究并且這個(gè)前沿研究是自動化的研究,那就很厲害了。我已經(jīng)感覺到我的研究范式,可能都會被自動化的pipeline(項(xiàng)目流程)所代替一部分。不一定是Agent(智能體),但是Agent(智能體)肯定是一個(gè)很重要的因素。

用Agent(智能體)的話可以幫你做很多事情,比如說你也許不需要自己回郵件,或者說你不需要去管理自己的to-do list(待辦事項(xiàng)),或者說你不需要自己去做一些繁瑣的事情。這些東西都可以用計(jì)算機(jī)來幫你做一些自動化,問題是不大的,而肯定是會發(fā)生的。

但是更重要的一個(gè)問題是,AI能不能代替人的一些高級活動?人的一些比較高級的思路,需要人的一些重要的insights(洞察)的活動,多大程度上能夠讓AI幫忙去做成了?有很多難的一些科學(xué)問題,AI能不能把這個(gè)事情做成?現(xiàn)在這個(gè)還不知道。如果能做成的話,反過來也可以對我的研究產(chǎn)生影響。

研究上來說,也許我會成為一個(gè)超級研究員。加了很多AI之后,我一方面能做更好的研究。另一方面,這些工具本身也可以用來造福別的東西。如果是這樣的話,可能會很有意思。


圖片來源:arxiv

陳茜:

你在被拉去救火Llama 4之前,手上在研究什么?

田淵棟:

我們這邊在做一些關(guān)于reasoning(推理)的一些研究,主要是關(guān)于思維鏈的形態(tài)和訓(xùn)練的方式做了一些研究。o1是去年9月份出來的,其實(shí)我們在o1出來之前我們就注意到:非常長的思維鏈它會對整個(gè)模型的Scaling Law(縮放法則)產(chǎn)生影響。

如果處理一個(gè)問題時(shí),你沒有那么長思維鏈的話,它的Scaling Law(縮放法則)是沒有那么理想的,你需要花很多很多樣本才能獲得一個(gè)比較好的結(jié)果。但是如果你有很長的思維鏈,你就會讓這個(gè)模型的Scaling Law的code(代碼)變得非常理想,我可以用比如十分之一的樣本、十分之一的parameter(參數(shù))獲得更好的效果。這個(gè)其實(shí)我們已經(jīng)發(fā)現(xiàn)了,但是然后我們接下來就在思維鏈上做一些各種各樣的變換、各種各樣的探索。包括我們?nèi)ツ昴甑鬃龅挠眠B續(xù)空間來做隱空間推理,這篇文章現(xiàn)在確實(shí)受到了不少的關(guān)注,可能半年就已大概有200多個(gè)引用,很多人愿意follow up(跟進(jìn))做一些探索性的工作,而且確實(shí)能看到一些進(jìn)展。

所以我覺得這些東西都是很有意思的,我們?nèi)ツ暌沧隽私蠨ualformer的這篇文章,比較早地提出來:怎么樣做混合思維模型,怎么樣長思維和短思維放在一起訓(xùn)練,發(fā)現(xiàn)這模型其實(shí)比單純訓(xùn)練長思維、單純訓(xùn)練短思維效果更好?,F(xiàn)在其實(shí)這已經(jīng)成為標(biāo)配了,大家所有的思維模型都有這個(gè)長短思維自適應(yīng)的性質(zhì)。所以應(yīng)該說去年那些研究還是比較跟得上時(shí)代的。


07

回顧FAIR十年生涯

遺憾與收獲

陳茜:

你在FAIR還有什么遺憾嗎?


田淵棟:

這個(gè)話很有意思。我覺得遺憾可能是我在FAIR工程工作應(yīng)該做更多一點(diǎn),可能更好一點(diǎn)。

我其實(shí)剛?cè)AIR的時(shí)候,大概在前幾年可能工程工作做得比較多,我之前的一些項(xiàng)目,像圍棋這些項(xiàng)目都是自己比較多地做工程化的工作。當(dāng)時(shí)我還被批評說,這個(gè)人過來是research scientist(研究科學(xué)家),怎么天天做工程。當(dāng)時(shí)有人跟我說:“別人打開屏幕全是文章,你打開屏幕全是代碼”。

后來我就說,如果研究科學(xué)家不能做工程的話,那我多看看代碼、多看看文章。所以你會發(fā)現(xiàn),我在2015年到2018年這段時(shí)間之內(nèi),基本上工程比較多,2018年之后到現(xiàn)在其實(shí)研究比較多,大概是這樣的一個(gè)狀態(tài)。

這當(dāng)然是跟FAIR當(dāng)時(shí)的指揮棒有關(guān)系,另外一方面就是說我自己也有一些研究上的興趣,想要做一些更多的研究,所以就切過去了。但是現(xiàn)在你會發(fā)現(xiàn),其實(shí)在現(xiàn)在這個(gè)時(shí)代,工程能力強(qiáng)的人反而更受歡迎。所以就很有意思,研究能力強(qiáng)的人也很受歡迎,但是最好是工程能力和研究能力都強(qiáng),這樣是最好的。

陳茜:

那這也太難了。

田淵棟:

對,但是我覺得我可以做到這一點(diǎn)。所以我現(xiàn)在也在更多地做一些工程上的工作,我可以把很多東西再重新拾回來,然后把這些工程事情做好,這都是可以的。

我覺得在FAIR做最大的收獲,應(yīng)該是2018年之后,我在這段時(shí)間之內(nèi)有很多的research taste(科研品位),就是對研究的一些品位和知道怎么做研究的一些方案。而且這些品位在最近幾年的一些文章里面就慢慢體現(xiàn)出來。

所以有品位之后,這對將來的路有很大的幫助,這個(gè)是很重要的。因?yàn)槿绻粋€(gè)只做工程的人,他有一個(gè)比較大的問題是,他可能會只做工程上一些難的問題,但是并不知道這東西有什么用。但是如果有研究的品位的話,意味著就是自己給自己設(shè)一條道路可以一直往前走。這個(gè)對于一個(gè)人的人生來說有非常好的好處。

08

談AI人才戰(zhàn)

不要追逐“稀缺性”

陳茜:

我還有一個(gè)問題非常好奇,現(xiàn)在各個(gè)公司AI的競爭這么激烈,同時(shí)人才搶奪戰(zhàn)也很激烈,包括Meta最新的Lab,花很多很多錢在一個(gè)人的身上。你覺得現(xiàn)在這個(gè)階段,什么樣的AI人才是最稀缺的?

田淵棟:

我覺得這個(gè)完全看每個(gè)人的定位。首先我想糾正一個(gè)點(diǎn):大家不要去想現(xiàn)在誰是最稀缺的,因?yàn)橛锌赡苓^個(gè)兩年,這個(gè)稀缺的定義就發(fā)生變化。你想Yann LeCun坐了那么多年冷板凳,突然之間就拿圖靈獎(jiǎng)。所以我是覺得大家應(yīng)該想一想什么才是自己最想要做的事情,而不是說是去做那些可能公司喜歡的事情,我覺得這個(gè)可能更重要。


因?yàn)檎麄€(gè)過程可能已經(jīng)跟以前不一樣了,對以前的情況來說,比如說市場發(fā)出個(gè)信號:我們需要什么方向的人才。這個(gè)信號可以通過大學(xué)的方式慢慢地往下傳播,比如說最近十年之內(nèi)什么樣的人才最吃香。然后這個(gè)信號傳到大學(xué),大學(xué)會擴(kuò)招對應(yīng)的系、對應(yīng)的老師,一些學(xué)生就會去投報(bào)這個(gè)系,經(jīng)過四年或者更長時(shí)間的培養(yǎng)之后,這些學(xué)生最終滿足市場的要求,大概這樣的一個(gè)過程。以前這個(gè)循環(huán)是走得通的,因?yàn)檎麄€(gè)邏輯、整個(gè)速度是比較慢的,整個(gè)行業(yè)周期可能以10年或者20年的周期來在波動

但是現(xiàn)在可能整個(gè)周期變得非常快,等到你想要學(xué)市場上火熱的技術(shù)之后,全世界的人都在學(xué)。你想到了,別人也想到了。這世界上總有學(xué)得比你快的,總有學(xué)得比你好的,總有馬上上手把事情做成的。所以你很有可能會發(fā)現(xiàn):你學(xué)了半年、一年之后,你做不過別人,你還是沒有辦法出頭。這樣的話,市場發(fā)生了變化,也許明年就不是某個(gè)方面能力最重要的一個(gè)時(shí)代了,可能換了別的東西。你這時(shí)候再去學(xué),就可能一直會跟在別人屁股后面走。

所以也許以后大家會突然發(fā)現(xiàn):與其聽從市場的號令還不如說我自己做自己想做的事情。一個(gè)是做得很開心,另外就是說一旦這個(gè)東西被人發(fā)現(xiàn)了,它的收益是很大的。這個(gè)當(dāng)然是理想情況了,實(shí)際情況肯定是會兩邊要結(jié)合。你肯定會希望你自己判斷某個(gè)方向在將來一段時(shí)間之內(nèi)有沒有用,再加上你自己的愛好,最后兩個(gè)拼起來得到一個(gè)比較有意思的組合,之后你可以在上面多花功夫。所以說非常難去做判斷,因?yàn)橥耆茨阕约旱哪芰Α?/p>

陳茜:

我感覺你還是一個(gè)非常有理想主義的人,上一次播客也跟你聊過,感覺FAIR之前也是一個(gè)非常有理想主義的團(tuán)隊(duì)。但是在當(dāng)下,我覺得市場有點(diǎn)扭曲了,因?yàn)楦偁幪貏e激烈的時(shí)候,可能很多的文化、很多的信仰就會出現(xiàn)一點(diǎn)的偏差。你覺得在現(xiàn)在的這樣的情況下,還存在說會有比較理想化的research lab(研究實(shí)驗(yàn)室)嗎?可能Ilya Sutskever他的團(tuán)隊(duì)、Mira的團(tuán)隊(duì)被認(rèn)為是比較有理想化主義的。他們的對面就是Sam Altman,非常的商業(yè)化、很激進(jìn)。你怎么去看這之間的平衡呢?

田淵棟:

我覺得首先是不要把大廠當(dāng)成鐵板一塊,因?yàn)榇髲S里也有很多的組,他們里面也有研究團(tuán)隊(duì),這些團(tuán)隊(duì)本身也會有一些科研精神和研究自由。FAIR只是一個(gè)非常出名的地方,但是其實(shí)有很多地方雖然沒有像FAIR那么有名,但是它們也有一個(gè)自由空間可以做研究。就算在Meta內(nèi)部也有不少的組,他們有做研究的空間。我有很多合作者在Meta里面,他們也做一些研究。所以這個(gè)問題我不覺得是個(gè)問題。

也許就算FAIR可能因?yàn)檫@次的原因,或者另外原因?qū)е乱院罂赡軟]有再那么科研化了,但是還是會有很多地方可以做。因?yàn)檫@個(gè)問題很前沿,所以甚至你做startup(初創(chuàng)公司)的時(shí)候,你也肯定在有些地方上面會有些事情可以做。

我們在討論研究的時(shí)候,是指這個(gè)過程本身:找到一些新的難題的解決方案,這叫研究。也可以叫Re-Search(研究) ,其實(shí)它是search(探索),不是一個(gè)抽象的概念。所以我覺得有很多地方可以做,不是鐵板一塊說:大廠不能做了,小廠可以做,不是那么簡單。是完全取決于哪個(gè)組、哪個(gè)人、有什么樣的資源、什么樣的東西,這些人放在一起會有什么樣產(chǎn)生化學(xué)反應(yīng)等等??赡芙裉炜梢宰?、明天不能做?;蛘哒f一段時(shí)間之內(nèi)它有這個(gè)空間,換一個(gè)其他時(shí)間就沒有這個(gè)空間。所以無數(shù)人都在思考這個(gè)問題。也許會在這段時(shí)間之內(nèi),肯定出一篇新的工作,去影響整個(gè)領(lǐng)域。

所以研究永遠(yuǎn)是會繼續(xù)進(jìn)行的,只是說它的形式可能會變成更像游擊戰(zhàn)這種形式。并不是說只有一些非常知名的研究機(jī)構(gòu)他們會做研究,他們會說:我付出我們所有的時(shí)間和精力做研究??赡懿皇沁@樣,你總會發(fā)現(xiàn)有很多有理想的人、有理想的小的組織在繼續(xù)做他們想做的事情。不是0或1,會有很多灰色的地方


硅谷101視頻節(jié)目截屏

陳茜:

最后一個(gè)問題是:你的下一步是什么?

田淵棟:

下一步我剛才說了還沒確定,所以還在討論中。因?yàn)楝F(xiàn)在離被裁還沒到一個(gè)禮拜,所以也會有一些考慮和想法。

剛才問的是我想去做應(yīng)用,還是想去繼續(xù)做我的一些科研研究,我回答當(dāng)然是最好兩個(gè)拼起來。我們能找一個(gè)辦法,能夠賦能我的科研研究的同時(shí),本身也是能夠做很多別的事情。

陳茜:

有這樣的機(jī)會存在嗎?

田淵棟:

我不知道,但是一般來說是這樣的:我們先設(shè)定一個(gè)高的目標(biāo),然后再去看。因?yàn)橐话銇碚f人會比較現(xiàn)實(shí),說有這樣的機(jī)會我就不用想了。但其實(shí)應(yīng)該是倒過來,你先想一個(gè)不可能實(shí)現(xiàn)的目標(biāo),然后再去想有什么東西可以去支撐,這可能會讓你有更好的方向可以走。

陳茜:

好的,那就期待你接下來宣布你的下一步動向了。

以上就是我們對田淵棟的采訪全部內(nèi)容,我們也期待他的下一步動向,我非常希望他能夠找到滿足前沿研究和工程應(yīng)用兩者平衡的新角色,我想,這也是AI的前沿工程師們都在探尋的路。祝他好運(yùn)。

你們認(rèn)為這樣的AI工作存在嗎?歡迎大家在評論區(qū)留下你的想法。

視頻有視覺和音樂的加持,更能呈現(xiàn)出這些精彩的故事細(xì)節(jié)。請?zhí)D(zhuǎn)至硅谷101【視頻號】收看完整版

【視頻播放渠道】

國內(nèi):B站|騰訊|視頻號|西瓜|頭條|百家號|36kr|微博|虎嗅

海外:Youtube

聯(lián)系我們:video@sv101.net

【創(chuàng)作團(tuán)隊(duì)】

監(jiān)制|泓君 陳茜

撰稿/主持 |陳茜

剪輯|橘子

動效|踹 AK12

運(yùn)營|王梓沁 孫澤平 朱婕

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
犧牲五人,僅存一人:電視劇《烏龍山剿匪記》用鮮血寫就的勝利

犧牲五人,僅存一人:電視劇《烏龍山剿匪記》用鮮血寫就的勝利

白羽居士
2025-12-25 19:14:10
扣押中國油輪后,美方發(fā)現(xiàn)中國貨輪填滿導(dǎo)彈,白宮的說法終于變了

扣押中國油輪后,美方發(fā)現(xiàn)中國貨輪填滿導(dǎo)彈,白宮的說法終于變了

書中自有顏如玉
2025-12-27 13:41:09
沉默五天,蔡英文重磅發(fā)文,臺北全城已警戒,國民黨揪出罪惡根源

沉默五天,蔡英文重磅發(fā)文,臺北全城已警戒,國民黨揪出罪惡根源

現(xiàn)代小青青慕慕
2025-12-27 15:04:15
“飛人”劉翔徹底躺平,42歲每天游山玩水,看他曬世界各地游玩照

“飛人”劉翔徹底躺平,42歲每天游山玩水,看他曬世界各地游玩照

可樂談情感
2025-12-25 15:47:33
我調(diào)任市委書記后,被初戀嘲笑,秘書叫我書記后她驚呆了

我調(diào)任市委書記后,被初戀嘲笑,秘書叫我書記后她驚呆了

秋風(fēng)專欄
2025-12-23 15:18:07
這次,姜昆的"澄清"徹底淪為笑話,一份天氣預(yù)報(bào),把他們?nèi)鲑u了

這次,姜昆的"澄清"徹底淪為笑話,一份天氣預(yù)報(bào),把他們?nèi)鲑u了

千言娛樂記
2025-12-27 19:56:34
深圳創(chuàng)投圈“搶人”實(shí)錄:機(jī)構(gòu)蹲守大疆樓下,離職就拿2000萬

深圳創(chuàng)投圈“搶人”實(shí)錄:機(jī)構(gòu)蹲守大疆樓下,離職就拿2000萬

財(cái)經(jīng)AI湃
2025-12-27 10:01:14
凌晨,發(fā)射成功!

凌晨,發(fā)射成功!

環(huán)球時(shí)報(bào)國際
2025-12-27 08:22:48
放棄中立選邊站,普京盟友準(zhǔn)備和中國翻臉?盧卡申科向美遞投名狀

放棄中立選邊站,普京盟友準(zhǔn)備和中國翻臉?盧卡申科向美遞投名狀

知鑒明史
2025-12-26 19:21:37
斬首!美軍圣誕夜空襲尼日利亞,據(jù)稱尼軍70%的武器裝備是中國造

斬首!美軍圣誕夜空襲尼日利亞,據(jù)稱尼軍70%的武器裝備是中國造

達(dá)文西看世界
2025-12-27 14:23:35
12月27日俄烏:澤連斯基赴美,特朗普憤怒回應(yīng)

12月27日俄烏:澤連斯基赴美,特朗普憤怒回應(yīng)

山河路口
2025-12-27 17:49:14
人口告別世界第一?二孩催生無效后,國家終于向住房出手了

人口告別世界第一?二孩催生無效后,國家終于向住房出手了

春秋論娛
2025-12-25 07:11:24
烏克蘭最美體操冠軍,放棄國籍做中國媳婦,37歲生二胎仍似少女

烏克蘭最美體操冠軍,放棄國籍做中國媳婦,37歲生二胎仍似少女

相思賦予誰a
2025-12-10 02:34:18
迷人的大腿:生命的等高線

迷人的大腿:生命的等高線

疾跑的小蝸牛
2025-12-19 07:25:05
馬未都:香港寧愿要20萬菲傭,也不接受內(nèi)地保姆,原因很簡單

馬未都:香港寧愿要20萬菲傭,也不接受內(nèi)地保姆,原因很簡單

犀利辣椒
2025-12-27 06:42:38
呂良偉70大壽:楊受成彎腰舉杯、章小惠胖出水桶腰、王晶鍋蓋頭

呂良偉70大壽:楊受成彎腰舉杯、章小惠胖出水桶腰、王晶鍋蓋頭

小小李?yuàn)?/span>
2025-12-25 20:50:09
2026年,三年期定存利率:建行、郵儲、農(nóng)商銀行,哪個(gè)銀行最高?

2026年,三年期定存利率:建行、郵儲、農(nóng)商銀行,哪個(gè)銀行最高?

平說財(cái)經(jīng)
2025-12-27 17:46:18
一場大裁員正在席卷中國的銀行!金飯碗,也不香了,什么原因?

一場大裁員正在席卷中國的銀行!金飯碗,也不香了,什么原因?

小鬼頭體育
2025-12-26 13:05:21
積極信號釋放!老百姓:建議把電動輕便摩托車劃歸為非機(jī)動車

積極信號釋放!老百姓:建議把電動輕便摩托車劃歸為非機(jī)動車

電動車小辣椒
2025-12-27 07:05:20
78歲的克林頓和76歲的希拉里:一個(gè)老成骷髏手發(fā)抖,一個(gè)中氣十足

78歲的克林頓和76歲的希拉里:一個(gè)老成骷髏手發(fā)抖,一個(gè)中氣十足

小熊侃史
2025-12-26 11:22:19
2025-12-27 20:44:49
硅谷101 incentive-icons
硅谷101
從這里駛向未來
134文章數(shù) 102關(guān)注度
往期回顧 全部

科技要聞

小米也漲價(jià)了!業(yè)界稱終端再不漲明年必虧

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

體育要聞

NBA教練圈的布朗尼,花了22年證明自己

娛樂要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財(cái)經(jīng)要聞

注意,開始拉物價(jià)了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

家居
藝術(shù)
手機(jī)
親子
公開課

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

藝術(shù)要聞

日本建筑大師出手,為臺灣孩子打造知識地標(biāo)!

手機(jī)要聞

小米玄戒O1出貨百萬顆,十年磨一劍!自研芯片這條路,小米很清醒

親子要聞

1歲多的小朋友上托管班,吃飯時(shí)自己拿起勺子就“開炫”,網(wǎng)友:這小孩是來報(bào)恩的吧

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版