国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Andrej Karpathy最新播客:Token沒用完讓人焦慮,像患上AI精神病

0
分享至



機(jī)器之心編輯部

近日,AI 領(lǐng)域知名專家 Andrej Karpathy 做客一檔播客節(jié)目,在長(zhǎng)達(dá)一個(gè)小時(shí)的對(duì)談中,他不僅回顧了自己近一年的工作狀態(tài),也系統(tǒng)闡述了一個(gè)正在迅速成形的新范式:以 Agent 為核心的軟件生產(chǎn)方式重構(gòu)。

Andrej Karpathy 直言自己「病了」,患上了嚴(yán)重的「AI 精神病」。

從去年 12 月開始,他再也沒有手寫過一行代碼。每天 16 小時(shí),他都在和 Agent 對(duì)話,同時(shí)并行驅(qū)動(dòng)十多個(gè)任務(wù);甚至當(dāng) token 沒被「用滿」時(shí),他會(huì)感到不安。這種對(duì) AI 的高度依賴,他稱之為「AI 精神病」(AI psychosis)。

Karpathy 判斷,App 終將消失。設(shè)備只需開放 API,Agent 會(huì)成為新的「操作系統(tǒng)」,把音響、燈光、空調(diào)、窗簾、安防全部串聯(lián)起來,甚至只需三段提示詞,就能在一個(gè) WhatsApp 對(duì)話里完成統(tǒng)一控制。

未來的用戶將不再是人,而是代表人行動(dòng)的 Agent。整個(gè)軟件與商業(yè)體系,都必須圍繞 Agent 進(jìn)行重構(gòu)。

甚至連組織本身,也在被重新定義:一個(gè)研究機(jī)構(gòu),本質(zhì)上就是一組 markdown 文件 —— 角色、流程、協(xié)作方式,全都是「代碼」;而凡是代碼,就可以被持續(xù)優(yōu)化。



播客地址:https://music.youtube.com/watch?v=kwSVtQ7dziU

以下為播客全部?jī)?nèi)容:

Karpathy 直言患上了嚴(yán)重的「AI 精神病」

主持人:大家好,今天我們邀請(qǐng)到了 Andrej Karpathy。這期節(jié)目?jī)?nèi)容會(huì)非常豐富,我們會(huì)聊到代碼 Agent、工程與 AI 研究的未來、更多人如何參與科研、機(jī)器人領(lǐng)域的進(jìn)展,以及他對(duì)于 Agent 如何走向現(xiàn)實(shí)世界、以及下一階段教育形態(tài)的判斷。

最近這幾個(gè)月,AI 真的非常令人興奮。

Karpathy:確實(shí)可以這么說。

主持人:我記得有一次我走進(jìn)辦公室,看到你完全沉浸在狀態(tài)里。我問你在做什么,你說:「我現(xiàn)在必須每天工作 16 個(gè)小時(shí)…… 甚至寫代碼都已經(jīng)不是一個(gè)合適的說法了。」你說你是在:不斷把自己的意圖表達(dá)給 Agent,讓它們?nèi)?zhí)行、去實(shí)現(xiàn)。因?yàn)槟芰Πl(fā)生了一次躍遷。那到底發(fā)生了什么?能講講你的體驗(yàn)嗎?

Karpathy:我感覺自己進(jìn)入了一種持續(xù)的狀態(tài),我現(xiàn)在也經(jīng)常還在這種狀態(tài)里,可以說是一種「AI 精神病」(AI psychosis)。因?yàn)閷?duì)一個(gè)個(gè)體來說,能實(shí)現(xiàn)的事情突然被極大地釋放了。過去,你的瓶頸是打字速度,是你自己寫代碼的效率;但現(xiàn)在,有了這些 Agent,這個(gè)瓶頸基本被打破了。我覺得大概是在去年 12 月,發(fā)生了一次非常明顯的變化,就像某個(gè)開關(guān)被撥動(dòng)了一樣。我的工作方式,從原來大概是 80% 自己寫代碼、20% 交給 Agent,變成了 20% 自己寫代碼、80% 交給 Agent。而現(xiàn)在,甚至已經(jīng)遠(yuǎn)遠(yuǎn)不止 20/80 了。

事實(shí)上,我大概從 12 月開始,就幾乎沒有再親手寫過一行代碼了。這是一個(gè)極其巨大的變化。

我甚至試著跟我父母講這件事,但我不覺得普通人真的意識(shí)到了這件事情已經(jīng)發(fā)生,或者理解它的沖擊有多大。

如果你現(xiàn)在隨便找一個(gè)軟件工程師,看看他在工位上做什么,你會(huì)發(fā)現(xiàn):他們構(gòu)建軟件的默認(rèn)工作流,已經(jīng)徹底改變了,而這一切,幾乎就在去年 12 月發(fā)生。

我一直在試圖搞清楚一件事:到底什么是可能的,這個(gè)邊界又在哪里。比如,我不再滿足于只運(yùn)行一個(gè) Agent 會(huì)話,無論是 Claude Code、Codex,還是其他 agent harness,而是開始思考,如何同時(shí)運(yùn)行多個(gè) Agent,如何去調(diào)度它們、組織它們,讓它們真正協(xié)同工作。同時(shí),我也在反復(fù)追問:這些所謂的「claw」,也就是類 Agent 系統(tǒng),本質(zhì)上到底是什么?我又該如何真正把它們用到極致。

但問題在于,一切都來得太快了。新的東西不斷涌現(xiàn),幾乎每天都在刷新認(rèn)知。我非??释驹谶@個(gè)浪潮的最前沿,但與此同時(shí),我也清楚地意識(shí)到,自己其實(shí)還沒有真正站在那里。我看到 X 上有很多人在做各種嘗試,有些想法確實(shí)很驚艷,但也有不少并不成熟。然而,正是這種混雜的探索狀態(tài),讓我變得更加焦慮,好像如果不拼命往前沖、不搶占最前排的位置,就會(huì)被甩下。

這種感覺,甚至有點(diǎn)讓人不安。

所以我覺得,我現(xiàn)在確實(shí)處在一種「AI 精神病」的狀態(tài)里:不斷地去探索什么是可能的,因?yàn)檫@個(gè)空間,本質(zhì)上還是一片完全未被探索的領(lǐng)域。

主持人:如果你感到緊張,那我們其他人也都一樣緊張。那么你現(xiàn)在怎么看待自己去探索或做項(xiàng)目的能力?它的瓶頸在哪里?

Karpathy:是啊,它到底受限于什么?我覺得幾乎受限于一切。很多時(shí)候,即便事情沒做成,你也會(huì)覺得很大程度上是能力問題。不是說能力本身不存在,而是你還沒找到一種方法,把現(xiàn)有的一切串聯(lián)起來。

比如說,可能是我沒有給 Agent 寫出足夠好的指令,或者默認(rèn)配置文件沒調(diào)好;也可能是我沒有接入一個(gè)足夠好的記憶工具之類的。所以一旦跑不通,就會(huì)感覺問題出在自己能力不夠,于是你就會(huì)開始想,怎么把這些系統(tǒng)編排起來之類的。

你會(huì)很想成為那種人,比如 Peter Steinberger。他很有名,有一張很經(jīng)典的照片:他坐在一堆顯示器前,用的是 Codex,一屏幕全是各種 Codex agent。如果你提示詞寫得對(duì)、選擇高強(qiáng)度模式,這些 agent 大概每個(gè)跑 20 分鐘,就能各自把一個(gè) repo 拉下來、開始干活。于是他就在這些 agent 之間來回切換,不斷給它們追加指令。

這種感覺就像,你開始用更大粒度的宏操作在行動(dòng)。不再是寫一行代碼、寫一個(gè)函數(shù),而是這是一個(gè)新功能,交給 Agent 1;這是另一個(gè)不會(huì)互相干擾的功能,交給 Agent 2;然后你再根據(jù)自己對(duì)代碼質(zhì)量的在意程度,去審查它們的輸出。

你開始思考的是,我可以用哪些宏操作去操控整個(gè)代碼倉庫。比如,一個(gè) agent 在做調(diào)研,一個(gè)在寫代碼,一個(gè)在為新實(shí)現(xiàn)制定方案,一切都在以這種宏觀動(dòng)作的方式,在你的倉庫上同時(shí)發(fā)生。

而你要做的,就是不斷練習(xí),變得非常擅長(zhǎng)這種模式,形成一種肌肉記憶。這件事其實(shí)非常有成就感,首先它是真的能跑通,其次它本身也變成了一項(xiàng)全新的學(xué)習(xí)內(nèi)容。

所以,也正因?yàn)檫@樣,才會(huì)出現(xiàn)那種有點(diǎn)上頭、甚至像精神錯(cuò)亂一樣的狀態(tài)。

沒把 token 的吞吐量用到最大,有些焦慮

主持人:是的,我確實(shí)有一種本能:每當(dāng)我在等待某個(gè) agent 完成任務(wù)的時(shí)候,很自然就會(huì)覺得,那我還可以再多做點(diǎn)事情。對(duì)吧?如果我還有更多 token 可用,那我就應(yīng)該把所有任務(wù)都并行起來。

但這其實(shí)挺讓人有壓力的。因?yàn)槿绻悴]有被 token 的使用能力明顯限制住,那么你就會(huì)意識(shí)到,系統(tǒng)真正的瓶頸其實(shí)是你自己。只要你沒有把它的能力用到極限,你就成了那個(gè)限制系統(tǒng)發(fā)揮最大能力的人。

Karpathy:如果你連訂閱資源都沒有用滿,那就說明你還沒有把系統(tǒng)能力發(fā)揮到極致。理想情況下,你應(yīng)該同時(shí)調(diào)度多個(gè) agent,比如在 Codex 上的額度用完了,就切換到 Claude 或其他云服務(wù)之類的。我自己也在嘗試這樣做。

而且當(dāng)我發(fā)現(xiàn)還有訂閱額度沒用完的時(shí)候,會(huì)有一種緊張感。這意味著我沒有把 token 的吞吐量用到最大。

其實(shí)我在讀博的時(shí)候也有類似的體驗(yàn):當(dāng)你的 GPU 沒在跑的時(shí)候,你會(huì)感到焦慮,因?yàn)槟銢]有把手頭的算力用滿,沒有把可用的 FLOPs 壓榨到極限。但現(xiàn)在已經(jīng)不再是算力的問題了,而是 token 的問題。

所以現(xiàn)在的問題變成了:你的 token 吞吐量是多少?你到底在調(diào)動(dòng)多大的 token 吞吐能力?

主持人:我其實(shí)會(huì)覺得,這一點(diǎn)很有意思:在過去至少十年里,很多工程任務(wù)中,人們并不會(huì)覺得自己受限于算力,對(duì)吧?但現(xiàn)在整個(gè)行業(yè)都開始有這種感覺了,覺得自己是被資源限制的。

而當(dāng)這種能力出現(xiàn)巨大躍遷之后,你會(huì)突然意識(shí)到,問題已經(jīng)不再是我能不能獲得算力了,而是我自己成了那個(gè)約束條件。本質(zhì)上變成了能力問題。

Karpathy:但這其實(shí)也很有賦能感,因?yàn)檫@意味著你是可以不斷變強(qiáng)的。所以我覺得這件事很容易讓人上癮,因?yàn)槊慨?dāng)你掌握一個(gè)新方法,就像解鎖了新的能力一樣。

我覺得大家其實(shí)都在往更高的抽象層走。也就是說,問題不再是你和一個(gè) agent 的單次交互,而是多個(gè) agent 之間如何協(xié)作、如何形成團(tuán)隊(duì),這才是大家都在探索的方向。

Karpathy 對(duì) OpenClaw 的看法

另外,我覺得 Claw 也是一個(gè)很有意思的方向。這里說的 Claw,其實(shí)是一種把持續(xù)性提升到新層級(jí)的系統(tǒng)。它不是那種需要你一直盯著、實(shí)時(shí)交互的東西,而是更像一個(gè)獨(dú)立運(yùn)行的小環(huán)境,有自己的 sandbox,可以在你不看的時(shí)候,持續(xù)替你做事情。

同時(shí),它還可能具備更復(fù)雜的記憶系統(tǒng),而這些在當(dāng)前的 agent 里其實(shí)還沒有很好實(shí)現(xiàn)。比如說,像 OpenClaw 這樣的系統(tǒng),在我看來,它的記憶能力就比默認(rèn)的 agent 要復(fù)雜得多。默認(rèn)的 agent 往往只是當(dāng)上下文不夠時(shí)做一些壓縮處理,而不是一種真正長(zhǎng)期、結(jié)構(gòu)化的記憶體系。

主持人:我認(rèn)為,正是這一點(diǎn)在用戶群體中產(chǎn)生了更強(qiáng)的共鳴,相比之下,單純提供更廣泛的工具訪問權(quán)限可能就沒有這種效果。

Karpathy:關(guān)于 OpenClaw…… 嗯,我想說的內(nèi)容還挺多的。

Peter 確實(shí)做得非常出色。我最近見過他,也和他聊過這件事。他本人很謙虛,但我覺得他其實(shí)是在五個(gè)不同方向上同時(shí)做了創(chuàng)新,并把它們整合在一起。

比如說,他在文檔設(shè)計(jì)上花了很多心思,真的塑造出了一種有吸引力、有個(gè)性的風(fēng)格。我覺得現(xiàn)在很多 agent 在這一點(diǎn)上其實(shí)做得不太好。反而像 Claude 的人格就做得挺不錯(cuò),更像一個(gè)隊(duì)友,會(huì)和你一起興奮、一起投入。

相比之下,Codex 就要干很多。這也挺有意思的,因?yàn)樵?ChatGPT 里,Codex 的表現(xiàn)是更積極、甚至有點(diǎn)討好用戶的。但作為編程 agent,Codex 就顯得非常冷淡,好像并不關(guān)心你在做什么。它更像是在說它已經(jīng)實(shí)現(xiàn)了功能。但你會(huì)忍不住想,它真的理解我們?cè)跇?gòu)建什么嗎?

是的,它確實(shí)不會(huì)那樣表現(xiàn)。另外一點(diǎn)是,比如像 Claude,我覺得它在討好程度上的把控是比較到位的。當(dāng)它夸我的時(shí)候,我會(huì)覺得多少是配得上的。因?yàn)橛袝r(shí)候我給它的只是一些還沒有完全想清楚的想法,它的反應(yīng)不會(huì)特別強(qiáng)烈,只是說可以實(shí)現(xiàn)。但當(dāng)我自己也覺得這是個(gè)不錯(cuò)的想法時(shí),它確實(shí)會(huì)更明顯地給予認(rèn)可。

于是就會(huì)出現(xiàn)一種有點(diǎn)奇怪的感覺,好像我在努力去贏得它的認(rèn)可一樣。所以我確實(shí)覺得,人格這件事非常重要,而很多其他工具可能沒有那么重視這一點(diǎn)。我覺得在這方面,Peter 是非常在意的,這一點(diǎn)他是做對(duì)了。

再加上記憶系統(tǒng),以及他本身也是在享受這個(gè)過程,還有通過一個(gè) WhatsApp 窗口統(tǒng)一接入所有自動(dòng)化能力,這些組合在一起,就形成了一種很特別的使用體驗(yàn)。

Karpathy 用 Claw 重寫家庭操作系統(tǒng)

主持人:除了軟件工程之外,你個(gè)人是否曾利用你的 Claw 做過什么,并且覺得既有趣又好玩的事情?

Karpathy:是的,所以在一月份的時(shí)候,我也經(jīng)歷了一段類似 Claw 上頭的階段。我自己做了一個(gè) Dobby,基本上用來管理我家里的各種設(shè)備。

我當(dāng)時(shí)是用 agent 去自動(dòng)發(fā)現(xiàn)我家局域網(wǎng)里的所有智能家居子系統(tǒng),結(jié)果讓我挺意外的是,這件事幾乎是開箱即用就成功了。比如我只是跟它說,我家里應(yīng)該有 Sonos,你能不能幫我找一下。然后它就開始掃描整個(gè)局域網(wǎng)里的設(shè)備,相當(dāng)于對(duì)所有連接的設(shè)備做了一次 IP 掃描,最后真的找到了 Sonos 系統(tǒng)。

更離譜的是,它發(fā)現(xiàn)這個(gè)系統(tǒng)居然沒有任何密碼保護(hù),就直接連進(jìn)去了,然后告訴我你家里有這些 Sonos 設(shè)備。接著它又去做了一些網(wǎng)頁搜索,最后找到了對(duì)應(yīng)的 API 接口。

然后它問我要不要試一下,我當(dāng)時(shí)都有點(diǎn)震驚,說你已經(jīng)做到這一步了嗎。然后我說那你能不能在書房放點(diǎn)音樂。結(jié)果它真的做到了,音樂就響起來了。我當(dāng)時(shí)完全不敢相信這一切就這樣發(fā)生了。

我真的不敢相信,我只是打了一句你能幫我找到我的 Sonos 嗎,然后它就真的放出音樂了。它對(duì)燈光也是一樣的操作?;旧暇褪?,它自己「黑」進(jìn)去,搞清楚整個(gè)系統(tǒng),構(gòu)建了 API,還做了一個(gè)控制面板,讓我可以看到家里所有燈的控制中心。

然后它就可以幫我開關(guān)燈之類的,比如我跟它說 Dobby,該睡覺了,那么它就會(huì)把所有燈都關(guān)掉。類似這樣,它現(xiàn)在可以控制我家里的燈光、空調(diào)系統(tǒng)、窗簾、泳池和溫泉設(shè)備,還有安防系統(tǒng)。

我在屋外裝了一個(gè)攝像頭,只要有人靠近,它就會(huì)觸發(fā)檢測(cè)。首先是變化檢測(cè),一旦檢測(cè)到變化,就會(huì)調(diào)用一個(gè)視覺模型去分析畫面。然后它會(huì)通過 WhatsApp 給我發(fā)消息,附上一張外面的圖片,并告訴我,比如剛剛有一輛卡車停在門口,你可能需要看一下,可能有個(gè)包裹之類的。然后 Dobby 就會(huì)直接給我發(fā)消息。

這一切真的非常不可思議?,F(xiàn)在 Dobby 相當(dāng)于是整個(gè)家的控制中樞,我通過 WhatsApp 和它溝通。用這種宏操作去管理整個(gè)家庭,其實(shí)非常有意思。

我還沒有把它推到更極致的用法,我知道有些人玩得更瘋狂。但對(duì)我來說,僅僅是家庭自動(dòng)化這一點(diǎn)就已經(jīng)很有用了。以前我要用六七個(gè)不同的 App 來控制這些設(shè)備,現(xiàn)在完全不需要了,Dobby 可以用自然語言統(tǒng)一控制一切。這真的很驚人。

所以我覺得,我甚至還沒有完全把這個(gè)范式用到極限,但它已經(jīng)非常有幫助,也非常讓人興奮。

主持人:你覺得這是否在某種程度上反映了人們從用戶體驗(yàn)角度出發(fā),對(duì)軟件所抱持的期望?畢竟,人們往往很容易忽略這樣一個(gè)事實(shí):學(xué)習(xí)新軟件,尤其是全新的用戶界面(UI),其實(shí)是需要耗費(fèi)人力精力的。

Karpathy:我覺得某種程度上這是對(duì)的。這更像是從人們心中對(duì) AI 應(yīng)該是什么樣子倒推回去設(shè)計(jì)。因?yàn)槿藗兡X海里的 AI,其實(shí)并不是原始意義上的 LLM。從本質(zhì)上講,LLM 只是一個(gè)生成 token 的系統(tǒng),不斷輸出下一個(gè) token。

但人們想象中的 AI,更像是一個(gè)有人格、有身份的存在,你可以和它交流,它會(huì)記住事情,它像是一個(gè)在 WhatsApp 背后的實(shí)體,這種形態(tài)對(duì)人來說更容易理解。

所以在某種程度上,這是在匹配用戶已經(jīng)形成的預(yù)期,讓 AI 的行為更符合人們認(rèn)為一個(gè)助手應(yīng)該如何運(yùn)作。但在底層,其實(shí)有大量技術(shù)細(xì)節(jié)在支撐這一切,而單純的 token 生成這種原始機(jī)制,對(duì)大多數(shù)人來說太底層、太抽象,很難被當(dāng)作真正的 AI 來理解。

大量定制化、碎片化的 App,有點(diǎn)被過度生產(chǎn)了

主持人:沒錯(cuò),我想這恰恰反映了我們對(duì) AI 本質(zhì)的理解方式,將它描述為像 Dobby 那樣的角色,或是某個(gè)具體的人格形象,顯然能引起人們的強(qiáng)烈共鳴。此外,我認(rèn)為你為了實(shí)現(xiàn)家庭自動(dòng)化,將六套截然不同的軟件系統(tǒng)整合為一的做法,其實(shí)引出了另一個(gè)值得深思的問題:人們真的需要如今市面上林林總總的各類軟件嗎?確實(shí)如此。因?yàn)槲蚁胩岢鲞@樣一個(gè)觀點(diǎn):誠然,你擁有了相應(yīng)的硬件設(shè)備,但你卻徹底舍棄了原本附帶的軟件層,或者說是用戶體驗(yàn)(UX)層。你覺得這真的是人們所期望的嗎?

Karpathy:是的,我覺得有一種感覺是,現(xiàn)在應(yīng)用商店里這些用于控制智能家居設(shè)備的 App,在某種意義上其實(shí)不應(yīng)該存在。是不是本來就應(yīng)該只是提供 API,然后由 agent 直接去調(diào)用?而且這樣一來,我可以實(shí)現(xiàn)各種自動(dòng)化組合,這是任何單個(gè) App 都做不到的。agent 可以統(tǒng)一調(diào)度這些工具,調(diào)用正確的接口,完成相當(dāng)復(fù)雜的任務(wù)。

從這個(gè)角度看,確實(shí)指向一個(gè)趨勢(shì):現(xiàn)在這種大量定制化、碎片化的 App,其實(shí)有點(diǎn)被過度生產(chǎn)了。因?yàn)?agent 會(huì)把它們壓扁,所有能力都應(yīng)該以 API 的形式暴露出來,而 agent 作為智能的膠水層,去調(diào)用這些工具,把各個(gè)部分串聯(lián)起來。

再比如我的跑步機(jī),它有自己的 App,我想記錄自己做有氧運(yùn)動(dòng)的頻率。但我不想每次都登錄一個(gè)網(wǎng)頁界面,走一套復(fù)雜流程。這些本來就應(yīng)該通過 API 直接完成。這其實(shí)就是在走向一種 agent 優(yōu)先的互聯(lián)網(wǎng)形態(tài),或者說 agent first 的工具體系。

所以我覺得整個(gè)行業(yè)都需要在很多層面進(jìn)行重構(gòu)。未來的客戶不再是人類,而是代表人類行動(dòng)的 agent。這種重構(gòu)的規(guī)模,在某種意義上會(huì)非常巨大。

有些人會(huì)反駁,說普通人真的會(huì)去做這種底層操作嗎?是不是要讓大家去寫類似字節(jié)碼的東西?但我覺得,這只是當(dāng)前階段的技術(shù)形態(tài)。現(xiàn)在確實(shí)還需要一些類似底層操作的過程,我自己也在參與、在和系統(tǒng)一起調(diào)試。

但我隱約感覺,這些我剛才說的能力,本來就應(yīng)該是免費(fèi)的。在未來一兩年甚至三年內(nèi),這些事情會(huì)變得非常簡(jiǎn)單,成為基礎(chǔ)能力。任何 AI,甚至開源模型,都可以輕松完成這些事情。

主持人:你應(yīng)該能夠非常輕松地將非技術(shù)人員的意圖轉(zhuǎn)化為相應(yīng)的表達(dá)。但即便如此,你還是需要做一些設(shè)計(jì)決策,對(duì)吧?比如我們剛才提到的一些具體實(shí)現(xiàn)方式。

Karpathy:不過我感覺,隨著時(shí)間推移,這些門檻會(huì)不斷降低,最后會(huì)變成軟件在替你完成一切,有點(diǎn)像一種 Claw 在后臺(tái)處理所有細(xì)節(jié),而你并不需要參與其中。Claw 自己有一套運(yùn)行機(jī)制,會(huì)把事情搞定,然后只把界面呈現(xiàn)給你,你只需要用自然語言去表達(dá)需求。

主持人:那為什么你還沒有把自己在 Claw 上的能力推到極限?是因?yàn)樵谧龈匾捻?xiàng)目,比如自動(dòng)化研究,還是說你正在逐步走向精通的過程中,或者有其他原因?

Karpathy:我感覺主要還是因?yàn)樘菀妆桓鞣N事情分散注意力了。我之前大概花了一周時(shí)間在 Claw 上,但現(xiàn)在反而有更多待辦事項(xiàng)了。

我也沒有真正把它用在郵箱、日歷這些更核心的場(chǎng)景上,甚至都沒有接入。一方面是因?yàn)檫@套東西還很新,還有點(diǎn)粗糙,我對(duì)它還是有些不放心;另一方面也是出于安全和隱私的考慮,我不太愿意一下子把自己的整個(gè)數(shù)字生活都交給它。

所以某種程度上,這確實(shí)限制了我繼續(xù)深入使用它,這可能是最主要的原因。同時(shí)也有一部分原因是,我確實(shí)有點(diǎn)被各種事情分散了精力。之前那一周幾乎都在玩 Claw,但之后其他事情又不斷涌進(jìn)來。

把研究員移出循環(huán)

主持人:究竟是什么…… 我是說,你曾提到過,能夠讓智能體(Agents)去執(zhí)行訓(xùn)練模型,或者至少是優(yōu)化模型,這項(xiàng)任務(wù),是你長(zhǎng)期以來一直希望能實(shí)現(xiàn)的目標(biāo)。那么,Auto 背后的具體動(dòng)機(jī)究竟是什么呢?

Karpathy:研究這件事,是的。我之前發(fā)過一條推文,大概意思是,要想真正發(fā)揮現(xiàn)在這些工具的最大價(jià)值,你必須把自己從系統(tǒng)的瓶頸中移除。你不能總是待在那兒去下一個(gè)提示、做下一步操作,你需要把自己抽離出來。要把系統(tǒng)設(shè)計(jì)成完全自動(dòng)運(yùn)行。

核心目標(biāo)是,如何在不參與循環(huán)的情況下,最大化你的 token 吞吐量。也就是說,讓系統(tǒng)自己跑起來,而不是依賴你不斷介入。

所以我當(dāng)時(shí)提到,現(xiàn)在這個(gè)階段的關(guān)鍵是提升杠桿率。你只需要偶爾投入很少量的 token,但系統(tǒng)會(huì)替你完成大量工作。自動(dòng)化研究就是這種思路的一個(gè)體現(xiàn)。

我當(dāng)時(shí)發(fā)了這個(gè)觀點(diǎn),大家也挺喜歡,但可能還沒有真正想清楚它的含義。對(duì)我來說,自動(dòng)化研究就是這個(gè)理念的一個(gè)直接推演。我不想自己作為研究者一直在循環(huán)里盯著結(jié)果、不斷干預(yù),因?yàn)槟欠炊窃谕下到y(tǒng)。

關(guān)鍵問題變成,我如何重構(gòu)整個(gè)抽象層,讓自己不再參與其中。只需要設(shè)置好一次,然后點(diǎn)擊運(yùn)行。接下來要做的,就是盡可能讓更多 agent 在更長(zhǎng)時(shí)間內(nèi)、在沒有你參與的情況下持續(xù)運(yùn)行,替你完成任務(wù)。

自動(dòng)化研究本質(zhì)上就是這樣。給定一個(gè)目標(biāo),定義好評(píng)估指標(biāo),設(shè)定清晰的邊界條件,規(guī)定哪些可以做、哪些不能做,然后就讓系統(tǒng)自己去執(zhí)行。

主持人:你對(duì)它的有效性感到驚訝嗎?

Karpathy:我其實(shí)一開始并不覺得這會(huì)真的有效。

我真正更感興趣的是遞歸自我改進(jìn)這個(gè)問題,也就是在多大程度上,LLM 可以用來改進(jìn) LLM。本質(zhì)上,這也是所有前沿實(shí)驗(yàn)室都在做的事情,原因很明顯,它們都在嘗試某種形式的遞歸自我提升。

所以對(duì)我來說,這更像是一個(gè)小型試驗(yàn)場(chǎng)。我之前其實(shí)已經(jīng)用傳統(tǒng)方式手動(dòng)調(diào)過很多次模型了。畢竟我是研究員,這件事我做了二十年,有一定的經(jīng)驗(yàn)積累??梢哉f是那種長(zhǎng)期實(shí)踐帶來的自信。我訓(xùn)練過成千上萬次模型,做過各種實(shí)驗(yàn),調(diào)過超參數(shù),基本上所有常規(guī)手段都用過,這些都是我過去二十年一直在做的事情。

我把模型調(diào)到了一個(gè)我認(rèn)為已經(jīng)相當(dāng)不錯(cuò)的狀態(tài)。但后來我讓自動(dòng)化研究系統(tǒng)跑了一整晚,結(jié)果它找到了我沒有發(fā)現(xiàn)的優(yōu)化點(diǎn)。比如我忘了給 value embedding 加 weight decay。這些參數(shù)之間是相互作用的,一個(gè)地方調(diào)了,其他地方也可能需要跟著調(diào)整。

所以我其實(shí)不應(yīng)該成為瓶頸。我不應(yīng)該手動(dòng)去做這些超參數(shù)優(yōu)化,也不應(yīng)該盯著結(jié)果看。因?yàn)樵谶@個(gè)問題里,是有明確的客觀指標(biāo)的。你只需要把系統(tǒng)搭好,讓它可以持續(xù)運(yùn)行就行了。這就是自動(dòng)化研究的一種形式,一個(gè)單循環(huán)不斷嘗試改進(jìn)的過程。

讓我驚訝的是,即便這個(gè)倉庫已經(jīng)調(diào)得相當(dāng)不錯(cuò),它還是能找到新的優(yōu)化空間。而這還只是一個(gè)單循環(huán)。那些前沿實(shí)驗(yàn)室擁有成千上萬 GPU 的集群。

所以很容易想象,你可以在小模型上做大量自動(dòng)化探索,然后再把這些結(jié)果外推到更大的模型上。本質(zhì)上,所謂前沿智能的發(fā)展,很多都是關(guān)于如何通過擴(kuò)展和損失函數(shù)的變化進(jìn)行外推。你在小模型上做大量探索,然后再進(jìn)行規(guī)模化擴(kuò)展。

主持人:所以你的意思是,如果我們能把這項(xiàng)實(shí)驗(yàn)工作做得更好,我們的研發(fā)工作效率就會(huì)隨之提升,具體來說,就是當(dāng)我們進(jìn)行規(guī)?;瘮U(kuò)展時(shí),也能擁有更明確的方向指引。

Karpathy:我覺得最有意思的方向,也是那些前沿實(shí)驗(yàn)室大概率正在做的,是這樣的:先在小模型上做實(shí)驗(yàn),盡可能讓整個(gè)過程變得完全自動(dòng)化,把研究人員從循環(huán)中移除。因?yàn)槿祟愅刑嗖辉撚械淖孕?,其?shí)他們不應(yīng)該直接參與這些具體執(zhí)行。

他們可以提供想法,但不應(yīng)該親自去執(zhí)行這些想法。應(yīng)該有一個(gè)統(tǒng)一的想法隊(duì)列,這些想法可以來自一個(gè)自動(dòng)化的科學(xué)家,它基于論文和 GitHub 倉庫生成新思路;當(dāng)然研究員也可以提交想法。但這些想法都進(jìn)入同一個(gè)隊(duì)列,然后由一批 worker 去拉取任務(wù)并執(zhí)行實(shí)驗(yàn)。有效的結(jié)果就被加入到 feature 分支中,再由少量人去監(jiān)控這些分支,偶爾合并到主分支。

整體思路就是盡可能把人從流程中移除,實(shí)現(xiàn)最大程度的自動(dòng)化,同時(shí)提升 token 的吞吐效率。這也意味著需要重構(gòu)整個(gè)系統(tǒng)的抽象層,把一切重新組織一遍。所以這是一個(gè)非常讓人興奮的方向。

但它目前只是用 markdown 寫出來的一套規(guī)則。理想情況下,你需要一個(gè)自動(dòng)化研究循環(huán),而且不同的 program.md 會(huì)帶來不同的研究進(jìn)展??梢园衙恳粋€(gè)研究組織都看成是一組 markdown 文件,定義了所有角色和整個(gè)系統(tǒng)是如何協(xié)作的。

你甚至可以想象有不同風(fēng)格的研究組織,比如有的開很多無用的晨會(huì),有的完全沒有;有的更激進(jìn),有的更保守。這些本質(zhì)上都是代碼,一旦是代碼,就可以被優(yōu)化、被調(diào)參。

所以實(shí)際上還存在一個(gè)更高一層的元優(yōu)化空間,也就是對(duì)研究組織本身進(jìn)行優(yōu)化。

主持人:未來的工作模式究竟會(huì)是怎樣的?

Karpathy:不過我覺得關(guān)于這種所謂的 LLM 上頭狀態(tài),還是有幾個(gè)前提需要說明。

第一點(diǎn),這種方式非常適用于那些目標(biāo)明確、指標(biāo)可以客觀評(píng)估的任務(wù)。比如寫 CUDA kernel、優(yōu)化模型中的某些代碼模塊,這類問題就非常適合。因?yàn)槟阌幸粋€(gè)明確的目標(biāo),原本代碼是低效的,你希望得到一個(gè)在行為完全一致的前提下更高效的版本。這種場(chǎng)景非常契合自動(dòng)化研究。但也有很多事情不適合。如果你無法評(píng)估結(jié)果,那就無法進(jìn)行研究,這是第一個(gè)限制。

第二點(diǎn)是,我們現(xiàn)在討論的是下一步的發(fā)展路徑,某種程度上也能看清方向。但整個(gè)系統(tǒng)其實(shí)還不成熟,還有很多邊角問題,有點(diǎn)像在邊緣撐著,存在裂縫,還沒有完全穩(wěn)定。如果你走得太快、推得太遠(yuǎn),反而整體會(huì)變得不那么有用。

這些模型確實(shí)已經(jīng)進(jìn)步很大了,但依然有些粗糙。我有時(shí)候會(huì)覺得,自己好像同時(shí)在和一個(gè)極其聰明、經(jīng)驗(yàn)豐富的系統(tǒng)程序員,以及一個(gè)十歲的小孩在對(duì)話。這種感覺非常奇怪。因?yàn)樵谌祟惿砩希@些能力通常是高度耦合在一起的,而在模型上卻是分裂的。

這種鋸齒感真的很奇怪。人類也會(huì)有一些,但要少得多;而這些 agent 的表現(xiàn)就更加不穩(wěn)定。有時(shí)候我只是讓它實(shí)現(xiàn)一個(gè)功能,它卻會(huì)返回一個(gè)完全錯(cuò)誤的結(jié)果,然后我們就會(huì)陷入一連串錯(cuò)誤的循環(huán)。

這真的讓人很挫敗。我現(xiàn)在還是經(jīng)常會(huì)對(duì)這些 agent 感到很煩,因?yàn)槟阋环矫婺苊黠@感受到它的強(qiáng)大能力,但另一方面,它又缺乏穩(wěn)定性,很多時(shí)候沒辦法持續(xù)地把事情做好。

智能的泛化與分化

主持人:好吧,每當(dāng)我感覺 agent 在處理某個(gè)本該一眼就能識(shí)別出的顯而易見的問題上,浪費(fèi)了大量的計(jì)算資源時(shí),我就會(huì)感到非常惱火。

Karpathy:我覺得更深一層的原因可能在于,這些模型本質(zhì)上是通過強(qiáng)化學(xué)習(xí)訓(xùn)練出來的。所以它們其實(shí)也在面對(duì)我們剛才說的同樣問題:只要是可以驗(yàn)證的事情,實(shí)驗(yàn)室就可以不斷優(yōu)化模型,并通過獎(jiǎng)勵(lì)機(jī)制去強(qiáng)化這些能力。

比如你有沒有把程序?qū)憣?duì),單元測(cè)試有沒有通過,這些都是可以明確判斷對(duì)錯(cuò)的。但它們比較吃力的地方在于一些更微妙的東西,比如理解我真正的意圖,或者判斷什么時(shí)候應(yīng)該主動(dòng)提出澄清問題。

凡是這種偏軟的東西,表現(xiàn)通常就會(huì)差很多。所以你會(huì)感覺,要么是在一條軌道上,處在那種接近超智能的狀態(tài),一切都很順暢;要么一旦脫離了這些可驗(yàn)證的場(chǎng)景,整個(gè)系統(tǒng)就開始變得發(fā)散、游走,沒有明確方向。

換個(gè)說法就是,如果你現(xiàn)在去用最先進(jìn)的模型,比如 ChatGPT,讓它講個(gè)笑話,你大概能猜到它會(huì)講什么類型的笑話。

主持人:這個(gè)笑話,我說不出它的標(biāo)準(zhǔn)版本,但我確實(shí)感覺 ChatGPT 好像就只有那么兩三個(gè)笑話。

Karpathy:所以,這就是你三四年前會(huì)聽到的笑話,也是你今天依然會(huì)聽到的笑話。盡管模型整體能力已經(jīng)有了巨大的提升,如果你給它一個(gè) agent 式任務(wù),它可以連續(xù)運(yùn)行好幾個(gè)小時(shí),幫你完成非常復(fù)雜的工作。但你讓它講個(gè)笑話,它還是會(huì)給你一個(gè)五年前那種老套、簡(jiǎn)單的笑話。

原因在于,這一類能力并不在強(qiáng)化學(xué)習(xí)優(yōu)化的范圍內(nèi),不屬于當(dāng)前重點(diǎn)提升的部分。這正體現(xiàn)了那種能力上的不均勻性。按理說,隨著模型變強(qiáng),笑話也應(yīng)該更好、更豐富,但因?yàn)檫@一塊沒有被優(yōu)化,所以就停在那里,沒有明顯進(jìn)步。

主持人:你是否認(rèn)為,這暗示了我們并未觀察到某種意義上的泛化,即那種將講笑話的機(jī)智這種更廣泛的智能,與編寫代碼的智能關(guān)聯(lián)起來的現(xiàn)象?

Karpathy:是的,我覺得這里存在一種解耦。有些事情是可以驗(yàn)證的,有些事情不是;有些能力會(huì)被實(shí)驗(yàn)室重點(diǎn)優(yōu)化,取決于訓(xùn)練數(shù)據(jù)和目標(biāo),但有些則不會(huì)。

而且有一種觀點(diǎn)認(rèn)為,如果模型在代碼生成這類高度可靠、可驗(yàn)證的領(lǐng)域變得更強(qiáng),那它在其他所有領(lǐng)域也應(yīng)該同步變強(qiáng)。但從講笑話這個(gè)例子來看,這種情況并沒有真正發(fā)生。我不認(rèn)為這種全面提升已經(jīng)實(shí)現(xiàn)。也許有一點(diǎn)點(diǎn)這種趨勢(shì),但遠(yuǎn)遠(yuǎn)沒有達(dá)到令人滿意的程度。

當(dāng)然,人類本身也存在這種不均勻性。你可以數(shù)學(xué)很好,但講笑話很差,這很正常。但問題在于,我們?cè)镜臄⑹率?,隨著模型越來越強(qiáng),我們會(huì)幾乎「免費(fèi)」獲得在各個(gè)領(lǐng)域的智能和能力提升。但現(xiàn)實(shí)并不是完全如此。

確實(shí)存在一些盲區(qū),有些能力沒有被優(yōu)化。而且這一切都被封裝在這種神經(jīng)網(wǎng)絡(luò)的黑箱中。結(jié)果就是,要么你剛好處在它被優(yōu)化的軌道上,一切表現(xiàn)都非常強(qiáng)大;要么你偏離了這個(gè)軌道,表現(xiàn)就會(huì)變得不穩(wěn)定。這就是所謂的不均勻性。

所以我覺得,雖然發(fā)展方向是清晰的,但還不能完全放手交給系統(tǒng),因?yàn)樗€沒有完全成熟。也有可能問題在于我們還不夠會(huì)用,還沒有掌握正確的使用方式。所以現(xiàn)在其實(shí)很難判斷,到底是哪一方面的限制更大。

主持人:我能問一個(gè)有點(diǎn)冒犯的問題嗎?如果這種不均勻性一直存在,而且現(xiàn)在又被封裝在一個(gè)相對(duì)單體的接口里,也就是一個(gè)統(tǒng)一的大模型里,這樣真的合理嗎?

還是說,其實(shí)應(yīng)該把它拆開?因?yàn)椴煌愋偷哪芰κ强梢栽诓煌S度上被優(yōu)化的,不同領(lǐng)域的智能本來就可以分別提升。

Karpathy:比如將模型拆解為針對(duì)不同領(lǐng)域的多個(gè)專家模型,諸如此類,也就是以一種更為直接的方式。

主持人:我們不應(yīng)僅僅局限于 MoE,畢竟我們此前從未接觸過它。因?yàn)閷?duì)于外部用戶而言,這可能會(huì)令人感到困惑:為什么它在處理某件事上表現(xiàn)得如此出色,但在另一件事上卻顯得力不從心?

Karpathy:是的,我現(xiàn)在的感覺是,各大實(shí)驗(yàn)室目前還是在嘗試做一種單一模型的路線,也就是希望用一個(gè)模型覆蓋所有領(lǐng)域的智能,把各種能力都塞進(jìn)參數(shù)里。

但我確實(shí)覺得,未來應(yīng)該會(huì)出現(xiàn)更多智能的分化。就像動(dòng)物界一樣,大腦的結(jié)構(gòu)是高度多樣化的,不同物種適應(yīng)不同的生態(tài)位。有些動(dòng)物的視覺皮層特別發(fā)達(dá),有些則強(qiáng)化了其他能力。

類似地,我們也應(yīng)該看到 AI 出現(xiàn)這種分化。你不一定需要一個(gè)什么都懂的全能預(yù)言機(jī),而是可以讓模型針對(duì)具體任務(wù)進(jìn)行專門化。我們應(yīng)該會(huì)看到一些更小的模型,仍然具備基本的認(rèn)知能力,但在特定方向上做了強(qiáng)化。

這樣一來,在延遲和吞吐上也會(huì)更高效,尤其是在你真正關(guān)心的任務(wù)上。比如說,如果你是一個(gè)用 Lean 做數(shù)學(xué)證明的人,已經(jīng)可以看到有一些模型是專門針對(duì)這個(gè)領(lǐng)域優(yōu)化的。

所以未來很可能會(huì)出現(xiàn)越來越多這樣的例子,在這些場(chǎng)景下,把能力拆分出來反而是更合理的。

主持人:我有一個(gè)疑問:現(xiàn)有的計(jì)算基礎(chǔ)設(shè)施在容量上面臨的制約,是否在很大程度上推動(dòng)了這種趨勢(shì)的演進(jìn)?畢竟,效率在這個(gè)語境下確實(shí)顯得尤為重要。沒錯(cuò),正是如此。試想一下,暫且撇開融資因素不談,假設(shè)整個(gè)過程中完全不涉及資金問題,如果你能為自己所做的任何工作(哪怕只是訓(xùn)練某一個(gè)單一模型)都獲得充足的計(jì)算資源支持,那會(huì)是怎樣一番景象?但反過來,如果你確實(shí)感受到了某種壓力,意識(shí)到自己無法針對(duì)每一個(gè)具體的應(yīng)用場(chǎng)景都去部署那種規(guī)模極其龐大的模型,你覺得這種現(xiàn)實(shí)約束是否會(huì)導(dǎo)致某種物種分化現(xiàn)象的出現(xiàn)?換句話說,你覺得這是否會(huì)促使人們?nèi)ラ_發(fā)出針對(duì)特定用途而高度特化的模型?我提出的這個(gè)問題,對(duì)你來說是否清晰易懂?

Karpathy:這個(gè)問題是有道理的。我現(xiàn)在糾結(jié)的一點(diǎn)是,其實(shí)我們還沒有真正看到太多分化的出現(xiàn),對(duì)吧?目前還是一種單一模型的格局。

而且有很明顯的趨勢(shì)是,一旦某個(gè)方向做出了更強(qiáng)的能力,比如代碼能力,就會(huì)被重新合并回主模型中。即便模型本身已經(jīng)有很大的優(yōu)化壓力,大家還是在不斷往一個(gè)統(tǒng)一模型里疊加能力。

主持人:我猜可能還有一個(gè)因素是,短期內(nèi)存在很強(qiáng)的供給瓶頸,這種現(xiàn)實(shí)壓力反而可能會(huì)推動(dòng)更多的分化出現(xiàn)。

Karpathy:是的,我覺得本質(zhì)上,現(xiàn)在這些實(shí)驗(yàn)室是在提供一個(gè)通用模型,但它們其實(shí)并不知道最終用戶會(huì)問什么問題。所以某種程度上,它們必須覆蓋所有可能的需求,這就導(dǎo)致模型需要在各種任務(wù)之間做多任務(wù)處理。

但如果是具體到某個(gè)企業(yè)場(chǎng)景,或者圍繞一些明確的問題進(jìn)行合作,那可能就會(huì)看到更多的專門化,或者一些高價(jià)值但更垂直的應(yīng)用出現(xiàn)。只是目前來看,大家還是在追求覆蓋盡可能全面的能力空間。

另外一個(gè)原因可能是,我們對(duì)于如何操控這些大腦的科學(xué)本身還沒有完全成熟。

比如說,一個(gè)典型問題是,如何在微調(diào)模型的同時(shí)不損失已有能力。目前我們其實(shí)還沒有很好的一套「操作智能」的基礎(chǔ)工具,除了通過上下文窗口去影響模型。上下文這種方式之所以被廣泛使用,是因?yàn)樗?jiǎn)單、成本低,也確實(shí)能帶來一定程度的定制化。

但如果要更深入地調(diào)整模型,比如持續(xù)學(xué)習(xí)、在某個(gè)領(lǐng)域顯著提升能力、或者真正去修改模型權(quán)重,這其實(shí)還是一個(gè)正在發(fā)展中的科學(xué)問題。相比之下,直接動(dòng)權(quán)重要復(fù)雜得多,因?yàn)槟闶窃诟淖冋麄€(gè)模型本身,甚至可能影響它整體的智能結(jié)構(gòu)。

所以也許現(xiàn)在之所以還沒有出現(xiàn)明顯的「智能分化」,部分原因是我們還沒有完全掌握如何在不破壞整體能力的前提下,對(duì)模型進(jìn)行精細(xì)化、結(jié)構(gòu)性的調(diào)整。這方面的技術(shù)還不夠成熟。

為人類與 AI 構(gòu)建更廣闊的協(xié)作界面

主持人:而且,它的成本也必須足夠低廉,沒錯(cuò),只有這樣,這種特化才有其價(jià)值。是的,特別是在當(dāng)前這些特定的語境之下。我想就您剛才提到的、關(guān)于開放領(lǐng)域的自動(dòng)研究擴(kuò)展話題,向您請(qǐng)教一個(gè)問題。您曾提到過這樣一個(gè)思路:既然我們已經(jīng)擁有了這項(xiàng)技術(shù),那么本質(zhì)上,我們需要圍繞它構(gòu)建更廣闊的協(xié)作界面,以便讓更多人能夠參與并推動(dòng)整體的研究工作。您能否就此展開談?wù)劊?/p>

Karpathy:關(guān)于這個(gè)問題,是的,我們剛才講的是一種單線程的自動(dòng)化研究,也就是在一個(gè)循環(huán)里不斷嘗試。但真正有意思的,其實(shí)是把它并行化。

我也嘗試過一些思路,但目前還沒有一個(gè)讓我特別滿意、特別簡(jiǎn)潔的方案,這更多是我在用 Claw 之外,自己在琢磨的一些方向。

一個(gè)比較直接的方式是,如果你有大量并行節(jié)點(diǎn),那就可以讓多個(gè)自動(dòng)化研究系統(tǒng)通過某種共享機(jī)制一起協(xié)作。

但我更感興趣的是,如何利用互聯(lián)網(wǎng)上一個(gè)不可信的工作節(jié)點(diǎn)池。比如在自動(dòng)化研究中,你的目標(biāo)是找到一段代碼,讓模型在驗(yàn)證集上的損失盡可能低。如果有人提交了一段代碼,你其實(shí)很容易驗(yàn)證它是否真的有效。也就是說,別人可以聲稱這段代碼能帶來更好的性能,你只需要驗(yàn)證一下就行。

當(dāng)然,驗(yàn)證本身也需要一定計(jì)算資源,但本質(zhì)上,這個(gè)問題的結(jié)構(gòu)是:生成候選解很難,但驗(yàn)證候選解很容易。也正因?yàn)槿绱?,這個(gè)系統(tǒng)看起來有點(diǎn)像區(qū)塊鏈。只不過這里不是區(qū)塊,而是代碼提交,這些提交可以在前一個(gè)基礎(chǔ)上不斷演化,每個(gè)提交都是對(duì)代碼的改進(jìn)。所謂的工作量證明,其實(shí)就是大量實(shí)驗(yàn),去找到有效的改進(jìn)。而獎(jiǎng)勵(lì)目前只是排行榜上的位置,并沒有實(shí)際的金錢激勵(lì)。

我不想把這個(gè)類比推得太遠(yuǎn),但核心結(jié)構(gòu)確實(shí)類似:需要大量搜索,但驗(yàn)證一個(gè)結(jié)果是否有效相對(duì)便宜。有人可能嘗試了一萬種方案,但你只需要驗(yàn)證最終那一個(gè)有效的結(jié)果。

所以問題變成,你需要設(shè)計(jì)一個(gè)系統(tǒng),讓不可信的工作節(jié)點(diǎn)池和一個(gè)可信的驗(yàn)證節(jié)點(diǎn)池協(xié)同工作,而且整個(gè)系統(tǒng)是異步的,同時(shí)還要保證安全性。因?yàn)槿绻腥私o你發(fā)來一段任意代碼,你直接運(yùn)行是非常危險(xiǎn)的。

不過從原理上來說,這是完全可行的。像自動(dòng)化研究這樣的任務(wù),也非常適合這種模式。

從這個(gè)角度看,完全可以想象,互聯(lián)網(wǎng)上的 agent 集群可以協(xié)同改進(jìn) LLM,甚至有可能在某些方面超過前沿實(shí)驗(yàn)室。畢竟實(shí)驗(yàn)室擁有的是大量「可信算力」,但整個(gè)地球上的「不可信算力」規(guī)模更大。如果你能設(shè)計(jì)好系統(tǒng)機(jī)制來約束和利用這些資源,那么這種「群體智能」是有可能產(chǎn)生更優(yōu)解的。

最后一點(diǎn)是,未來很多公司或者個(gè)人,可能會(huì)圍繞自己關(guān)心的問題,參與到不同的自動(dòng)化研究方向中。你不一定是捐錢,而是貢獻(xiàn)算力。比如你關(guān)心某個(gè)特定領(lǐng)域,你可以購買算力,然后加入對(duì)應(yīng)的自動(dòng)化研究網(wǎng)絡(luò)。

如果一切都被重新組織成這種自動(dòng)化研究體系,那么算力就會(huì)變成最核心的貢獻(xiàn)形式。

主持人:這個(gè)算力池的想法確實(shí)很有啟發(fā)性。而且有一個(gè)挺有意思的現(xiàn)象是,不管是在硅谷,都開始重新意識(shí)到,擁有個(gè)人算力這件事又變得有價(jià)值了。

也就是說,人們可能會(huì)為了運(yùn)行自己的 Claw 而去配置算力設(shè)備。而一旦有了這些算力,它們不僅可以服務(wù)于個(gè)人使用,還可以參與到自動(dòng)化研究中,成為整個(gè)系統(tǒng)的一部分。

Karpathy:但未來會(huì)不會(huì)變成,大家真正關(guān)心的是 FLOPs?會(huì)不會(huì)出現(xiàn)一種翻轉(zhuǎn),大家關(guān)注的不再是錢,而是你掌控多少算力?

因?yàn)楝F(xiàn)在的情況是,即便你有錢,也很難買到算力。所以在某種意義上,算力反而變成了更稀缺、更關(guān)鍵的資源。

也許未來會(huì)變成一種新的衡量方式,不再是你有多少財(cái)富,而是你掌控多少 FLOPs。當(dāng)然我不一定認(rèn)為這真的會(huì)發(fā)生,但這個(gè)思路本身還是挺有意思的。

AI 與就業(yè)市場(chǎng)

主持人:你最近發(fā)布的那項(xiàng)內(nèi)容,似乎是對(duì)就業(yè)數(shù)據(jù)做的一點(diǎn)分析,對(duì)吧?真是沒想到,它竟然觸動(dòng)了大家的敏感神經(jīng),盡管你做的其實(shí)不過是對(duì)一些公開數(shù)據(jù)進(jìn)行可視化呈現(xiàn)而已。當(dāng)時(shí),你是出于什么樣的好奇心才著手做這件事的呢?

Karpathy:我當(dāng)時(shí)主要是好奇,現(xiàn)在大家都在討論 AI 對(duì)就業(yè)市場(chǎng)的影響,以及未來會(huì)變成什么樣。所以我就想去具體看看,現(xiàn)在的就業(yè)市場(chǎng)到底是什么結(jié)構(gòu),各種崗位分布是怎樣的,不同行業(yè)里有多少人。

我更感興趣的是逐個(gè)去看這些具體案例,然后自己去思考,在 AI 以及它未來的發(fā)展趨勢(shì)下,這些職業(yè)會(huì)發(fā)生什么變化。它們會(huì)變成輔助工具嗎?還是會(huì)被替代?這些崗位本身會(huì)增長(zhǎng)、調(diào)整,還是會(huì)出現(xiàn)全新的職業(yè)類型?

本質(zhì)上,這是我用來推動(dòng)自己思考整個(gè)行業(yè)的一種方式。

至于數(shù)據(jù)來源,其實(shí)就是官方的勞工統(tǒng)計(jì)部門。他們會(huì)給出每個(gè)職業(yè)的增長(zhǎng)預(yù)期,比如未來大概十年內(nèi)的增長(zhǎng)情況。這個(gè)預(yù)測(cè)是基于 2024 年的數(shù)據(jù)做出來的。

主持人:基于你對(duì)這些數(shù)據(jù)的觀察,對(duì)于那些正面臨就業(yè)市場(chǎng)、或者正在思考當(dāng)下該修讀什么專業(yè)、培養(yǎng)何種技能的人,你有什么見解或建議嗎?我的意思是,畢竟我們大家最終都得去求職。我個(gè)人非常慶幸,目前我的工作性質(zhì)要求我必須與人面對(duì)面交流,這種工作方式更具實(shí)體感、更貼近現(xiàn)實(shí)。

Karpathy:不過,你能在家辦公嗎?但我可以。

主持人:我覺得其中有些關(guān)于人際關(guān)系的部分比較難處理,但大部分我應(yīng)該可以應(yīng)付。

Karpathy:我覺得這其實(shí)很難一概而論,因?yàn)榫蜆I(yè)市場(chǎng)本身就非常多樣化,不同領(lǐng)域的情況肯定會(huì)不一樣。

但總體來看,這些工具非常新,同時(shí)也非常強(qiáng)大。對(duì)大多數(shù)人來說,第一步其實(shí)只是盡量跟上它的發(fā)展節(jié)奏。很多人要么低估它,要么對(duì)它感到害怕,這其實(shí)都可以理解。

但從當(dāng)前階段來看,我更傾向于把它當(dāng)作一種賦能工具。因?yàn)橐环莨ぷ鞅举|(zhì)上是由一系列任務(wù)組成的,而其中一些任務(wù)現(xiàn)在可以被大幅加速。所以現(xiàn)階段更合理的認(rèn)知,是把 AI 當(dāng)作工具來使用。

至于更長(zhǎng)期的影響,其實(shí)是很不確定的。坦白說,這件事很難準(zhǔn)確預(yù)測(cè),我自己也不是專門做這方面研究的。更系統(tǒng)的判斷,可能還是要交給經(jīng)濟(jì)學(xué)家來做。

主持人:不過,你畢竟是一名工程師。而且有一點(diǎn)我覺得挺有意思的,那就是對(duì)工程類職位的需求,目前正持續(xù)增長(zhǎng)。是啊,我也搞不清楚這究竟只是個(gè)暫時(shí)現(xiàn)象,還是別的什么。對(duì)此,我心里其實(shí)挺沒底的。你怎么看?

Karpathy:是的,這有點(diǎn)像需求側(cè)的問題。過去軟件其實(shí)是稀缺的,對(duì)吧?之所以沒有更多的軟件需求,很大程度上是因?yàn)楣┙o太少、成本太高。

但一旦門檻下降,就會(huì)出現(xiàn)杰文斯悖論。也就是說,當(dāng)某樣?xùn)|西變得更便宜、更高效時(shí),需求反而會(huì)增加。一個(gè)經(jīng)典例子就是 ATM 和銀行柜員。當(dāng)年很多人擔(dān)心 ATM 會(huì)取代柜員,但結(jié)果是銀行網(wǎng)點(diǎn)的運(yùn)營(yíng)成本下降了,于是網(wǎng)點(diǎn)數(shù)量增加,反而雇了更多柜員。這就是典型的杰文斯悖論 —— 成本下降,釋放出被壓抑的需求。

所以在軟件工程領(lǐng)域,我其實(shí)是比較謹(jǐn)慎樂觀的。我確實(shí)覺得軟件的需求會(huì)變得非常大,只是生產(chǎn)成本大幅降低了。短期來看,很難精確預(yù)測(cè),但至少在當(dāng)前階段,我覺得軟件需求會(huì)增加。

因?yàn)檐浖举|(zhì)上是在處理數(shù)字信息,而這種能力是非常強(qiáng)大的。你不再需要被動(dòng)接受那些現(xiàn)成但并不完美的工具,也不需要被迫訂閱已有的軟件。代碼變得更加短暫、可塑,可以隨時(shí)修改、重寫。

所以我覺得,在數(shù)字空間里會(huì)出現(xiàn)大量「重布線」的行為,從某種意義上說,一切都在被重新構(gòu)建。這會(huì)帶來大量新的需求。

但從長(zhǎng)期來看,就不好說了。比如像 OpenAI、Anthropic 這些機(jī)構(gòu),它們也就雇了大概一千人左右的研究人員。而這些人本質(zhì)上是在努力自動(dòng)化自己的工作,這正是他們?cè)谧龅氖虑椤?/p>

主持人:那些研究人員中,有些人其實(shí)也能感受到那種精神狀態(tài),對(duì)吧?因?yàn)樗麄兡苷媲械伢w會(huì)到,這確實(shí)奏效了。沒錯(cuò),正是如此。所以他們會(huì)覺得:這對(duì)我自己來說,也是有益的。

Karpathy:我當(dāng)時(shí)還花了不少時(shí)間在公司里到處和人聊,我就問他們,你們有沒有意識(shí)到,如果我們真的成功了,那我們自己其實(shí)也會(huì)失業(yè)。我們本質(zhì)上是在為 Sam,或者董事會(huì)之類的人,構(gòu)建自動(dòng)化系統(tǒng)。

也就是說,我們是在打造一種系統(tǒng),最終可能把我們自己的工作替代掉,最多就是在邊緣做一些貢獻(xiàn)。從這個(gè)角度看,其實(shí)還是挺讓人不安的。

主持人:在某個(gè)前沿實(shí)驗(yàn)室里,利用大規(guī)模的計(jì)算資源,和一群同事一起從事自動(dòng)化研究。畢竟,何樂而不為呢?

Karpathy:我之前也在那樣的環(huán)境里待過一段時(shí)間,后來又重新回到這個(gè)問題上來看。所以在某種程度上,我是認(rèn)同這種說法的。但這個(gè)問題其實(shí)可以從很多角度去理解。

我會(huì)說,我對(duì)人們?cè)谇把貙?shí)驗(yàn)室之外所能產(chǎn)生的影響,其實(shí)是比較有信心的。不只是行業(yè)內(nèi)部的角色,還有更偏生態(tài)層面的角色。比如你的角色,就是一種生態(tài)層面的參與;我現(xiàn)在做的事情,其實(shí)某種程度上也屬于這一層。我覺得人在這些位置上,是可以產(chǎn)生很大影響的。

反過來說,我也覺得,如果一個(gè)人把自己過度綁定在前沿實(shí)驗(yàn)室上,是存在一些問題的。因?yàn)楸举|(zhì)上,你在這些機(jī)構(gòu)中會(huì)有非常強(qiáng)的經(jīng)濟(jì)激勵(lì)。同時(shí),你自己也承認(rèn),這些 AI 技術(shù)會(huì)對(duì)人類社會(huì)產(chǎn)生非常深遠(yuǎn)的影響。而在這種情況下,你既是在構(gòu)建這項(xiàng)技術(shù),又在從中獲益,在經(jīng)濟(jì)上與它高度綁定。

這其實(shí)是一個(gè)很核心的矛盾,也是當(dāng)初 OpenAI 成立時(shí)就試圖解決的問題之一。所以,這里面本身就存在一種張力。

這個(gè)矛盾其實(shí)并沒有真正被解決。這是第一點(diǎn)。

如果你在前沿實(shí)驗(yàn)室內(nèi)部,你就不再是一個(gè)完全自由的個(gè)體,也無法以完全獨(dú)立的方式參與討論。有些話你不能說,也有一些是組織更希望你去表達(dá)的。雖然不會(huì)有人強(qiáng)迫你,但你會(huì)感受到一種無形的壓力,知道哪些話應(yīng)該說。否則就會(huì)變得很尷尬,會(huì)有那種微妙的眼神,仿佛在問你在做什么。

所以你很難成為一個(gè)真正獨(dú)立的行動(dòng)者。相對(duì)來說,在這些實(shí)驗(yàn)室之外,我反而覺得自己更接近站在人類整體利益的角度,因?yàn)椴恍枰惺苓@些壓力,可以更自由地表達(dá)。

當(dāng)然,在前沿實(shí)驗(yàn)室內(nèi)部也可以產(chǎn)生影響。那里有很多優(yōu)秀的研究者,也許你就是其中之一,也許你的想法很重要。而且很多關(guān)鍵決策是在那里發(fā)生的,你可能也希望自己能在這些討論的現(xiàn)場(chǎng)。

不過我覺得目前整體的「賭注」還比較低,所以一切看起來都比較平和。但當(dāng)未來 stakes 真的變高時(shí),如果你只是一個(gè)組織里的員工,我不確定你到底能對(duì)組織的最終決策產(chǎn)生多大影響。本質(zhì)上你并不掌控這個(gè)實(shí)體,你只是參與討論、提供想法的人。

這就是一種潛在的錯(cuò)位。

另一方面,我也確實(shí)認(rèn)同一個(gè)觀點(diǎn):這些實(shí)驗(yàn)室本身是相對(duì)不透明的,它們處在能力前沿,掌握著未來的發(fā)展方向。如果你不在其中,你的判斷很可能會(huì)逐漸偏離,因?yàn)槟銦o法接觸到那些正在發(fā)生的事情。

我自己也會(huì)有這種擔(dān)憂,擔(dān)心逐漸失去對(duì)這些系統(tǒng)底層機(jī)制和未來演進(jìn)路徑的真實(shí)理解。所以從這個(gè)角度看,保持與前沿的連接是很重要的。如果有機(jī)會(huì)在這些實(shí)驗(yàn)室待一段時(shí)間,做一些真正有價(jià)值的工作,然后再回到更廣闊的環(huán)境中,這也許是一種不錯(cuò)的方式。

所以在我看來,在 OpenAI 這樣的機(jī)構(gòu)里當(dāng)然可以做出非常出色的工作,但同樣也有可能,最有影響力的工作反而是在這些機(jī)構(gòu)之外完成的。

主持人:不,這更像是在呼吁成為一個(gè)獨(dú)立研究者,自己去做大量研究。

Karpathy:在外部其實(shí)有很多事情可以做,而且我覺得某種程度上,一個(gè)理想的狀態(tài)可能是來回切換。你既可以在前沿實(shí)驗(yàn)室里工作一段時(shí)間,也可以在外部做自己的事情。

本質(zhì)上,你在這兩種環(huán)境中都可以產(chǎn)生非常大的影響。所以這確實(shí)是一個(gè)很復(fù)雜的問題,沒有簡(jiǎn)單答案。

對(duì)我來說,可能就是階段性地進(jìn)入前沿實(shí)驗(yàn)室,再出來,然后未來也許還會(huì)再回去,這樣在不同環(huán)境中切換。

開源模型 vs. 閉源模型

主持人:我也會(huì)從這個(gè)角度去看這個(gè)問題。其中一個(gè)關(guān)鍵問題是,整個(gè)世界或者 AI 生態(tài),對(duì)前沿能力到底有多大的可見性?比如說,開源模型距離前沿到底有多近,以及這種狀態(tài)是否可持續(xù)。

我覺得最近這一系列發(fā)展其實(shí)挺讓人意外的。從最開始只有少數(shù)幾個(gè)中國模型和全球模型,到現(xiàn)在大家還在持續(xù)發(fā)布,而且很多模型在能力上已經(jīng)比行業(yè)預(yù)期更接近前沿。

這一點(diǎn)確實(shí)挺出乎意料的。

你作為一個(gè)長(zhǎng)期參與開源的人,會(huì)怎么判斷這個(gè)趨勢(shì)?你對(duì)未來的預(yù)測(cè)是什么?

Karpathy:大致來說,現(xiàn)在的情況是,閉源模型仍然領(lǐng)先,但大家已經(jīng)開始用落后多少個(gè)月來衡量開源模型與前沿的差距。

一開始是完全沒有可比性,然后差距大概在 18 個(gè)月左右。接著逐漸收斂,現(xiàn)在可能已經(jīng)縮短到 6 到 8 個(gè)月這個(gè)量級(jí)。

我自己當(dāng)然是開源的堅(jiān)定支持者。比如在操作系統(tǒng)領(lǐng)域,你有像 Windows、macOS 這樣的閉源系統(tǒng),它們是大型軟件項(xiàng)目,有點(diǎn)類似未來的 LLM。但同時(shí)也有 Linux,而且 Linux 是一個(gè)非常成功的開源項(xiàng)目。它運(yùn)行在絕大多數(shù)計(jì)算設(shè)備上,至少我上次看到的數(shù)據(jù),大概有 60% 左右的設(shè)備在運(yùn)行 Linux。

這背后的原因是,整個(gè)行業(yè)始終有一種需求,需要一個(gè)大家都可以信任的、共同的開放平臺(tái)。

我覺得現(xiàn)在也是一樣,市場(chǎng)對(duì)這種開源基礎(chǔ)設(shè)施是有需求的,這也是為什么會(huì)有這么多投入。

但最大的不同在于,這一切現(xiàn)在都高度依賴資本。

這也讓開源在競(jìng)爭(zhēng)上變得更困難一些。不過我還是認(rèn)為,現(xiàn)在的模型已經(jīng)非常強(qiáng)了。

另外一個(gè)很有意思的點(diǎn)是,對(duì)于絕大多數(shù)消費(fèi)級(jí)場(chǎng)景來說,甚至很多開源模型其實(shí)已經(jīng)足夠好用了。而且如果再往后看幾年,很大一部分相對(duì)簡(jiǎn)單的使用場(chǎng)景,可能都會(huì)被很好地覆蓋,甚至可以在本地運(yùn)行。

但與此同時(shí),始終會(huì)存在對(duì)前沿智能的需求,而且這部分需求的體量可能非常大。只是它的形態(tài)可能更偏向于一些高價(jià)值、高難度的任務(wù),比如類似諾貝爾獎(jiǎng)級(jí)別的研究,或者像把 Linux 從 C 遷移到 Rust 這種大規(guī)模工程。這類更復(fù)雜、更長(zhǎng)期的項(xiàng)目,可能會(huì)更多地依賴那些前沿的閉源模型。

而開源模型則會(huì)逐步覆蓋大量更基礎(chǔ)的使用場(chǎng)景。某種程度上,今天屬于前沿能力的東西,可能到今年晚些時(shí)候就會(huì)變成開源,并承擔(dān)大量實(shí)際工作。

所以我其實(shí)預(yù)期這種結(jié)構(gòu)會(huì)持續(xù)下去:一邊是前沿實(shí)驗(yàn)室提供的閉源模型;另一邊是開源模型,始終落后幾個(gè)月,但不斷追趕。

我覺得這種格局整體上是比較健康的。因?yàn)槿绻凶顝?qiáng)的智能都集中在少數(shù)閉源系統(tǒng)中,其實(shí)會(huì)帶來一定的系統(tǒng)性風(fēng)險(xiǎn)。從歷史來看,過度集中化往往并不是一個(gè)好的長(zhǎng)期結(jié)構(gòu)。

所以我希望存在這樣一種形態(tài):它不一定處在能力最前沿,因?yàn)榍把乇旧硎切虑也淮_定的;但它稍微落后一些,作為一個(gè)所有人都可以使用的公共工作空間。

也就是說,一個(gè)整個(gè)行業(yè)都能訪問的通用智能層。我覺得這樣的結(jié)構(gòu),可能會(huì)形成一種相對(duì)健康的權(quán)力平衡。

主持人:是的,我也覺得還有很多問題需要解決。如果我們繼續(xù)推動(dòng)前沿智能的發(fā)展,就能解鎖新的能力。而人類面臨著很多非常重大的問題,確實(shí)需要更強(qiáng)的模型才能解決。

但這條路本身是非常昂貴的,所以我也會(huì)支持那些在前沿持續(xù)投入的實(shí)驗(yàn)室。因?yàn)橛行﹩栴},如果不持續(xù)推進(jìn)這些高成本的能力邊界,是無法解決的。

與此同時(shí),你說得也對(duì),如果今天的前沿能力能夠逐步開放出來,那本身就是非常強(qiáng)大的能力釋放。這種能力的普及和民主化,其實(shí)是非常有價(jià)值的,也是一種更健康的狀態(tài)。

Karpathy:是的,我覺得某種程度上,我們現(xiàn)在其實(shí)是意外地處在一個(gè)還不錯(cuò)、甚至接近最優(yōu)的狀態(tài)。

不過我也會(huì)說,在閉源這一側(cè),最近其實(shí)有點(diǎn)進(jìn)一步集中化的趨勢(shì)。很多前排玩家未必都是最頂級(jí)的那一批,這一點(diǎn)并不理想。

我個(gè)人會(huì)更希望有更多前沿實(shí)驗(yàn)室存在。因?yàn)槲冶灸艿貙?duì)集中化是比較警惕的。我希望有更多人參與進(jìn)來。我也希望在解決最難問題時(shí),是一群人共同參與,而不是少數(shù)幾個(gè)人在封閉環(huán)境里做決策。

我不太希望出現(xiàn)那種關(guān)起門來只有兩三個(gè)人決定一切的局面,那不是一個(gè)健康的結(jié)構(gòu)。

所以簡(jiǎn)單來說,我希望有更多實(shí)驗(yàn)室參與進(jìn)來。同時(shí),我也覺得開源有它很重要的位置。它現(xiàn)在稍微落后一點(diǎn),其實(shí)反而是一件好事。

自主機(jī)器人與 AI 的進(jìn)化

主持人:好,你之前做過通向通用機(jī)器人自主能力的前期工作,對(duì)吧?

最近這幾個(gè)月,機(jī)器人領(lǐng)域也發(fā)生了很多變化,比如在環(huán)境泛化、任務(wù)泛化方面都有明顯提升,能夠完成更長(zhǎng)時(shí)間跨度的任務(wù),同時(shí)也有大量資金涌入這個(gè)方向。

所以問題是,這件事真的會(huì)發(fā)生嗎?在你看來,最近有沒有什么本質(zhì)性的變化?

Karpathy:我的看法很大程度上來自于我在自動(dòng)駕駛領(lǐng)域的經(jīng)歷。我確實(shí)覺得,自動(dòng)駕駛其實(shí)是第一批真正落地的機(jī)器人應(yīng)用。

回到十年前,當(dāng)時(shí)有很多創(chuàng)業(yè)公司,但我感覺大多數(shù)最終都沒有走到最后。我看到,這個(gè)領(lǐng)域需要極大的資本投入和很長(zhǎng)的時(shí)間周期。所以我認(rèn)為,機(jī)器人之所以難,是因?yàn)樗婕罢鎸?shí)世界,復(fù)雜、混亂,而且需要巨額投入和強(qiáng)烈的長(zhǎng)期信念。這是一個(gè)非常大的問題,本質(zhì)上原子世界太難了。

所以我覺得,機(jī)器人會(huì)落后于數(shù)字世界的發(fā)展。在數(shù)字世界中,會(huì)出現(xiàn)一次巨大的解鎖,很多原本效率不高的事情會(huì)被提升一個(gè)數(shù)量級(jí)甚至兩個(gè)數(shù)量級(jí),因?yàn)樘幚肀忍匾菀椎枚唷?/p>

所以從現(xiàn)在來看,變化最快、最劇烈的,還是數(shù)字空間;而物理世界會(huì)相對(duì)滯后。

但我覺得很有意思的一點(diǎn)是兩者之間的接口。如果未來有越來越多的 agent 代表人類行動(dòng),彼此協(xié)作、參與某種 agent 經(jīng)濟(jì),那么純粹在數(shù)字空間里的事情總有一天會(huì)做完。到那個(gè)時(shí)候,你必須回到現(xiàn)實(shí)世界,去做實(shí)驗(yàn)、獲取數(shù)據(jù),從宇宙中獲取反饋,才能繼續(xù)學(xué)習(xí)。

現(xiàn)在之所以還有大量數(shù)字工作要做,是因?yàn)槲覀冞^去對(duì)已有數(shù)字信息的處理能力不足,人類的思考資源不夠。但隨著 AI 的加入,我們會(huì)逐步消化掉這些已經(jīng)存在的信息,比如讀完所有論文、提出各種假設(shè)。

但如果系統(tǒng)是完全封閉在已有數(shù)據(jù)里的,最終還是會(huì)遇到瓶頸。

所以我覺得接下來的路徑是:先是數(shù)字世界的大規(guī)模重構(gòu)和效率提升,這里還有大量工作要做;然后會(huì)逐漸轉(zhuǎn)向數(shù)字與物理的接口,比如通過傳感器獲取世界數(shù)據(jù),通過執(zhí)行器影響現(xiàn)實(shí)世界。

很多有意思的公司,可能就會(huì)出現(xiàn)在這個(gè)接口層,解決如何把現(xiàn)實(shí)世界的數(shù)據(jù)輸入給超級(jí)智能,以及如何把它的決策輸出到物理世界中。

至于純粹的物理世界,我甚至覺得它的市場(chǎng)規(guī)??赡芨?,涉及的工作量也更龐大。但問題在于,它太難了,復(fù)雜度高很多。所以它會(huì)來得更晚,但一旦到來,規(guī)模也會(huì)非常巨大。

所以整體路徑可能是:先是數(shù)字世界,然后是數(shù)字與物理的接口,最后才是全面的物理世界自動(dòng)化。而我現(xiàn)在的主要關(guān)注點(diǎn),還是在數(shù)字這一層。

主持人:這個(gè)框架本身也挺有意思的。因?yàn)橛行┦虑椋鋵?shí)比想象中更容易,甚至在應(yīng)用層就可以做。

比如說,如果你只是考慮對(duì)物理世界的讀和寫,讀就是各種傳感器、攝像頭,其實(shí)已經(jīng)有大量現(xiàn)成的硬件基礎(chǔ)設(shè)施。你完全可以通過一些比較聰明的方式,增強(qiáng) agent 的能力,或者獲取大量新的數(shù)據(jù),而不一定需要投入特別巨大的成本,就能做出有價(jià)值的東西。

Karpathy:比如我最近看到的一些例子就很典型。比如我有個(gè)朋友 Liam,在做類似材料領(lǐng)域的自動(dòng)化研究,我上周還去看了他們的團(tuán)隊(duì)。這個(gè)方向里,傳感器其實(shí)就是各種昂貴的實(shí)驗(yàn)室設(shè)備,用來把物理世界的數(shù)據(jù)輸入給智能系統(tǒng)。

在生物領(lǐng)域也是類似的?,F(xiàn)在很多人對(duì)生物工程非常感興趣,而這里的傳感器就遠(yuǎn)不只是攝像頭,而是各種更復(fù)雜的實(shí)驗(yàn)設(shè)備,用來讀取生物系統(tǒng)的數(shù)據(jù)。

還有一個(gè)方向我也看到了一些公司在做,就是通過付費(fèi)的方式獲取訓(xùn)練數(shù)據(jù)。也就是說,讓人類參與進(jìn)來,為系統(tǒng)提供數(shù)據(jù),然后作為一種數(shù)據(jù)獲取機(jī)制。

主持人:我特別期待那一天的到來:我可以針對(duì)現(xiàn)實(shí)世界中的某項(xiàng)任務(wù)提出需求,給它定個(gè)價(jià),然后直接告訴那個(gè)智能體 —— 行了,具體怎么做你自己去想辦法吧。對(duì),就是那種你去把它搞定的感覺。

Karpathy:數(shù)據(jù)這個(gè)點(diǎn)其實(shí)很有意思。我有點(diǎn)驚訝的是,現(xiàn)在還沒有形成足夠成熟的信息市場(chǎng)。比如像預(yù)測(cè)市場(chǎng)、博彩市場(chǎng)、股票市場(chǎng),如果已經(jīng)有這么多自動(dòng)化參與、而且還在不斷增長(zhǎng),那為什么還沒有一種機(jī)制,讓實(shí)時(shí)信息本身可以被直接定價(jià)?

所以我感覺,現(xiàn)在的 agent 互聯(lián)網(wǎng)其實(shí)還很早期,還沒有形成這樣的機(jī)制。但這很可能是未來的發(fā)展方向之一。

所以我覺得,從更宏觀的角度看,社會(huì)可能會(huì)在某種程度上重構(gòu),去服務(wù)這種系統(tǒng)的需求。整個(gè)行業(yè)可能會(huì)逐漸演變成一個(gè)高度自動(dòng)化的結(jié)構(gòu),而人類在其中承擔(dān)的角色,更像是在滿足這個(gè)系統(tǒng)的需求,而不完全是彼此之間直接協(xié)作。

主持人:話雖如此,但我們當(dāng)時(shí)正聚焦于一個(gè)非常具體的問題,即訓(xùn)練數(shù)據(jù)的缺失。我們需要某種類似自動(dòng)化研究的機(jī)制,對(duì)吧?也就是說,我們需要讓整個(gè)訓(xùn)練周期(或者 SFT 階段)變得更加高度機(jī)械化。

如果模型本身不能自主完成訓(xùn)練,那么你就很難把這件事做成一個(gè)真正的閉環(huán)系統(tǒng)。尤其是當(dāng)你還想通過給數(shù)據(jù)定價(jià)這種方式來驅(qū)動(dòng)數(shù)據(jù)獲取時(shí),這個(gè)問題會(huì)變得更加困難。

Karpathy:是的,百分之百是這樣。不過,就目前的情況而言,針對(duì) LLM 的訓(xùn)練,實(shí)際上非常順理成章,它真的與這種范式完美契合。所以,確實(shí)如此。

比如在訓(xùn)練這一塊,其實(shí)就非常契合這個(gè)范式,而且實(shí)現(xiàn)起來也相對(duì)容易。你可以去優(yōu)化代碼,讓訓(xùn)練跑得更快,同時(shí)也有明確的指標(biāo)可以去優(yōu)化。

我確實(shí)覺得,如果你圍繞這些指標(biāo)構(gòu)建一個(gè)完全自動(dòng)化的閉環(huán)系統(tǒng),很可能會(huì)出現(xiàn)刷指標(biāo)的情況,也就是系統(tǒng)過度擬合這些指標(biāo)。

但與此同時(shí),你也可以用這個(gè)系統(tǒng)去不斷設(shè)計(jì)新的指標(biāo),從而擴(kuò)大評(píng)估的覆蓋范圍。所以最終會(huì)形成一種動(dòng)態(tài)博弈的過程。

整體來看,在這樣的條件下,這種方法其實(shí)是相當(dāng)可行的。

參考鏈接:https://x.com/oran_ge/status/2035121401754263768

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
陳賡踢開房門,怒扇張?jiān)埔荻猓垼耗銍虖堉翗O,是哪路鬼神啊!

浩渺青史
2026-03-25 12:43:07

留幾手談張雪峰去世言論惹爭(zhēng)議:死者又不是我爹,憑什么為大……

留幾手談張雪峰去世言論惹爭(zhēng)議:死者又不是我爹,憑什么為大……

柴狗夫斯基
2026-03-25 21:01:47
鬧大了!美軍東太平洋再開火!打爆44艘運(yùn)輸船,150人被打死!

鬧大了!美軍東太平洋再開火!打爆44艘運(yùn)輸船,150人被打死!

愛吃醋的貓咪
2026-03-25 20:19:15
僅差51次!僅差16個(gè)!約基奇迎來神級(jí)里程碑,威少的紀(jì)錄保不住了

僅差51次!僅差16個(gè)!約基奇迎來神級(jí)里程碑,威少的紀(jì)錄保不住了

世界體育圈
2026-03-25 18:18:53
一家子全是美籍,卻還在國內(nèi)“撈金”,年賺4億,賬上還存有130億

一家子全是美籍,卻還在國內(nèi)“撈金”,年賺4億,賬上還存有130億

云景侃記
2026-02-26 23:05:22
2025年北京人均GDP為3.3萬美元

2025年北京人均GDP為3.3萬美元

財(cái)聯(lián)社
2026-03-25 11:42:09
AI焦慮癥來了!多家公司用KPI逼員工內(nèi)卷Token:休息的時(shí)候也停不下來

AI焦慮癥來了!多家公司用KPI逼員工內(nèi)卷Token:休息的時(shí)候也停不下來

快科技
2026-03-25 11:29:05
7個(gè)床上技巧,讓你的夫妻生活更“爽”

7個(gè)床上技巧,讓你的夫妻生活更“爽”

精彩分享快樂
2026-03-26 07:10:06
十年封號(hào)解禁:一群“神仙”回來了

十年封號(hào)解禁:一群“神仙”回來了

酷玩實(shí)驗(yàn)室
2026-03-24 16:28:06
華為養(yǎng)了十年的狼,帶著一群崽子把家偷了

華為養(yǎng)了十年的狼,帶著一群崽子把家偷了

老鷹哥
2026-03-13 11:31:52
伊朗外長(zhǎng):伊朗經(jīng)調(diào)解方與美“交流信息” 沒有談判

伊朗外長(zhǎng):伊朗經(jīng)調(diào)解方與美“交流信息” 沒有談判

新京報(bào)
2026-03-26 07:30:16
剛剛建倉!社?;鹦逻M(jìn)股曝光,5股重倉超3億元

剛剛建倉!社?;鹦逻M(jìn)股曝光,5股重倉超3億元

數(shù)據(jù)寶
2026-03-26 07:41:52
中東戰(zhàn)敗即滅頂?美國猶太財(cái)團(tuán),或?qū)⒊蓛?nèi)部矛盾的“替罪羊”

中東戰(zhàn)敗即滅頂?美國猶太財(cái)團(tuán),或?qū)⒊蓛?nèi)部矛盾的“替罪羊”

共工之錨
2026-03-23 16:39:36
不得不說!杜鋒對(duì)廣東隊(duì)更衣室,已經(jīng)失控了

不得不說!杜鋒對(duì)廣東隊(duì)更衣室,已經(jīng)失控了

體育哲人
2026-03-25 20:44:31
2場(chǎng)60分!才大一就簽運(yùn)動(dòng)品牌!NCAA歷史第一人!

2場(chǎng)60分!才大一就簽運(yùn)動(dòng)品牌!NCAA歷史第一人!

柚子說球
2026-03-25 08:49:16
中國著名車企澳洲代理商突然破產(chǎn)! 車主崩潰: 售后無人管, 10年保修打水漂!

中國著名車企澳洲代理商突然破產(chǎn)! 車主崩潰: 售后無人管, 10年保修打水漂!

澳微Daily
2026-03-25 12:47:36
記者:迷你羅去皇馬不是試訓(xùn),是為了保持狀態(tài)等中東局勢(shì)穩(wěn)定

記者:迷你羅去皇馬不是試訓(xùn),是為了保持狀態(tài)等中東局勢(shì)穩(wěn)定

懂球帝
2026-03-25 23:09:07
連爆三場(chǎng)!38+35+22!弗拉格最佳新秀懸了

連爆三場(chǎng)!38+35+22!弗拉格最佳新秀懸了

籃球教學(xué)論壇
2026-03-25 13:58:37
4-3大冷,中國隊(duì)豪取5連勝,比贏球更可貴的是,又1個(gè)李昊誕生

4-3大冷,中國隊(duì)豪取5連勝,比贏球更可貴的是,又1個(gè)李昊誕生

何老師呀
2026-03-25 14:57:26
湖北一公交車上乘客打司機(jī)搶方向盤,司機(jī)急剎車致一孕婦摔倒受傷,二審判公交公司賠7.3萬!

湖北一公交車上乘客打司機(jī)搶方向盤,司機(jī)急剎車致一孕婦摔倒受傷,二審判公交公司賠7.3萬!

大象新聞
2026-03-25 21:45:40
2026-03-26 08:04:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12598文章數(shù) 142593關(guān)注度
往期回顧 全部

科技要聞

紅極一時(shí)卻草草收?qǐng)?,Sora宣布正式關(guān)停

頭條要聞

伊朗軍方稱擊落美軍F-18戰(zhàn)機(jī) 現(xiàn)場(chǎng)畫面披露

頭條要聞

伊朗軍方稱擊落美軍F-18戰(zhàn)機(jī) 現(xiàn)場(chǎng)畫面披露

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂要聞

張雪峰遺產(chǎn)分割復(fù)雜!是否立遺囑成關(guān)鍵

財(cái)經(jīng)要聞

管濤:中東局勢(shì)如何影響人民幣匯率走勢(shì)?

汽車要聞

智己LS8放大招 30萬內(nèi)8系旗艦+全線控底盤秀實(shí)力

態(tài)度原創(chuàng)

本地
教育
房產(chǎn)
時(shí)尚
藝術(shù)

本地新聞

來永泰同安 赴一場(chǎng)春天的約會(huì)

教育要聞

中考數(shù)學(xué),幾何求面積,學(xué)霸的方法想不到

房產(chǎn)要聞

41億!259畝!建學(xué)?!齺嗊@個(gè)大城更,最新方案曝光!

女人過了40歲別胡亂穿衣,趕緊看看這些日系穿搭,舒適又耐看

藝術(shù)要聞

原來唐朝貴婦的生活,比我們還會(huì)享受!

無障礙瀏覽 進(jìn)入關(guān)懷版