網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Andrej Karpathy最新播客：Token沒用完讓人焦慮，像患上AI精神病

2026-03-23 10:47:49　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心編輯部

近日，AI 領(lǐng)域知名專家 Andrej Karpathy 做客一檔播客節(jié)目，在長(zhǎng)達(dá)一個(gè)小時(shí)的對(duì)談中，他不僅回顧了自己近一年的工作狀態(tài)，也系統(tǒng)闡述了一個(gè)正在迅速成形的新范式：以 Agent 為核心的軟件生產(chǎn)方式重構(gòu)。

Andrej Karpathy 直言自己「病了」，患上了嚴(yán)重的「AI 精神病」。

從去年 12 月開始，他再也沒有手寫過一行代碼。每天 16 小時(shí)，他都在和 Agent 對(duì)話，同時(shí)并行驅(qū)動(dòng)十多個(gè)任務(wù)；甚至當(dāng) token 沒被「用滿」時(shí)，他會(huì)感到不安。這種對(duì) AI 的高度依賴，他稱之為「AI 精神病」（AI psychosis）。

Karpathy 判斷，App 終將消失。設(shè)備只需開放 API，Agent 會(huì)成為新的「操作系統(tǒng)」，把音響、燈光、空調(diào)、窗簾、安防全部串聯(lián)起來，甚至只需三段提示詞，就能在一個(gè) WhatsApp 對(duì)話里完成統(tǒng)一控制。

未來的用戶將不再是人，而是代表人行動(dòng)的 Agent。整個(gè)軟件與商業(yè)體系，都必須圍繞 Agent 進(jìn)行重構(gòu)。

甚至連組織本身，也在被重新定義：一個(gè)研究機(jī)構(gòu)，本質(zhì)上就是一組 markdown 文件 —— 角色、流程、協(xié)作方式，全都是「代碼」；而凡是代碼，就可以被持續(xù)優(yōu)化。

播客地址：https://music.youtube.com/watch?v=kwSVtQ7dziU

以下為播客全部?jī)?nèi)容：

Karpathy 直言患上了嚴(yán)重的「AI 精神病」

主持人：大家好，今天我們邀請(qǐng)到了 Andrej Karpathy。這期節(jié)目?jī)?nèi)容會(huì)非常豐富，我們會(huì)聊到代碼 Agent、工程與 AI 研究的未來、更多人如何參與科研、機(jī)器人領(lǐng)域的進(jìn)展，以及他對(duì)于 Agent 如何走向現(xiàn)實(shí)世界、以及下一階段教育形態(tài)的判斷。

最近這幾個(gè)月，AI 真的非常令人興奮。

Karpathy：確實(shí)可以這么說。

主持人：我記得有一次我走進(jìn)辦公室，看到你完全沉浸在狀態(tài)里。我問你在做什么，你說：「我現(xiàn)在必須每天工作 16 個(gè)小時(shí)…… 甚至寫代碼都已經(jīng)不是一個(gè)合適的說法了。」你說你是在：不斷把自己的意圖表達(dá)給 Agent，讓它們?nèi)?zhí)行、去實(shí)現(xiàn)。因?yàn)槟芰Πl(fā)生了一次躍遷。那到底發(fā)生了什么？能講講你的體驗(yàn)嗎？

Karpathy：我感覺自己進(jìn)入了一種持續(xù)的狀態(tài)，我現(xiàn)在也經(jīng)常還在這種狀態(tài)里，可以說是一種「AI 精神病」（AI psychosis）。因?yàn)閷?duì)一個(gè)個(gè)體來說，能實(shí)現(xiàn)的事情突然被極大地釋放了。過去，你的瓶頸是打字速度，是你自己寫代碼的效率；但現(xiàn)在，有了這些 Agent，這個(gè)瓶頸基本被打破了。我覺得大概是在去年 12 月，發(fā)生了一次非常明顯的變化，就像某個(gè)開關(guān)被撥動(dòng)了一樣。我的工作方式，從原來大概是 80% 自己寫代碼、20% 交給 Agent，變成了 20% 自己寫代碼、80% 交給 Agent。而現(xiàn)在，甚至已經(jīng)遠(yuǎn)遠(yuǎn)不止 20/80 了。

事實(shí)上，我大概從 12 月開始，就幾乎沒有再親手寫過一行代碼了。這是一個(gè)極其巨大的變化。

我甚至試著跟我父母講這件事，但我不覺得普通人真的意識(shí)到了這件事情已經(jīng)發(fā)生，或者理解它的沖擊有多大。

如果你現(xiàn)在隨便找一個(gè)軟件工程師，看看他在工位上做什么，你會(huì)發(fā)現(xiàn)：他們構(gòu)建軟件的默認(rèn)工作流，已經(jīng)徹底改變了，而這一切，幾乎就在去年 12 月發(fā)生。

我一直在試圖搞清楚一件事：到底什么是可能的，這個(gè)邊界又在哪里。比如，我不再滿足于只運(yùn)行一個(gè) Agent 會(huì)話，無論是 Claude Code、Codex，還是其他 agent harness，而是開始思考，如何同時(shí)運(yùn)行多個(gè) Agent，如何去調(diào)度它們、組織它們，讓它們真正協(xié)同工作。同時(shí)，我也在反復(fù)追問：這些所謂的「claw」，也就是類 Agent 系統(tǒng)，本質(zhì)上到底是什么？我又該如何真正把它們用到極致。

但問題在于，一切都來得太快了。新的東西不斷涌現(xiàn)，幾乎每天都在刷新認(rèn)知。我非?？释驹谶@個(gè)浪潮的最前沿，但與此同時(shí)，我也清楚地意識(shí)到，自己其實(shí)還沒有真正站在那里。我看到 X 上有很多人在做各種嘗試，有些想法確實(shí)很驚艷，但也有不少并不成熟。然而，正是這種混雜的探索狀態(tài)，讓我變得更加焦慮，好像如果不拼命往前沖、不搶占最前排的位置，就會(huì)被甩下。

這種感覺，甚至有點(diǎn)讓人不安。

所以我覺得，我現(xiàn)在確實(shí)處在一種「AI 精神病」的狀態(tài)里：不斷地去探索什么是可能的，因?yàn)檫@個(gè)空間，本質(zhì)上還是一片完全未被探索的領(lǐng)域。

主持人：如果你感到緊張，那我們其他人也都一樣緊張。那么你現(xiàn)在怎么看待自己去探索或做項(xiàng)目的能力？它的瓶頸在哪里？

Karpathy：是啊，它到底受限于什么？我覺得幾乎受限于一切。很多時(shí)候，即便事情沒做成，你也會(huì)覺得很大程度上是能力問題。不是說能力本身不存在，而是你還沒找到一種方法，把現(xiàn)有的一切串聯(lián)起來。

比如說，可能是我沒有給 Agent 寫出足夠好的指令，或者默認(rèn)配置文件沒調(diào)好；也可能是我沒有接入一個(gè)足夠好的記憶工具之類的。所以一旦跑不通，就會(huì)感覺問題出在自己能力不夠，于是你就會(huì)開始想，怎么把這些系統(tǒng)編排起來之類的。

你會(huì)很想成為那種人，比如 Peter Steinberger。他很有名，有一張很經(jīng)典的照片：他坐在一堆顯示器前，用的是 Codex，一屏幕全是各種 Codex agent。如果你提示詞寫得對(duì)、選擇高強(qiáng)度模式，這些 agent 大概每個(gè)跑 20 分鐘，就能各自把一個(gè) repo 拉下來、開始干活。于是他就在這些 agent 之間來回切換，不斷給它們追加指令。

這種感覺就像，你開始用更大粒度的宏操作在行動(dòng)。不再是寫一行代碼、寫一個(gè)函數(shù)，而是這是一個(gè)新功能，交給 Agent 1；這是另一個(gè)不會(huì)互相干擾的功能，交給 Agent 2；然后你再根據(jù)自己對(duì)代碼質(zhì)量的在意程度，去審查它們的輸出。

你開始思考的是，我可以用哪些宏操作去操控整個(gè)代碼倉庫。比如，一個(gè) agent 在做調(diào)研，一個(gè)在寫代碼，一個(gè)在為新實(shí)現(xiàn)制定方案，一切都在以這種宏觀動(dòng)作的方式，在你的倉庫上同時(shí)發(fā)生。

而你要做的，就是不斷練習(xí)，變得非常擅長(zhǎng)這種模式，形成一種肌肉記憶。這件事其實(shí)非常有成就感，首先它是真的能跑通，其次它本身也變成了一項(xiàng)全新的學(xué)習(xí)內(nèi)容。

所以，也正因?yàn)檫@樣，才會(huì)出現(xiàn)那種有點(diǎn)上頭、甚至像精神錯(cuò)亂一樣的狀態(tài)。

沒把 token 的吞吐量用到最大，有些焦慮

主持人：是的，我確實(shí)有一種本能：每當(dāng)我在等待某個(gè) agent 完成任務(wù)的時(shí)候，很自然就會(huì)覺得，那我還可以再多做點(diǎn)事情。對(duì)吧？如果我還有更多 token 可用，那我就應(yīng)該把所有任務(wù)都并行起來。

但這其實(shí)挺讓人有壓力的。因?yàn)槿绻悴]有被 token 的使用能力明顯限制住，那么你就會(huì)意識(shí)到，系統(tǒng)真正的瓶頸其實(shí)是你自己。只要你沒有把它的能力用到極限，你就成了那個(gè)限制系統(tǒng)發(fā)揮最大能力的人。

Karpathy：如果你連訂閱資源都沒有用滿，那就說明你還沒有把系統(tǒng)能力發(fā)揮到極致。理想情況下，你應(yīng)該同時(shí)調(diào)度多個(gè) agent，比如在 Codex 上的額度用完了，就切換到 Claude 或其他云服務(wù)之類的。我自己也在嘗試這樣做。

而且當(dāng)我發(fā)現(xiàn)還有訂閱額度沒用完的時(shí)候，會(huì)有一種緊張感。這意味著我沒有把 token 的吞吐量用到最大。

其實(shí)我在讀博的時(shí)候也有類似的體驗(yàn)：當(dāng)你的 GPU 沒在跑的時(shí)候，你會(huì)感到焦慮，因?yàn)槟銢]有把手頭的算力用滿，沒有把可用的 FLOPs 壓榨到極限。但現(xiàn)在已經(jīng)不再是算力的問題了，而是 token 的問題。

所以現(xiàn)在的問題變成了：你的 token 吞吐量是多少？你到底在調(diào)動(dòng)多大的 token 吞吐能力？

主持人：我其實(shí)會(huì)覺得，這一點(diǎn)很有意思：在過去至少十年里，很多工程任務(wù)中，人們并不會(huì)覺得自己受限于算力，對(duì)吧？但現(xiàn)在整個(gè)行業(yè)都開始有這種感覺了，覺得自己是被資源限制的。

而當(dāng)這種能力出現(xiàn)巨大躍遷之后，你會(huì)突然意識(shí)到，問題已經(jīng)不再是我能不能獲得算力了，而是我自己成了那個(gè)約束條件。本質(zhì)上變成了能力問題。

Karpathy：但這其實(shí)也很有賦能感，因?yàn)檫@意味著你是可以不斷變強(qiáng)的。所以我覺得這件事很容易讓人上癮，因?yàn)槊慨?dāng)你掌握一個(gè)新方法，就像解鎖了新的能力一樣。

我覺得大家其實(shí)都在往更高的抽象層走。也就是說，問題不再是你和一個(gè) agent 的單次交互，而是多個(gè) agent 之間如何協(xié)作、如何形成團(tuán)隊(duì)，這才是大家都在探索的方向。

Karpathy 對(duì) OpenClaw 的看法

另外，我覺得 Claw 也是一個(gè)很有意思的方向。這里說的 Claw，其實(shí)是一種把持續(xù)性提升到新層級(jí)的系統(tǒng)。它不是那種需要你一直盯著、實(shí)時(shí)交互的東西，而是更像一個(gè)獨(dú)立運(yùn)行的小環(huán)境，有自己的 sandbox，可以在你不看的時(shí)候，持續(xù)替你做事情。

同時(shí)，它還可能具備更復(fù)雜的記憶系統(tǒng)，而這些在當(dāng)前的 agent 里其實(shí)還沒有很好實(shí)現(xiàn)。比如說，像 OpenClaw 這樣的系統(tǒng)，在我看來，它的記憶能力就比默認(rèn)的 agent 要復(fù)雜得多。默認(rèn)的 agent 往往只是當(dāng)上下文不夠時(shí)做一些壓縮處理，而不是一種真正長(zhǎng)期、結(jié)構(gòu)化的記憶體系。

主持人：我認(rèn)為，正是這一點(diǎn)在用戶群體中產(chǎn)生了更強(qiáng)的共鳴，相比之下，單純提供更廣泛的工具訪問權(quán)限可能就沒有這種效果。

Karpathy：關(guān)于 OpenClaw…… 嗯，我想說的內(nèi)容還挺多的。

Peter 確實(shí)做得非常出色。我最近見過他，也和他聊過這件事。他本人很謙虛，但我覺得他其實(shí)是在五個(gè)不同方向上同時(shí)做了創(chuàng)新，并把它們整合在一起。

比如說，他在文檔設(shè)計(jì)上花了很多心思，真的塑造出了一種有吸引力、有個(gè)性的風(fēng)格。我覺得現(xiàn)在很多 agent 在這一點(diǎn)上其實(shí)做得不太好。反而像 Claude 的人格就做得挺不錯(cuò)，更像一個(gè)隊(duì)友，會(huì)和你一起興奮、一起投入。

相比之下，Codex 就要干很多。這也挺有意思的，因?yàn)樵?ChatGPT 里，Codex 的表現(xiàn)是更積極、甚至有點(diǎn)討好用戶的。但作為編程 agent，Codex 就顯得非常冷淡，好像并不關(guān)心你在做什么。它更像是在說它已經(jīng)實(shí)現(xiàn)了功能。但你會(huì)忍不住想，它真的理解我們?cè)跇?gòu)建什么嗎？

是的，它確實(shí)不會(huì)那樣表現(xiàn)。另外一點(diǎn)是，比如像 Claude，我覺得它在討好程度上的把控是比較到位的。當(dāng)它夸我的時(shí)候，我會(huì)覺得多少是配得上的。因?yàn)橛袝r(shí)候我給它的只是一些還沒有完全想清楚的想法，它的反應(yīng)不會(huì)特別強(qiáng)烈，只是說可以實(shí)現(xiàn)。但當(dāng)我自己也覺得這是個(gè)不錯(cuò)的想法時(shí)，它確實(shí)會(huì)更明顯地給予認(rèn)可。

于是就會(huì)出現(xiàn)一種有點(diǎn)奇怪的感覺，好像我在努力去贏得它的認(rèn)可一樣。所以我確實(shí)覺得，人格這件事非常重要，而很多其他工具可能沒有那么重視這一點(diǎn)。我覺得在這方面，Peter 是非常在意的，這一點(diǎn)他是做對(duì)了。

再加上記憶系統(tǒng)，以及他本身也是在享受這個(gè)過程，還有通過一個(gè) WhatsApp 窗口統(tǒng)一接入所有自動(dòng)化能力，這些組合在一起，就形成了一種很特別的使用體驗(yàn)。

Karpathy 用 Claw 重寫家庭操作系統(tǒng)

主持人：除了軟件工程之外，你個(gè)人是否曾利用你的 Claw 做過什么，并且覺得既有趣又好玩的事情？

Karpathy：是的，所以在一月份的時(shí)候，我也經(jīng)歷了一段類似 Claw 上頭的階段。我自己做了一個(gè) Dobby，基本上用來管理我家里的各種設(shè)備。

我當(dāng)時(shí)是用 agent 去自動(dòng)發(fā)現(xiàn)我家局域網(wǎng)里的所有智能家居子系統(tǒng)，結(jié)果讓我挺意外的是，這件事幾乎是開箱即用就成功了。比如我只是跟它說，我家里應(yīng)該有 Sonos，你能不能幫我找一下。然后它就開始掃描整個(gè)局域網(wǎng)里的設(shè)備，相當(dāng)于對(duì)所有連接的設(shè)備做了一次 IP 掃描，最后真的找到了 Sonos 系統(tǒng)。

更離譜的是，它發(fā)現(xiàn)這個(gè)系統(tǒng)居然沒有任何密碼保護(hù)，就直接連進(jìn)去了，然后告訴我你家里有這些 Sonos 設(shè)備。接著它又去做了一些網(wǎng)頁搜索，最后找到了對(duì)應(yīng)的 API 接口。

然后它問我要不要試一下，我當(dāng)時(shí)都有點(diǎn)震驚，說你已經(jīng)做到這一步了嗎。然后我說那你能不能在書房放點(diǎn)音樂。結(jié)果它真的做到了，音樂就響起來了。我當(dāng)時(shí)完全不敢相信這一切就這樣發(fā)生了。

我真的不敢相信，我只是打了一句你能幫我找到我的 Sonos 嗎，然后它就真的放出音樂了。它對(duì)燈光也是一樣的操作?；旧暇褪?，它自己「黑」進(jìn)去，搞清楚整個(gè)系統(tǒng)，構(gòu)建了 API，還做了一個(gè)控制面板，讓我可以看到家里所有燈的控制中心。

然后它就可以幫我開關(guān)燈之類的，比如我跟它說 Dobby，該睡覺了，那么它就會(huì)把所有燈都關(guān)掉。類似這樣，它現(xiàn)在可以控制我家里的燈光、空調(diào)系統(tǒng)、窗簾、泳池和溫泉設(shè)備，還有安防系統(tǒng)。

我在屋外裝了一個(gè)攝像頭，只要有人靠近，它就會(huì)觸發(fā)檢測(cè)。首先是變化檢測(cè)，一旦檢測(cè)到變化，就會(huì)調(diào)用一個(gè)視覺模型去分析畫面。然后它會(huì)通過 WhatsApp 給我發(fā)消息，附上一張外面的圖片，并告訴我，比如剛剛有一輛卡車停在門口，你可能需要看一下，可能有個(gè)包裹之類的。然后 Dobby 就會(huì)直接給我發(fā)消息。

這一切真的非常不可思議?，F(xiàn)在 Dobby 相當(dāng)于是整個(gè)家的控制中樞，我通過 WhatsApp 和它溝通。用這種宏操作去管理整個(gè)家庭，其實(shí)非常有意思。

我還沒有把它推到更極致的用法，我知道有些人玩得更瘋狂。但對(duì)我來說，僅僅是家庭自動(dòng)化這一點(diǎn)就已經(jīng)很有用了。以前我要用六七個(gè)不同的 App 來控制這些設(shè)備，現(xiàn)在完全不需要了，Dobby 可以用自然語言統(tǒng)一控制一切。這真的很驚人。

所以我覺得，我甚至還沒有完全把這個(gè)范式用到極限，但它已經(jīng)非常有幫助，也非常讓人興奮。

主持人：你覺得這是否在某種程度上反映了人們從用戶體驗(yàn)角度出發(fā)，對(duì)軟件所抱持的期望？畢竟，人們往往很容易忽略這樣一個(gè)事實(shí)：學(xué)習(xí)新軟件，尤其是全新的用戶界面（UI），其實(shí)是需要耗費(fèi)人力精力的。

Karpathy：我覺得某種程度上這是對(duì)的。這更像是從人們心中對(duì) AI 應(yīng)該是什么樣子倒推回去設(shè)計(jì)。因?yàn)槿藗兡X海里的 AI，其實(shí)并不是原始意義上的 LLM。從本質(zhì)上講，LLM 只是一個(gè)生成 token 的系統(tǒng)，不斷輸出下一個(gè) token。

但人們想象中的 AI，更像是一個(gè)有人格、有身份的存在，你可以和它交流，它會(huì)記住事情，它像是一個(gè)在 WhatsApp 背后的實(shí)體，這種形態(tài)對(duì)人來說更容易理解。

所以在某種程度上，這是在匹配用戶已經(jīng)形成的預(yù)期，讓 AI 的行為更符合人們認(rèn)為一個(gè)助手應(yīng)該如何運(yùn)作。但在底層，其實(shí)有大量技術(shù)細(xì)節(jié)在支撐這一切，而單純的 token 生成這種原始機(jī)制，對(duì)大多數(shù)人來說太底層、太抽象，很難被當(dāng)作真正的 AI 來理解。

大量定制化、碎片化的 App，有點(diǎn)被過度生產(chǎn)了

主持人：沒錯(cuò)，我想這恰恰反映了我們對(duì) AI 本質(zhì)的理解方式，將它描述為像 Dobby 那樣的角色，或是某個(gè)具體的人格形象，顯然能引起人們的強(qiáng)烈共鳴。此外，我認(rèn)為你為了實(shí)現(xiàn)家庭自動(dòng)化，將六套截然不同的軟件系統(tǒng)整合為一的做法，其實(shí)引出了另一個(gè)值得深思的問題：人們真的需要如今市面上林林總總的各類軟件嗎？確實(shí)如此。因?yàn)槲蚁胩岢鲞@樣一個(gè)觀點(diǎn)：誠然，你擁有了相應(yīng)的硬件設(shè)備，但你卻徹底舍棄了原本附帶的軟件層，或者說是用戶體驗(yàn)（UX）層。你覺得這真的是人們所期望的嗎？

Karpathy：是的，我覺得有一種感覺是，現(xiàn)在應(yīng)用商店里這些用于控制智能家居設(shè)備的 App，在某種意義上其實(shí)不應(yīng)該存在。是不是本來就應(yīng)該只是提供 API，然后由 agent 直接去調(diào)用？而且這樣一來，我可以實(shí)現(xiàn)各種自動(dòng)化組合，這是任何單個(gè) App 都做不到的。agent 可以統(tǒng)一調(diào)度這些工具，調(diào)用正確的接口，完成相當(dāng)復(fù)雜的任務(wù)。

從這個(gè)角度看，確實(shí)指向一個(gè)趨勢(shì)：現(xiàn)在這種大量定制化、碎片化的 App，其實(shí)有點(diǎn)被過度生產(chǎn)了。因?yàn)?agent 會(huì)把它們壓扁，所有能力都應(yīng)該以 API 的形式暴露出來，而 agent 作為智能的膠水層，去調(diào)用這些工具，把各個(gè)部分串聯(lián)起來。

再比如我的跑步機(jī)，它有自己的 App，我想記錄自己做有氧運(yùn)動(dòng)的頻率。但我不想每次都登錄一個(gè)網(wǎng)頁界面，走一套復(fù)雜流程。這些本來就應(yīng)該通過 API 直接完成。這其實(shí)就是在走向一種 agent 優(yōu)先的互聯(lián)網(wǎng)形態(tài)，或者說 agent first 的工具體系。

所以我覺得整個(gè)行業(yè)都需要在很多層面進(jìn)行重構(gòu)。未來的客戶不再是人類，而是代表人類行動(dòng)的 agent。這種重構(gòu)的規(guī)模，在某種意義上會(huì)非常巨大。

有些人會(huì)反駁，說普通人真的會(huì)去做這種底層操作嗎？是不是要讓大家去寫類似字節(jié)碼的東西？但我覺得，這只是當(dāng)前階段的技術(shù)形態(tài)。現(xiàn)在確實(shí)還需要一些類似底層操作的過程，我自己也在參與、在和系統(tǒng)一起調(diào)試。

但我隱約感覺，這些我剛才說的能力，本來就應(yīng)該是免費(fèi)的。在未來一兩年甚至三年內(nèi)，這些事情會(huì)變得非常簡(jiǎn)單，成為基礎(chǔ)能力。任何 AI，甚至開源模型，都可以輕松完成這些事情。

主持人：你應(yīng)該能夠非常輕松地將非技術(shù)人員的意圖轉(zhuǎn)化為相應(yīng)的表達(dá)。但即便如此，你還是需要做一些設(shè)計(jì)決策，對(duì)吧？比如我們剛才提到的一些具體實(shí)現(xiàn)方式。

Karpathy：不過我感覺，隨著時(shí)間推移，這些門檻會(huì)不斷降低，最后會(huì)變成軟件在替你完成一切，有點(diǎn)像一種 Claw 在后臺(tái)處理所有細(xì)節(jié)，而你并不需要參與其中。Claw 自己有一套運(yùn)行機(jī)制，會(huì)把事情搞定，然后只把界面呈現(xiàn)給你，你只需要用自然語言去表達(dá)需求。

主持人：那為什么你還沒有把自己在 Claw 上的能力推到極限？是因?yàn)樵谧龈匾捻?xiàng)目，比如自動(dòng)化研究，還是說你正在逐步走向精通的過程中，或者有其他原因？

Karpathy：我感覺主要還是因?yàn)樘菀妆桓鞣N事情分散注意力了。我之前大概花了一周時(shí)間在 Claw 上，但現(xiàn)在反而有更多待辦事項(xiàng)了。

我也沒有真正把它用在郵箱、日歷這些更核心的場(chǎng)景上，甚至都沒有接入。一方面是因?yàn)檫@套東西還很新，還有點(diǎn)粗糙，我對(duì)它還是有些不放心；另一方面也是出于安全和隱私的考慮，我不太愿意一下子把自己的整個(gè)數(shù)字生活都交給它。

所以某種程度上，這確實(shí)限制了我繼續(xù)深入使用它，這可能是最主要的原因。同時(shí)也有一部分原因是，我確實(shí)有點(diǎn)被各種事情分散了精力。之前那一周幾乎都在玩 Claw，但之后其他事情又不斷涌進(jìn)來。

把研究員移出循環(huán)

主持人：究竟是什么…… 我是說，你曾提到過，能夠讓智能體（Agents）去執(zhí)行訓(xùn)練模型，或者至少是優(yōu)化模型，這項(xiàng)任務(wù)，是你長(zhǎng)期以來一直希望能實(shí)現(xiàn)的目標(biāo)。那么，Auto 背后的具體動(dòng)機(jī)究竟是什么呢？

Karpathy：研究這件事，是的。我之前發(fā)過一條推文，大概意思是，要想真正發(fā)揮現(xiàn)在這些工具的最大價(jià)值，你必須把自己從系統(tǒng)的瓶頸中移除。你不能總是待在那兒去下一個(gè)提示、做下一步操作，你需要把自己抽離出來。要把系統(tǒng)設(shè)計(jì)成完全自動(dòng)運(yùn)行。

核心目標(biāo)是，如何在不參與循環(huán)的情況下，最大化你的 token 吞吐量。也就是說，讓系統(tǒng)自己跑起來，而不是依賴你不斷介入。

所以我當(dāng)時(shí)提到，現(xiàn)在這個(gè)階段的關(guān)鍵是提升杠桿率。你只需要偶爾投入很少量的 token，但系統(tǒng)會(huì)替你完成大量工作。自動(dòng)化研究就是這種思路的一個(gè)體現(xiàn)。

我當(dāng)時(shí)發(fā)了這個(gè)觀點(diǎn)，大家也挺喜歡，但可能還沒有真正想清楚它的含義。對(duì)我來說，自動(dòng)化研究就是這個(gè)理念的一個(gè)直接推演。我不想自己作為研究者一直在循環(huán)里盯著結(jié)果、不斷干預(yù)，因?yàn)槟欠炊窃谕下到y(tǒng)。

關(guān)鍵問題變成，我如何重構(gòu)整個(gè)抽象層，讓自己不再參與其中。只需要設(shè)置好一次，然后點(diǎn)擊運(yùn)行。接下來要做的，就是盡可能讓更多 agent 在更長(zhǎng)時(shí)間內(nèi)、在沒有你參與的情況下持續(xù)運(yùn)行，替你完成任務(wù)。

自動(dòng)化研究本質(zhì)上就是這樣。給定一個(gè)目標(biāo)，定義好評(píng)估指標(biāo)，設(shè)定清晰的邊界條件，規(guī)定哪些可以做、哪些不能做，然后就讓系統(tǒng)自己去執(zhí)行。

主持人：你對(duì)它的有效性感到驚訝嗎？

Karpathy：我其實(shí)一開始并不覺得這會(huì)真的有效。

我真正更感興趣的是遞歸自我改進(jìn)這個(gè)問題，也就是在多大程度上，LLM 可以用來改進(jìn) LLM。本質(zhì)上，這也是所有前沿實(shí)驗(yàn)室都在做的事情，原因很明顯，它們都在嘗試某種形式的遞歸自我提升。

所以對(duì)我來說，這更像是一個(gè)小型試驗(yàn)場(chǎng)。我之前其實(shí)已經(jīng)用傳統(tǒng)方式手動(dòng)調(diào)過很多次模型了。畢竟我是研究員，這件事我做了二十年，有一定的經(jīng)驗(yàn)積累?？梢哉f是那種長(zhǎng)期實(shí)踐帶來的自信。我訓(xùn)練過成千上萬次模型，做過各種實(shí)驗(yàn)，調(diào)過超參數(shù)，基本上所有常規(guī)手段都用過，這些都是我過去二十年一直在做的事情。

我把模型調(diào)到了一個(gè)我認(rèn)為已經(jīng)相當(dāng)不錯(cuò)的狀態(tài)。但后來我讓自動(dòng)化研究系統(tǒng)跑了一整晚，結(jié)果它找到了我沒有發(fā)現(xiàn)的優(yōu)化點(diǎn)。比如我忘了給 value embedding 加 weight decay。這些參數(shù)之間是相互作用的，一個(gè)地方調(diào)了，其他地方也可能需要跟著調(diào)整。

所以我其實(shí)不應(yīng)該成為瓶頸。我不應(yīng)該手動(dòng)去做這些超參數(shù)優(yōu)化，也不應(yīng)該盯著結(jié)果看。因?yàn)樵谶@個(gè)問題里，是有明確的客觀指標(biāo)的。你只需要把系統(tǒng)搭好，讓它可以持續(xù)運(yùn)行就行了。這就是自動(dòng)化研究的一種形式，一個(gè)單循環(huán)不斷嘗試改進(jìn)的過程。

讓我驚訝的是，即便這個(gè)倉庫已經(jīng)調(diào)得相當(dāng)不錯(cuò)，它還是能找到新的優(yōu)化空間。而這還只是一個(gè)單循環(huán)。那些前沿實(shí)驗(yàn)室擁有成千上萬 GPU 的集群。

所以很容易想象，你可以在小模型上做大量自動(dòng)化探索，然后再把這些結(jié)果外推到更大的模型上。本質(zhì)上，所謂前沿智能的發(fā)展，很多都是關(guān)于如何通過擴(kuò)展和損失函數(shù)的變化進(jìn)行外推。你在小模型上做大量探索，然后再進(jìn)行規(guī)模化擴(kuò)展。

主持人：所以你的意思是，如果我們能把這項(xiàng)實(shí)驗(yàn)工作做得更好，我們的研發(fā)工作效率就會(huì)隨之提升，具體來說，就是當(dāng)我們進(jìn)行規(guī)?；瘮U(kuò)展時(shí)，也能擁有更明確的方向指引。

Karpathy：我覺得最有意思的方向，也是那些前沿實(shí)驗(yàn)室大概率正在做的，是這樣的：先在小模型上做實(shí)驗(yàn)，盡可能讓整個(gè)過程變得完全自動(dòng)化，把研究人員從循環(huán)中移除。因?yàn)槿祟愅刑嗖辉撚械淖孕?，其?shí)他們不應(yīng)該直接參與這些具體執(zhí)行。

他們可以提供想法，但不應(yīng)該親自去執(zhí)行這些想法。應(yīng)該有一個(gè)統(tǒng)一的想法隊(duì)列，這些想法可以來自一個(gè)自動(dòng)化的科學(xué)家，它基于論文和 GitHub 倉庫生成新思路；當(dāng)然研究員也可以提交想法。但這些想法都進(jìn)入同一個(gè)隊(duì)列，然后由一批 worker 去拉取任務(wù)并執(zhí)行實(shí)驗(yàn)。有效的結(jié)果就被加入到 feature 分支中，再由少量人去監(jiān)控這些分支，偶爾合并到主分支。

整體思路就是盡可能把人從流程中移除，實(shí)現(xiàn)最大程度的自動(dòng)化，同時(shí)提升 token 的吞吐效率。這也意味著需要重構(gòu)整個(gè)系統(tǒng)的抽象層，把一切重新組織一遍。所以這是一個(gè)非常讓人興奮的方向。

但它目前只是用 markdown 寫出來的一套規(guī)則。理想情況下，你需要一個(gè)自動(dòng)化研究循環(huán)，而且不同的 program.md 會(huì)帶來不同的研究進(jìn)展?？梢园衙恳粋€(gè)研究組織都看成是一組 markdown 文件，定義了所有角色和整個(gè)系統(tǒng)是如何協(xié)作的。

你甚至可以想象有不同風(fēng)格的研究組織，比如有的開很多無用的晨會(huì)，有的完全沒有；有的更激進(jìn)，有的更保守。這些本質(zhì)上都是代碼，一旦是代碼，就可以被優(yōu)化、被調(diào)參。

所以實(shí)際上還存在一個(gè)更高一層的元優(yōu)化空間，也就是對(duì)研究組織本身進(jìn)行優(yōu)化。

主持人：未來的工作模式究竟會(huì)是怎樣的？

Karpathy：不過我覺得關(guān)于這種所謂的 LLM 上頭狀態(tài)，還是有幾個(gè)前提需要說明。

第一點(diǎn)，這種方式非常適用于那些目標(biāo)明確、指標(biāo)可以客觀評(píng)估的任務(wù)。比如寫 CUDA kernel、優(yōu)化模型中的某些代碼模塊，這類問題就非常適合。因?yàn)槟阌幸粋€(gè)明確的目標(biāo)，原本代碼是低效的，你希望得到一個(gè)在行為完全一致的前提下更高效的版本。這種場(chǎng)景非常契合自動(dòng)化研究。但也有很多事情不適合。如果你無法評(píng)估結(jié)果，那就無法進(jìn)行研究，這是第一個(gè)限制。

第二點(diǎn)是，我們現(xiàn)在討論的是下一步的發(fā)展路徑，某種程度上也能看清方向。但整個(gè)系統(tǒng)其實(shí)還不成熟，還有很多邊角問題，有點(diǎn)像在邊緣撐著，存在裂縫，還沒有完全穩(wěn)定。如果你走得太快、推得太遠(yuǎn)，反而整體會(huì)變得不那么有用。

這些模型確實(shí)已經(jīng)進(jìn)步很大了，但依然有些粗糙。我有時(shí)候會(huì)覺得，自己好像同時(shí)在和一個(gè)極其聰明、經(jīng)驗(yàn)豐富的系統(tǒng)程序員，以及一個(gè)十歲的小孩在對(duì)話。這種感覺非常奇怪。因?yàn)樵谌祟惿砩希@些能力通常是高度耦合在一起的，而在模型上卻是分裂的。

這種鋸齒感真的很奇怪。人類也會(huì)有一些，但要少得多；而這些 agent 的表現(xiàn)就更加不穩(wěn)定。有時(shí)候我只是讓它實(shí)現(xiàn)一個(gè)功能，它卻會(huì)返回一個(gè)完全錯(cuò)誤的結(jié)果，然后我們就會(huì)陷入一連串錯(cuò)誤的循環(huán)。

這真的讓人很挫敗。我現(xiàn)在還是經(jīng)常會(huì)對(duì)這些 agent 感到很煩，因?yàn)槟阋环矫婺苊黠@感受到它的強(qiáng)大能力，但另一方面，它又缺乏穩(wěn)定性，很多時(shí)候沒辦法持續(xù)地把事情做好。

智能的泛化與分化

主持人：好吧，每當(dāng)我感覺 agent 在處理某個(gè)本該一眼就能識(shí)別出的顯而易見的問題上，浪費(fèi)了大量的計(jì)算資源時(shí)，我就會(huì)感到非常惱火。

Karpathy：我覺得更深一層的原因可能在于，這些模型本質(zhì)上是通過強(qiáng)化學(xué)習(xí)訓(xùn)練出來的。所以它們其實(shí)也在面對(duì)我們剛才說的同樣問題：只要是可以驗(yàn)證的事情，實(shí)驗(yàn)室就可以不斷優(yōu)化模型，并通過獎(jiǎng)勵(lì)機(jī)制去強(qiáng)化這些能力。

比如你有沒有把程序?qū)憣?duì)，單元測(cè)試有沒有通過，這些都是可以明確判斷對(duì)錯(cuò)的。但它們比較吃力的地方在于一些更微妙的東西，比如理解我真正的意圖，或者判斷什么時(shí)候應(yīng)該主動(dòng)提出澄清問題。

凡是這種偏軟的東西，表現(xiàn)通常就會(huì)差很多。所以你會(huì)感覺，要么是在一條軌道上，處在那種接近超智能的狀態(tài)，一切都很順暢；要么一旦脫離了這些可驗(yàn)證的場(chǎng)景，整個(gè)系統(tǒng)就開始變得發(fā)散、游走，沒有明確方向。

換個(gè)說法就是，如果你現(xiàn)在去用最先進(jìn)的模型，比如 ChatGPT，讓它講個(gè)笑話，你大概能猜到它會(huì)講什么類型的笑話。

主持人：這個(gè)笑話，我說不出它的標(biāo)準(zhǔn)版本，但我確實(shí)感覺 ChatGPT 好像就只有那么兩三個(gè)笑話。

Karpathy：所以，這就是你三四年前會(huì)聽到的笑話，也是你今天依然會(huì)聽到的笑話。盡管模型整體能力已經(jīng)有了巨大的提升，如果你給它一個(gè) agent 式任務(wù)，它可以連續(xù)運(yùn)行好幾個(gè)小時(shí)，幫你完成非常復(fù)雜的工作。但你讓它講個(gè)笑話，它還是會(huì)給你一個(gè)五年前那種老套、簡(jiǎn)單的笑話。

原因在于，這一類能力并不在強(qiáng)化學(xué)習(xí)優(yōu)化的范圍內(nèi)，不屬于當(dāng)前重點(diǎn)提升的部分。這正體現(xiàn)了那種能力上的不均勻性。按理說，隨著模型變強(qiáng)，笑話也應(yīng)該更好、更豐富，但因?yàn)檫@一塊沒有被優(yōu)化，所以就停在那里，沒有明顯進(jìn)步。

主持人：你是否認(rèn)為，這暗示了我們并未觀察到某種意義上的泛化，即那種將講笑話的機(jī)智這種更廣泛的智能，與編寫代碼的智能關(guān)聯(lián)起來的現(xiàn)象？

Karpathy：是的，我覺得這里存在一種解耦。有些事情是可以驗(yàn)證的，有些事情不是；有些能力會(huì)被實(shí)驗(yàn)室重點(diǎn)優(yōu)化，取決于訓(xùn)練數(shù)據(jù)和目標(biāo)，但有些則不會(huì)。

而且有一種觀點(diǎn)認(rèn)為，如果模型在代碼生成這類高度可靠、可驗(yàn)證的領(lǐng)域變得更強(qiáng)，那它在其他所有領(lǐng)域也應(yīng)該同步變強(qiáng)。但從講笑話這個(gè)例子來看，這種情況并沒有真正發(fā)生。我不認(rèn)為這種全面提升已經(jīng)實(shí)現(xiàn)。也許有一點(diǎn)點(diǎn)這種趨勢(shì)，但遠(yuǎn)遠(yuǎn)沒有達(dá)到令人滿意的程度。

當(dāng)然，人類本身也存在這種不均勻性。你可以數(shù)學(xué)很好，但講笑話很差，這很正常。但問題在于，我們?cè)镜臄⑹率?，隨著模型越來越強(qiáng)，我們會(huì)幾乎「免費(fèi)」獲得在各個(gè)領(lǐng)域的智能和能力提升。但現(xiàn)實(shí)并不是完全如此。

確實(shí)存在一些盲區(qū)，有些能力沒有被優(yōu)化。而且這一切都被封裝在這種神經(jīng)網(wǎng)絡(luò)的黑箱中。結(jié)果就是，要么你剛好處在它被優(yōu)化的軌道上，一切表現(xiàn)都非常強(qiáng)大；要么你偏離了這個(gè)軌道，表現(xiàn)就會(huì)變得不穩(wěn)定。這就是所謂的不均勻性。

所以我覺得，雖然發(fā)展方向是清晰的，但還不能完全放手交給系統(tǒng)，因?yàn)樗€沒有完全成熟。也有可能問題在于我們還不夠會(huì)用，還沒有掌握正確的使用方式。所以現(xiàn)在其實(shí)很難判斷，到底是哪一方面的限制更大。

主持人：我能問一個(gè)有點(diǎn)冒犯的問題嗎？如果這種不均勻性一直存在，而且現(xiàn)在又被封裝在一個(gè)相對(duì)單體的接口里，也就是一個(gè)統(tǒng)一的大模型里，這樣真的合理嗎？

還是說，其實(shí)應(yīng)該把它拆開？因?yàn)椴煌愋偷哪芰κ强梢栽诓煌S度上被優(yōu)化的，不同領(lǐng)域的智能本來就可以分別提升。

Karpathy：比如將模型拆解為針對(duì)不同領(lǐng)域的多個(gè)專家模型，諸如此類，也就是以一種更為直接的方式。

主持人：我們不應(yīng)僅僅局限于 MoE，畢竟我們此前從未接觸過它。因?yàn)閷?duì)于外部用戶而言，這可能會(huì)令人感到困惑：為什么它在處理某件事上表現(xiàn)得如此出色，但在另一件事上卻顯得力不從心？

Karpathy：是的，我現(xiàn)在的感覺是，各大實(shí)驗(yàn)室目前還是在嘗試做一種單一模型的路線，也就是希望用一個(gè)模型覆蓋所有領(lǐng)域的智能，把各種能力都塞進(jìn)參數(shù)里。

但我確實(shí)覺得，未來應(yīng)該會(huì)出現(xiàn)更多智能的分化。就像動(dòng)物界一樣，大腦的結(jié)構(gòu)是高度多樣化的，不同物種適應(yīng)不同的生態(tài)位。有些動(dòng)物的視覺皮層特別發(fā)達(dá)，有些則強(qiáng)化了其他能力。

類似地，我們也應(yīng)該看到 AI 出現(xiàn)這種分化。你不一定需要一個(gè)什么都懂的全能預(yù)言機(jī)，而是可以讓模型針對(duì)具體任務(wù)進(jìn)行專門化。我們應(yīng)該會(huì)看到一些更小的模型，仍然具備基本的認(rèn)知能力，但在特定方向上做了強(qiáng)化。

這樣一來，在延遲和吞吐上也會(huì)更高效，尤其是在你真正關(guān)心的任務(wù)上。比如說，如果你是一個(gè)用 Lean 做數(shù)學(xué)證明的人，已經(jīng)可以看到有一些模型是專門針對(duì)這個(gè)領(lǐng)域優(yōu)化的。

所以未來很可能會(huì)出現(xiàn)越來越多這樣的例子，在這些場(chǎng)景下，把能力拆分出來反而是更合理的。

主持人：我有一個(gè)疑問：現(xiàn)有的計(jì)算基礎(chǔ)設(shè)施在容量上面臨的制約，是否在很大程度上推動(dòng)了這種趨勢(shì)的演進(jìn)？畢竟，效率在這個(gè)語境下確實(shí)顯得尤為重要。沒錯(cuò)，正是如此。試想一下，暫且撇開融資因素不談，假設(shè)整個(gè)過程中完全不涉及資金問題，如果你能為自己所做的任何工作（哪怕只是訓(xùn)練某一個(gè)單一模型）都獲得充足的計(jì)算資源支持，那會(huì)是怎樣一番景象？但反過來，如果你確實(shí)感受到了某種壓力，意識(shí)到自己無法針對(duì)每一個(gè)具體的應(yīng)用場(chǎng)景都去部署那種規(guī)模極其龐大的模型，你覺得這種現(xiàn)實(shí)約束是否會(huì)導(dǎo)致某種物種分化現(xiàn)象的出現(xiàn)？換句話說，你覺得這是否會(huì)促使人們?nèi)ラ_發(fā)出針對(duì)特定用途而高度特化的模型？我提出的這個(gè)問題，對(duì)你來說是否清晰易懂？

Karpathy：這個(gè)問題是有道理的。我現(xiàn)在糾結(jié)的一點(diǎn)是，其實(shí)我們還沒有真正看到太多分化的出現(xiàn)，對(duì)吧？目前還是一種單一模型的格局。

而且有很明顯的趨勢(shì)是，一旦某個(gè)方向做出了更強(qiáng)的能力，比如代碼能力，就會(huì)被重新合并回主模型中。即便模型本身已經(jīng)有很大的優(yōu)化壓力，大家還是在不斷往一個(gè)統(tǒng)一模型里疊加能力。

主持人：我猜可能還有一個(gè)因素是，短期內(nèi)存在很強(qiáng)的供給瓶頸，這種現(xiàn)實(shí)壓力反而可能會(huì)推動(dòng)更多的分化出現(xiàn)。

Karpathy：是的，我覺得本質(zhì)上，現(xiàn)在這些實(shí)驗(yàn)室是在提供一個(gè)通用模型，但它們其實(shí)并不知道最終用戶會(huì)問什么問題。所以某種程度上，它們必須覆蓋所有可能的需求，這就導(dǎo)致模型需要在各種任務(wù)之間做多任務(wù)處理。

但如果是具體到某個(gè)企業(yè)場(chǎng)景，或者圍繞一些明確的問題進(jìn)行合作，那可能就會(huì)看到更多的專門化，或者一些高價(jià)值但更垂直的應(yīng)用出現(xiàn)。只是目前來看，大家還是在追求覆蓋盡可能全面的能力空間。

另外一個(gè)原因可能是，我們對(duì)于如何操控這些大腦的科學(xué)本身還沒有完全成熟。

比如說，一個(gè)典型問題是，如何在微調(diào)模型的同時(shí)不損失已有能力。目前我們其實(shí)還沒有很好的一套「操作智能」的基礎(chǔ)工具，除了通過上下文窗口去影響模型。上下文這種方式之所以被廣泛使用，是因?yàn)樗?jiǎn)單、成本低，也確實(shí)能帶來一定程度的定制化。

但如果要更深入地調(diào)整模型，比如持續(xù)學(xué)習(xí)、在某個(gè)領(lǐng)域顯著提升能力、或者真正去修改模型權(quán)重，這其實(shí)還是一個(gè)正在發(fā)展中的科學(xué)問題。相比之下，直接動(dòng)權(quán)重要復(fù)雜得多，因?yàn)槟闶窃诟淖冋麄€(gè)模型本身，甚至可能影響它整體的智能結(jié)構(gòu)。

所以也許現(xiàn)在之所以還沒有出現(xiàn)明顯的「智能分化」，部分原因是我們還沒有完全掌握如何在不破壞整體能力的前提下，對(duì)模型進(jìn)行精細(xì)化、結(jié)構(gòu)性的調(diào)整。這方面的技術(shù)還不夠成熟。

為人類與 AI 構(gòu)建更廣闊的協(xié)作界面

主持人：而且，它的成本也必須足夠低廉，沒錯(cuò)，只有這樣，這種特化才有其價(jià)值。是的，特別是在當(dāng)前這些特定的語境之下。我想就您剛才提到的、關(guān)于開放領(lǐng)域的自動(dòng)研究擴(kuò)展話題，向您請(qǐng)教一個(gè)問題。您曾提到過這樣一個(gè)思路：既然我們已經(jīng)擁有了這項(xiàng)技術(shù)，那么本質(zhì)上，我們需要圍繞它構(gòu)建更廣闊的協(xié)作界面，以便讓更多人能夠參與并推動(dòng)整體的研究工作。您能否就此展開談?wù)劊?/p>

Karpathy：關(guān)于這個(gè)問題，是的，我們剛才講的是一種單線程的自動(dòng)化研究，也就是在一個(gè)循環(huán)里不斷嘗試。但真正有意思的，其實(shí)是把它并行化。

我也嘗試過一些思路，但目前還沒有一個(gè)讓我特別滿意、特別簡(jiǎn)潔的方案，這更多是我在用 Claw 之外，自己在琢磨的一些方向。

一個(gè)比較直接的方式是，如果你有大量并行節(jié)點(diǎn)，那就可以讓多個(gè)自動(dòng)化研究系統(tǒng)通過某種共享機(jī)制一起協(xié)作。

但我更感興趣的是，如何利用互聯(lián)網(wǎng)上一個(gè)不可信的工作節(jié)點(diǎn)池。比如在自動(dòng)化研究中，你的目標(biāo)是找到一段代碼，讓模型在驗(yàn)證集上的損失盡可能低。如果有人提交了一段代碼，你其實(shí)很容易驗(yàn)證它是否真的有效。也就是說，別人可以聲稱這段代碼能帶來更好的性能，你只需要驗(yàn)證一下就行。

當(dāng)然，驗(yàn)證本身也需要一定計(jì)算資源，但本質(zhì)上，這個(gè)問題的結(jié)構(gòu)是：生成候選解很難，但驗(yàn)證候選解很容易。也正因?yàn)槿绱?，這個(gè)系統(tǒng)看起來有點(diǎn)像區(qū)塊鏈。只不過這里不是區(qū)塊，而是代碼提交，這些提交可以在前一個(gè)基礎(chǔ)上不斷演化，每個(gè)提交都是對(duì)代碼的改進(jìn)。所謂的工作量證明，其實(shí)就是大量實(shí)驗(yàn)，去找到有效的改進(jìn)。而獎(jiǎng)勵(lì)目前只是排行榜上的位置，并沒有實(shí)際的金錢激勵(lì)。

我不想把這個(gè)類比推得太遠(yuǎn)，但核心結(jié)構(gòu)確實(shí)類似：需要大量搜索，但驗(yàn)證一個(gè)結(jié)果是否有效相對(duì)便宜。有人可能嘗試了一萬種方案，但你只需要驗(yàn)證最終那一個(gè)有效的結(jié)果。

所以問題變成，你需要設(shè)計(jì)一個(gè)系統(tǒng)，讓不可信的工作節(jié)點(diǎn)池和一個(gè)可信的驗(yàn)證節(jié)點(diǎn)池協(xié)同工作，而且整個(gè)系統(tǒng)是異步的，同時(shí)還要保證安全性。因?yàn)槿绻腥私o你發(fā)來一段任意代碼，你直接運(yùn)行是非常危險(xiǎn)的。

不過從原理上來說，這是完全可行的。像自動(dòng)化研究這樣的任務(wù)，也非常適合這種模式。

從這個(gè)角度看，完全可以想象，互聯(lián)網(wǎng)上的 agent 集群可以協(xié)同改進(jìn) LLM，甚至有可能在某些方面超過前沿實(shí)驗(yàn)室。畢竟實(shí)驗(yàn)室擁有的是大量「可信算力」，但整個(gè)地球上的「不可信算力」規(guī)模更大。如果你能設(shè)計(jì)好系統(tǒng)機(jī)制來約束和利用這些資源，那么這種「群體智能」是有可能產(chǎn)生更優(yōu)解的。

最后一點(diǎn)是，未來很多公司或者個(gè)人，可能會(huì)圍繞自己關(guān)心的問題，參與到不同的自動(dòng)化研究方向中。你不一定是捐錢，而是貢獻(xiàn)算力。比如你關(guān)心某個(gè)特定領(lǐng)域，你可以購買算力，然后加入對(duì)應(yīng)的自動(dòng)化研究網(wǎng)絡(luò)。

如果一切都被重新組織成這種自動(dòng)化研究體系，那么算力就會(huì)變成最核心的貢獻(xiàn)形式。

主持人：這個(gè)算力池的想法確實(shí)很有啟發(fā)性。而且有一個(gè)挺有意思的現(xiàn)象是，不管是在硅谷，都開始重新意識(shí)到，擁有個(gè)人算力這件事又變得有價(jià)值了。

也就是說，人們可能會(huì)為了運(yùn)行自己的 Claw 而去配置算力設(shè)備。而一旦有了這些算力，它們不僅可以服務(wù)于個(gè)人使用，還可以參與到自動(dòng)化研究中，成為整個(gè)系統(tǒng)的一部分。

Karpathy：但未來會(huì)不會(huì)變成，大家真正關(guān)心的是 FLOPs？會(huì)不會(huì)出現(xiàn)一種翻轉(zhuǎn)，大家關(guān)注的不再是錢，而是你掌控多少算力？

因?yàn)楝F(xiàn)在的情況是，即便你有錢，也很難買到算力。所以在某種意義上，算力反而變成了更稀缺、更關(guān)鍵的資源。

也許未來會(huì)變成一種新的衡量方式，不再是你有多少財(cái)富，而是你掌控多少 FLOPs。當(dāng)然我不一定認(rèn)為這真的會(huì)發(fā)生，但這個(gè)思路本身還是挺有意思的。

AI 與就業(yè)市場(chǎng)

主持人：你最近發(fā)布的那項(xiàng)內(nèi)容，似乎是對(duì)就業(yè)數(shù)據(jù)做的一點(diǎn)分析，對(duì)吧？真是沒想到，它竟然觸動(dòng)了大家的敏感神經(jīng)，盡管你做的其實(shí)不過是對(duì)一些公開數(shù)據(jù)進(jìn)行可視化呈現(xiàn)而已。當(dāng)時(shí)，你是出于什么樣的好奇心才著手做這件事的呢？

Karpathy：我當(dāng)時(shí)主要是好奇，現(xiàn)在大家都在討論 AI 對(duì)就業(yè)市場(chǎng)的影響，以及未來會(huì)變成什么樣。所以我就想去具體看看，現(xiàn)在的就業(yè)市場(chǎng)到底是什么結(jié)構(gòu)，各種崗位分布是怎樣的，不同行業(yè)里有多少人。

我更感興趣的是逐個(gè)去看這些具體案例，然后自己去思考，在 AI 以及它未來的發(fā)展趨勢(shì)下，這些職業(yè)會(huì)發(fā)生什么變化。它們會(huì)變成輔助工具嗎？還是會(huì)被替代？這些崗位本身會(huì)增長(zhǎng)、調(diào)整，還是會(huì)出現(xiàn)全新的職業(yè)類型？

本質(zhì)上，這是我用來推動(dòng)自己思考整個(gè)行業(yè)的一種方式。

至于數(shù)據(jù)來源，其實(shí)就是官方的勞工統(tǒng)計(jì)部門。他們會(huì)給出每個(gè)職業(yè)的增長(zhǎng)預(yù)期，比如未來大概十年內(nèi)的增長(zhǎng)情況。這個(gè)預(yù)測(cè)是基于 2024 年的數(shù)據(jù)做出來的。

主持人：基于你對(duì)這些數(shù)據(jù)的觀察，對(duì)于那些正面臨就業(yè)市場(chǎng)、或者正在思考當(dāng)下該修讀什么專業(yè)、培養(yǎng)何種技能的人，你有什么見解或建議嗎？我的意思是，畢竟我們大家最終都得去求職。我個(gè)人非常慶幸，目前我的工作性質(zhì)要求我必須與人面對(duì)面交流，這種工作方式更具實(shí)體感、更貼近現(xiàn)實(shí)。

Karpathy：不過，你能在家辦公嗎？但我可以。

主持人：我覺得其中有些關(guān)于人際關(guān)系的部分比較難處理，但大部分我應(yīng)該可以應(yīng)付。

Karpathy：我覺得這其實(shí)很難一概而論，因?yàn)榫蜆I(yè)市場(chǎng)本身就非常多樣化，不同領(lǐng)域的情況肯定會(huì)不一樣。

但總體來看，這些工具非常新，同時(shí)也非常強(qiáng)大。對(duì)大多數(shù)人來說，第一步其實(shí)只是盡量跟上它的發(fā)展節(jié)奏。很多人要么低估它，要么對(duì)它感到害怕，這其實(shí)都可以理解。

但從當(dāng)前階段來看，我更傾向于把它當(dāng)作一種賦能工具。因?yàn)橐环莨ぷ鞅举|(zhì)上是由一系列任務(wù)組成的，而其中一些任務(wù)現(xiàn)在可以被大幅加速。所以現(xiàn)階段更合理的認(rèn)知，是把 AI 當(dāng)作工具來使用。

至于更長(zhǎng)期的影響，其實(shí)是很不確定的。坦白說，這件事很難準(zhǔn)確預(yù)測(cè)，我自己也不是專門做這方面研究的。更系統(tǒng)的判斷，可能還是要交給經(jīng)濟(jì)學(xué)家來做。

主持人：不過，你畢竟是一名工程師。而且有一點(diǎn)我覺得挺有意思的，那就是對(duì)工程類職位的需求，目前正持續(xù)增長(zhǎng)。是啊，我也搞不清楚這究竟只是個(gè)暫時(shí)現(xiàn)象，還是別的什么。對(duì)此，我心里其實(shí)挺沒底的。你怎么看？

Karpathy：是的，這有點(diǎn)像需求側(cè)的問題。過去軟件其實(shí)是稀缺的，對(duì)吧？之所以沒有更多的軟件需求，很大程度上是因?yàn)楣┙o太少、成本太高。

但一旦門檻下降，就會(huì)出現(xiàn)杰文斯悖論。也就是說，當(dāng)某樣?xùn)|西變得更便宜、更高效時(shí)，需求反而會(huì)增加。一個(gè)經(jīng)典例子就是 ATM 和銀行柜員。當(dāng)年很多人擔(dān)心 ATM 會(huì)取代柜員，但結(jié)果是銀行網(wǎng)點(diǎn)的運(yùn)營(yíng)成本下降了，于是網(wǎng)點(diǎn)數(shù)量增加，反而雇了更多柜員。這就是典型的杰文斯悖論 —— 成本下降，釋放出被壓抑的需求。

所以在軟件工程領(lǐng)域，我其實(shí)是比較謹(jǐn)慎樂觀的。我確實(shí)覺得軟件的需求會(huì)變得非常大，只是生產(chǎn)成本大幅降低了。短期來看，很難精確預(yù)測(cè)，但至少在當(dāng)前階段，我覺得軟件需求會(huì)增加。

因?yàn)檐浖举|(zhì)上是在處理數(shù)字信息，而這種能力是非常強(qiáng)大的。你不再需要被動(dòng)接受那些現(xiàn)成但并不完美的工具，也不需要被迫訂閱已有的軟件。代碼變得更加短暫、可塑，可以隨時(shí)修改、重寫。

所以我覺得，在數(shù)字空間里會(huì)出現(xiàn)大量「重布線」的行為，從某種意義上說，一切都在被重新構(gòu)建。這會(huì)帶來大量新的需求。

但從長(zhǎng)期來看，就不好說了。比如像 OpenAI、Anthropic 這些機(jī)構(gòu)，它們也就雇了大概一千人左右的研究人員。而這些人本質(zhì)上是在努力自動(dòng)化自己的工作，這正是他們?cè)谧龅氖虑椤?/p>

主持人：那些研究人員中，有些人其實(shí)也能感受到那種精神狀態(tài)，對(duì)吧？因?yàn)樗麄兡苷媲械伢w會(huì)到，這確實(shí)奏效了。沒錯(cuò)，正是如此。所以他們會(huì)覺得：這對(duì)我自己來說，也是有益的。

Karpathy：我當(dāng)時(shí)還花了不少時(shí)間在公司里到處和人聊，我就問他們，你們有沒有意識(shí)到，如果我們真的成功了，那我們自己其實(shí)也會(huì)失業(yè)。我們本質(zhì)上是在為 Sam，或者董事會(huì)之類的人，構(gòu)建自動(dòng)化系統(tǒng)。

也就是說，我們是在打造一種系統(tǒng)，最終可能把我們自己的工作替代掉，最多就是在邊緣做一些貢獻(xiàn)。從這個(gè)角度看，其實(shí)還是挺讓人不安的。

主持人：在某個(gè)前沿實(shí)驗(yàn)室里，利用大規(guī)模的計(jì)算資源，和一群同事一起從事自動(dòng)化研究。畢竟，何樂而不為呢？

Karpathy：我之前也在那樣的環(huán)境里待過一段時(shí)間，后來又重新回到這個(gè)問題上來看。所以在某種程度上，我是認(rèn)同這種說法的。但這個(gè)問題其實(shí)可以從很多角度去理解。

我會(huì)說，我對(duì)人們?cè)谇把貙?shí)驗(yàn)室之外所能產(chǎn)生的影響，其實(shí)是比較有信心的。不只是行業(yè)內(nèi)部的角色，還有更偏生態(tài)層面的角色。比如你的角色，就是一種生態(tài)層面的參與；我現(xiàn)在做的事情，其實(shí)某種程度上也屬于這一層。我覺得人在這些位置上，是可以產(chǎn)生很大影響的。

反過來說，我也覺得，如果一個(gè)人把自己過度綁定在前沿實(shí)驗(yàn)室上，是存在一些問題的。因?yàn)楸举|(zhì)上，你在這些機(jī)構(gòu)中會(huì)有非常強(qiáng)的經(jīng)濟(jì)激勵(lì)。同時(shí)，你自己也承認(rèn)，這些 AI 技術(shù)會(huì)對(duì)人類社會(huì)產(chǎn)生非常深遠(yuǎn)的影響。而在這種情況下，你既是在構(gòu)建這項(xiàng)技術(shù)，又在從中獲益，在經(jīng)濟(jì)上與它高度綁定。

這其實(shí)是一個(gè)很核心的矛盾，也是當(dāng)初 OpenAI 成立時(shí)就試圖解決的問題之一。所以，這里面本身就存在一種張力。

這個(gè)矛盾其實(shí)并沒有真正被解決。這是第一點(diǎn)。

如果你在前沿實(shí)驗(yàn)室內(nèi)部，你就不再是一個(gè)完全自由的個(gè)體，也無法以完全獨(dú)立的方式參與討論。有些話你不能說，也有一些是組織更希望你去表達(dá)的。雖然不會(huì)有人強(qiáng)迫你，但你會(huì)感受到一種無形的壓力，知道哪些話應(yīng)該說。否則就會(huì)變得很尷尬，會(huì)有那種微妙的眼神，仿佛在問你在做什么。

所以你很難成為一個(gè)真正獨(dú)立的行動(dòng)者。相對(duì)來說，在這些實(shí)驗(yàn)室之外，我反而覺得自己更接近站在人類整體利益的角度，因?yàn)椴恍枰惺苓@些壓力，可以更自由地表達(dá)。

當(dāng)然，在前沿實(shí)驗(yàn)室內(nèi)部也可以產(chǎn)生影響。那里有很多優(yōu)秀的研究者，也許你就是其中之一，也許你的想法很重要。而且很多關(guān)鍵決策是在那里發(fā)生的，你可能也希望自己能在這些討論的現(xiàn)場(chǎng)。

不過我覺得目前整體的「賭注」還比較低，所以一切看起來都比較平和。但當(dāng)未來 stakes 真的變高時(shí)，如果你只是一個(gè)組織里的員工，我不確定你到底能對(duì)組織的最終決策產(chǎn)生多大影響。本質(zhì)上你并不掌控這個(gè)實(shí)體，你只是參與討論、提供想法的人。

這就是一種潛在的錯(cuò)位。

另一方面，我也確實(shí)認(rèn)同一個(gè)觀點(diǎn)：這些實(shí)驗(yàn)室本身是相對(duì)不透明的，它們處在能力前沿，掌握著未來的發(fā)展方向。如果你不在其中，你的判斷很可能會(huì)逐漸偏離，因?yàn)槟銦o法接觸到那些正在發(fā)生的事情。

我自己也會(huì)有這種擔(dān)憂，擔(dān)心逐漸失去對(duì)這些系統(tǒng)底層機(jī)制和未來演進(jìn)路徑的真實(shí)理解。所以從這個(gè)角度看，保持與前沿的連接是很重要的。如果有機(jī)會(huì)在這些實(shí)驗(yàn)室待一段時(shí)間，做一些真正有價(jià)值的工作，然后再回到更廣闊的環(huán)境中，這也許是一種不錯(cuò)的方式。

所以在我看來，在 OpenAI 這樣的機(jī)構(gòu)里當(dāng)然可以做出非常出色的工作，但同樣也有可能，最有影響力的工作反而是在這些機(jī)構(gòu)之外完成的。

主持人：不，這更像是在呼吁成為一個(gè)獨(dú)立研究者，自己去做大量研究。

Karpathy：在外部其實(shí)有很多事情可以做，而且我覺得某種程度上，一個(gè)理想的狀態(tài)可能是來回切換。你既可以在前沿實(shí)驗(yàn)室里工作一段時(shí)間，也可以在外部做自己的事情。

本質(zhì)上，你在這兩種環(huán)境中都可以產(chǎn)生非常大的影響。所以這確實(shí)是一個(gè)很復(fù)雜的問題，沒有簡(jiǎn)單答案。

對(duì)我來說，可能就是階段性地進(jìn)入前沿實(shí)驗(yàn)室，再出來，然后未來也許還會(huì)再回去，這樣在不同環(huán)境中切換。

開源模型 vs. 閉源模型

主持人：我也會(huì)從這個(gè)角度去看這個(gè)問題。其中一個(gè)關(guān)鍵問題是，整個(gè)世界或者 AI 生態(tài)，對(duì)前沿能力到底有多大的可見性？比如說，開源模型距離前沿到底有多近，以及這種狀態(tài)是否可持續(xù)。

我覺得最近這一系列發(fā)展其實(shí)挺讓人意外的。從最開始只有少數(shù)幾個(gè)中國模型和全球模型，到現(xiàn)在大家還在持續(xù)發(fā)布，而且很多模型在能力上已經(jīng)比行業(yè)預(yù)期更接近前沿。

這一點(diǎn)確實(shí)挺出乎意料的。

你作為一個(gè)長(zhǎng)期參與開源的人，會(huì)怎么判斷這個(gè)趨勢(shì)？你對(duì)未來的預(yù)測(cè)是什么？

Karpathy：大致來說，現(xiàn)在的情況是，閉源模型仍然領(lǐng)先，但大家已經(jīng)開始用落后多少個(gè)月來衡量開源模型與前沿的差距。

一開始是完全沒有可比性，然后差距大概在 18 個(gè)月左右。接著逐漸收斂，現(xiàn)在可能已經(jīng)縮短到 6 到 8 個(gè)月這個(gè)量級(jí)。

我自己當(dāng)然是開源的堅(jiān)定支持者。比如在操作系統(tǒng)領(lǐng)域，你有像 Windows、macOS 這樣的閉源系統(tǒng)，它們是大型軟件項(xiàng)目，有點(diǎn)類似未來的 LLM。但同時(shí)也有 Linux，而且 Linux 是一個(gè)非常成功的開源項(xiàng)目。它運(yùn)行在絕大多數(shù)計(jì)算設(shè)備上，至少我上次看到的數(shù)據(jù)，大概有 60% 左右的設(shè)備在運(yùn)行 Linux。

這背后的原因是，整個(gè)行業(yè)始終有一種需求，需要一個(gè)大家都可以信任的、共同的開放平臺(tái)。

我覺得現(xiàn)在也是一樣，市場(chǎng)對(duì)這種開源基礎(chǔ)設(shè)施是有需求的，這也是為什么會(huì)有這么多投入。

但最大的不同在于，這一切現(xiàn)在都高度依賴資本。

這也讓開源在競(jìng)爭(zhēng)上變得更困難一些。不過我還是認(rèn)為，現(xiàn)在的模型已經(jīng)非常強(qiáng)了。

另外一個(gè)很有意思的點(diǎn)是，對(duì)于絕大多數(shù)消費(fèi)級(jí)場(chǎng)景來說，甚至很多開源模型其實(shí)已經(jīng)足夠好用了。而且如果再往后看幾年，很大一部分相對(duì)簡(jiǎn)單的使用場(chǎng)景，可能都會(huì)被很好地覆蓋，甚至可以在本地運(yùn)行。

但與此同時(shí)，始終會(huì)存在對(duì)前沿智能的需求，而且這部分需求的體量可能非常大。只是它的形態(tài)可能更偏向于一些高價(jià)值、高難度的任務(wù)，比如類似諾貝爾獎(jiǎng)級(jí)別的研究，或者像把 Linux 從 C 遷移到 Rust 這種大規(guī)模工程。這類更復(fù)雜、更長(zhǎng)期的項(xiàng)目，可能會(huì)更多地依賴那些前沿的閉源模型。

而開源模型則會(huì)逐步覆蓋大量更基礎(chǔ)的使用場(chǎng)景。某種程度上，今天屬于前沿能力的東西，可能到今年晚些時(shí)候就會(huì)變成開源，并承擔(dān)大量實(shí)際工作。

所以我其實(shí)預(yù)期這種結(jié)構(gòu)會(huì)持續(xù)下去：一邊是前沿實(shí)驗(yàn)室提供的閉源模型；另一邊是開源模型，始終落后幾個(gè)月，但不斷追趕。

我覺得這種格局整體上是比較健康的。因?yàn)槿绻凶顝?qiáng)的智能都集中在少數(shù)閉源系統(tǒng)中，其實(shí)會(huì)帶來一定的系統(tǒng)性風(fēng)險(xiǎn)。從歷史來看，過度集中化往往并不是一個(gè)好的長(zhǎng)期結(jié)構(gòu)。

所以我希望存在這樣一種形態(tài)：它不一定處在能力最前沿，因?yàn)榍把乇旧硎切虑也淮_定的；但它稍微落后一些，作為一個(gè)所有人都可以使用的公共工作空間。

也就是說，一個(gè)整個(gè)行業(yè)都能訪問的通用智能層。我覺得這樣的結(jié)構(gòu)，可能會(huì)形成一種相對(duì)健康的權(quán)力平衡。

主持人：是的，我也覺得還有很多問題需要解決。如果我們繼續(xù)推動(dòng)前沿智能的發(fā)展，就能解鎖新的能力。而人類面臨著很多非常重大的問題，確實(shí)需要更強(qiáng)的模型才能解決。

但這條路本身是非常昂貴的，所以我也會(huì)支持那些在前沿持續(xù)投入的實(shí)驗(yàn)室。因?yàn)橛行﹩栴}，如果不持續(xù)推進(jìn)這些高成本的能力邊界，是無法解決的。

與此同時(shí)，你說得也對(duì)，如果今天的前沿能力能夠逐步開放出來，那本身就是非常強(qiáng)大的能力釋放。這種能力的普及和民主化，其實(shí)是非常有價(jià)值的，也是一種更健康的狀態(tài)。

Karpathy：是的，我覺得某種程度上，我們現(xiàn)在其實(shí)是意外地處在一個(gè)還不錯(cuò)、甚至接近最優(yōu)的狀態(tài)。

不過我也會(huì)說，在閉源這一側(cè)，最近其實(shí)有點(diǎn)進(jìn)一步集中化的趨勢(shì)。很多前排玩家未必都是最頂級(jí)的那一批，這一點(diǎn)并不理想。

我個(gè)人會(huì)更希望有更多前沿實(shí)驗(yàn)室存在。因?yàn)槲冶灸艿貙?duì)集中化是比較警惕的。我希望有更多人參與進(jìn)來。我也希望在解決最難問題時(shí)，是一群人共同參與，而不是少數(shù)幾個(gè)人在封閉環(huán)境里做決策。

我不太希望出現(xiàn)那種關(guān)起門來只有兩三個(gè)人決定一切的局面，那不是一個(gè)健康的結(jié)構(gòu)。

所以簡(jiǎn)單來說，我希望有更多實(shí)驗(yàn)室參與進(jìn)來。同時(shí)，我也覺得開源有它很重要的位置。它現(xiàn)在稍微落后一點(diǎn)，其實(shí)反而是一件好事。

自主機(jī)器人與 AI 的進(jìn)化

主持人：好，你之前做過通向通用機(jī)器人自主能力的前期工作，對(duì)吧？

最近這幾個(gè)月，機(jī)器人領(lǐng)域也發(fā)生了很多變化，比如在環(huán)境泛化、任務(wù)泛化方面都有明顯提升，能夠完成更長(zhǎng)時(shí)間跨度的任務(wù)，同時(shí)也有大量資金涌入這個(gè)方向。

所以問題是，這件事真的會(huì)發(fā)生嗎？在你看來，最近有沒有什么本質(zhì)性的變化？

Karpathy：我的看法很大程度上來自于我在自動(dòng)駕駛領(lǐng)域的經(jīng)歷。我確實(shí)覺得，自動(dòng)駕駛其實(shí)是第一批真正落地的機(jī)器人應(yīng)用。

回到十年前，當(dāng)時(shí)有很多創(chuàng)業(yè)公司，但我感覺大多數(shù)最終都沒有走到最后。我看到，這個(gè)領(lǐng)域需要極大的資本投入和很長(zhǎng)的時(shí)間周期。所以我認(rèn)為，機(jī)器人之所以難，是因?yàn)樗婕罢鎸?shí)世界，復(fù)雜、混亂，而且需要巨額投入和強(qiáng)烈的長(zhǎng)期信念。這是一個(gè)非常大的問題，本質(zhì)上原子世界太難了。

所以我覺得，機(jī)器人會(huì)落后于數(shù)字世界的發(fā)展。在數(shù)字世界中，會(huì)出現(xiàn)一次巨大的解鎖，很多原本效率不高的事情會(huì)被提升一個(gè)數(shù)量級(jí)甚至兩個(gè)數(shù)量級(jí)，因?yàn)樘幚肀忍匾菀椎枚唷?/p>

所以從現(xiàn)在來看，變化最快、最劇烈的，還是數(shù)字空間；而物理世界會(huì)相對(duì)滯后。

但我覺得很有意思的一點(diǎn)是兩者之間的接口。如果未來有越來越多的 agent 代表人類行動(dòng)，彼此協(xié)作、參與某種 agent 經(jīng)濟(jì)，那么純粹在數(shù)字空間里的事情總有一天會(huì)做完。到那個(gè)時(shí)候，你必須回到現(xiàn)實(shí)世界，去做實(shí)驗(yàn)、獲取數(shù)據(jù)，從宇宙中獲取反饋，才能繼續(xù)學(xué)習(xí)。

現(xiàn)在之所以還有大量數(shù)字工作要做，是因?yàn)槲覀冞^去對(duì)已有數(shù)字信息的處理能力不足，人類的思考資源不夠。但隨著 AI 的加入，我們會(huì)逐步消化掉這些已經(jīng)存在的信息，比如讀完所有論文、提出各種假設(shè)。

但如果系統(tǒng)是完全封閉在已有數(shù)據(jù)里的，最終還是會(huì)遇到瓶頸。

所以我覺得接下來的路徑是：先是數(shù)字世界的大規(guī)模重構(gòu)和效率提升，這里還有大量工作要做；然后會(huì)逐漸轉(zhuǎn)向數(shù)字與物理的接口，比如通過傳感器獲取世界數(shù)據(jù)，通過執(zhí)行器影響現(xiàn)實(shí)世界。

很多有意思的公司，可能就會(huì)出現(xiàn)在這個(gè)接口層，解決如何把現(xiàn)實(shí)世界的數(shù)據(jù)輸入給超級(jí)智能，以及如何把它的決策輸出到物理世界中。

至于純粹的物理世界，我甚至覺得它的市場(chǎng)規(guī)?？赡芨?，涉及的工作量也更龐大。但問題在于，它太難了，復(fù)雜度高很多。所以它會(huì)來得更晚，但一旦到來，規(guī)模也會(huì)非常巨大。

所以整體路徑可能是：先是數(shù)字世界，然后是數(shù)字與物理的接口，最后才是全面的物理世界自動(dòng)化。而我現(xiàn)在的主要關(guān)注點(diǎn)，還是在數(shù)字這一層。

主持人：這個(gè)框架本身也挺有意思的。因?yàn)橛行┦虑椋鋵?shí)比想象中更容易，甚至在應(yīng)用層就可以做。

比如說，如果你只是考慮對(duì)物理世界的讀和寫，讀就是各種傳感器、攝像頭，其實(shí)已經(jīng)有大量現(xiàn)成的硬件基礎(chǔ)設(shè)施。你完全可以通過一些比較聰明的方式，增強(qiáng) agent 的能力，或者獲取大量新的數(shù)據(jù)，而不一定需要投入特別巨大的成本，就能做出有價(jià)值的東西。

Karpathy：比如我最近看到的一些例子就很典型。比如我有個(gè)朋友 Liam，在做類似材料領(lǐng)域的自動(dòng)化研究，我上周還去看了他們的團(tuán)隊(duì)。這個(gè)方向里，傳感器其實(shí)就是各種昂貴的實(shí)驗(yàn)室設(shè)備，用來把物理世界的數(shù)據(jù)輸入給智能系統(tǒng)。

在生物領(lǐng)域也是類似的?，F(xiàn)在很多人對(duì)生物工程非常感興趣，而這里的傳感器就遠(yuǎn)不只是攝像頭，而是各種更復(fù)雜的實(shí)驗(yàn)設(shè)備，用來讀取生物系統(tǒng)的數(shù)據(jù)。

還有一個(gè)方向我也看到了一些公司在做，就是通過付費(fèi)的方式獲取訓(xùn)練數(shù)據(jù)。也就是說，讓人類參與進(jìn)來，為系統(tǒng)提供數(shù)據(jù)，然后作為一種數(shù)據(jù)獲取機(jī)制。

主持人：我特別期待那一天的到來：我可以針對(duì)現(xiàn)實(shí)世界中的某項(xiàng)任務(wù)提出需求，給它定個(gè)價(jià)，然后直接告訴那個(gè)智能體 —— 行了，具體怎么做你自己去想辦法吧。對(duì)，就是那種你去把它搞定的感覺。

Karpathy：數(shù)據(jù)這個(gè)點(diǎn)其實(shí)很有意思。我有點(diǎn)驚訝的是，現(xiàn)在還沒有形成足夠成熟的信息市場(chǎng)。比如像預(yù)測(cè)市場(chǎng)、博彩市場(chǎng)、股票市場(chǎng)，如果已經(jīng)有這么多自動(dòng)化參與、而且還在不斷增長(zhǎng)，那為什么還沒有一種機(jī)制，讓實(shí)時(shí)信息本身可以被直接定價(jià)？

所以我感覺，現(xiàn)在的 agent 互聯(lián)網(wǎng)其實(shí)還很早期，還沒有形成這樣的機(jī)制。但這很可能是未來的發(fā)展方向之一。

所以我覺得，從更宏觀的角度看，社會(huì)可能會(huì)在某種程度上重構(gòu)，去服務(wù)這種系統(tǒng)的需求。整個(gè)行業(yè)可能會(huì)逐漸演變成一個(gè)高度自動(dòng)化的結(jié)構(gòu)，而人類在其中承擔(dān)的角色，更像是在滿足這個(gè)系統(tǒng)的需求，而不完全是彼此之間直接協(xié)作。

主持人：話雖如此，但我們當(dāng)時(shí)正聚焦于一個(gè)非常具體的問題，即訓(xùn)練數(shù)據(jù)的缺失。我們需要某種類似自動(dòng)化研究的機(jī)制，對(duì)吧？也就是說，我們需要讓整個(gè)訓(xùn)練周期（或者 SFT 階段）變得更加高度機(jī)械化。

如果模型本身不能自主完成訓(xùn)練，那么你就很難把這件事做成一個(gè)真正的閉環(huán)系統(tǒng)。尤其是當(dāng)你還想通過給數(shù)據(jù)定價(jià)這種方式來驅(qū)動(dòng)數(shù)據(jù)獲取時(shí)，這個(gè)問題會(huì)變得更加困難。

Karpathy：是的，百分之百是這樣。不過，就目前的情況而言，針對(duì) LLM 的訓(xùn)練，實(shí)際上非常順理成章，它真的與這種范式完美契合。所以，確實(shí)如此。

比如在訓(xùn)練這一塊，其實(shí)就非常契合這個(gè)范式，而且實(shí)現(xiàn)起來也相對(duì)容易。你可以去優(yōu)化代碼，讓訓(xùn)練跑得更快，同時(shí)也有明確的指標(biāo)可以去優(yōu)化。

我確實(shí)覺得，如果你圍繞這些指標(biāo)構(gòu)建一個(gè)完全自動(dòng)化的閉環(huán)系統(tǒng)，很可能會(huì)出現(xiàn)刷指標(biāo)的情況，也就是系統(tǒng)過度擬合這些指標(biāo)。

但與此同時(shí)，你也可以用這個(gè)系統(tǒng)去不斷設(shè)計(jì)新的指標(biāo)，從而擴(kuò)大評(píng)估的覆蓋范圍。所以最終會(huì)形成一種動(dòng)態(tài)博弈的過程。

整體來看，在這樣的條件下，這種方法其實(shí)是相當(dāng)可行的。

參考鏈接：https://x.com/oran_ge/status/2035121401754263768

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.