網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

AI大牛卡帕西發(fā)布2025年度總結(jié)：LLM潛力僅挖掘不到10%！

2025-12-22 22:13:42　來源: CSDN

北京舉報

分享至

過去一年，LLM 發(fā)展迅速，能力和應用場景都在不斷擴展。從基于可驗證獎勵的強化學習，到本地運行的智能代理，再到“Vibe 編程”和圖形化界面，AI 正以前所未有的方式進入我們的工作和生活。

在這樣的背景下，AI 大牛 Andrej Karpathy 在個人博客上分享了自己對 2025 年 LLM 發(fā)展的獨特觀察，既揭示了技術(shù)趨勢，也提供了對未來智能形態(tài)的思考，非常值得一讀。

https://karpathy.bearblog.dev/year-in-review-2025/

作者 | Andrej Karpathy

編譯 | ChatGPT、蘇宓

出品 | CSDN（ID：CSDNnews）

2025 年是大語言模型（LLM）快速推進、變化密集的一年。下面列出的是一些在我看來尤為重要、且多少有些出乎意料的“范式轉(zhuǎn)變”——它們在概念層面上改變了整體格局。

基于可驗證獎勵的強化學習（RLVR）

在 2025 年初，幾乎所有實驗室中 LLM 的標準生產(chǎn)訓練流程大致如下：

預訓練（Pretraining，約 2020 年的 GPT-2/3）
監(jiān)督微調(diào)（Supervised Finetuning，SFT，約 2022 年的 InstructGPT）
基于人類反饋的強化學習（Reinforcement Learning from Human Feedback，RLHF，約 2022 年）

這一組合在相當長一段時間內(nèi)都是訓練生產(chǎn)級 LLM 的成熟且行之有效的方法。

進入 2025 年后，基于可驗證獎勵的強化學習（RLVR）逐漸成為事實上的新增關(guān)鍵階段，并被納入這一訓練體系。

RLVR 的核心做法是：在多個可自動驗證獎勵的環(huán)境中（例如數(shù)學或代碼類任務），對 LLM 進行強化學習訓練。在這一過程中，模型會自發(fā)地發(fā)展出在人的視角下類似“推理”的策略——它們學會將問題拆解為一系列中間計算步驟，并掌握多種反復試探、回溯求解的策略（可參考 DeepSeek R1 論文中的示例）。在此前的訓練范式下，這類能力很難通過直接設計獲得，因為我們并不清楚對 LLM 而言，最優(yōu)的推理軌跡和糾錯路徑究竟應當是什么樣子；模型必須通過圍繞獎勵函數(shù)的優(yōu)化，自行找到對自己有效的方式。

與 SFT 和 RLHF 這兩個相對“輕量、短周期”的階段不同，RLVR 依賴的是客觀、不可被投機利用的獎勵函數(shù)，因此允許進行更長時間、更充分的優(yōu)化。

實踐表明，RLVR 在“能力提升 / 成本”這一比值上表現(xiàn)極高，甚至消耗了原本計劃用于預訓練的大量算力。結(jié)果是，2025 年 LLM 能力的主要進展，很大程度上來自各大實驗室對這一新階段算力“積壓”的集中釋放：模型規(guī)模大致相近，但強化學習的運行時間顯著拉長。

此外，這一新階段還引入了一個此前不存在的重要調(diào)節(jié)維度（以及與之對應的尺度定律）：可以通過在測試階段生成更長的推理軌跡、增加“思考時間”，來控制模型能力。OpenAI 的 o1（2024 年末）是 RLVR 模型的首次公開展示，而在 2025 年初發(fā)布的 o3，則成為明顯的拐點——人們已經(jīng)可以直觀地感受到這種差異。

幽靈 vs. 動物 / 鋸齒狀智能（Jagged Intelligence）

2025 年，是我（我想整個行業(yè)也是如此）第一次開始以更直觀的方式真正理解 LLM 智能“形態(tài)”的一年。我們并不是在“進化或培育動物”，而更像是在“召喚幽靈”。

LLM 技術(shù)棧的各個層面都與生物智能截然不同——無論是神經(jīng)架構(gòu)、訓練數(shù)據(jù)、訓練算法，還是尤其關(guān)鍵的優(yōu)化壓力。因此，我們在智能空間中得到的必然是完全不同類型的存在，用“動物”的視角去理解它們，本身就并不合適。

從監(jiān)督信號的角度看，人類的神經(jīng)網(wǎng)絡是為了在原始環(huán)境中保障群體生存而被優(yōu)化的；而 LLM 的神經(jīng)網(wǎng)絡，則是為了模仿人類文本、在數(shù)學與代碼等任務中獲取獎勵，以及在 LM Arena 上贏得人類的點贊而被優(yōu)化的。

隨著可驗證任務領域逐步引入 RLVR，LLM 在這些領域附近的能力會出現(xiàn)“尖峰式”提升，而在整體表現(xiàn)上則呈現(xiàn)出一種頗為有趣的鋸齒狀特征：它們一方面像是博學多才的天才通才，另一方面又像是困惑且認知能力受限的小學生，隨時可能被一次越獄誘騙，從而泄露你的數(shù)據(jù)。

（人類智能：藍色；AI 智能：紅色。因為它指出了一個常被忽略的事實：人類智能本身也是“鋸齒狀的”，只是鋸齒的形態(tài)與 AI 不同。）

與上述討論密切相關(guān)的，是我在 2025 年對各類基準測試逐漸產(chǎn)生的冷淡態(tài)度，甚至可以說是信任的流失。核心原因在于：基準測試在結(jié)構(gòu)上幾乎天然就是“可驗證環(huán)境”，因此會立刻暴露在 RLVR 及其更弱形式（例如通過合成數(shù)據(jù)生成實現(xiàn)的變體）之下。

在典型的“刷榜”過程中，LLM 實驗室的團隊往往不可避免地會圍繞基準測試，在嵌入空間中構(gòu)造出一些相鄰的小環(huán)境區(qū)域，并刻意“長出”足以覆蓋這些區(qū)域的能力鋸齒。在測試集上訓練，正在成為一門新的藝術(shù)。

這也引出了一個耐人尋味的問題：

如果一個模型可以碾壓所有基準測試，但仍然沒有實現(xiàn) AGI，那它究竟缺了什么？

關(guān)于本節(jié)所討論的主題，我在下面這些文章中有更為深入的闡述：

Animals vs. Ghosts：https://karpathy.bearblog.dev/animals-vs-ghosts/
Verifiability：https://karpathy.bearblog.dev/verifiability/
The Space of Minds：https://karpathy.bearblog.dev/the-space-of-minds/

Cursor / LLM 應用的新一層

在我看來，Cursor 最值得關(guān)注的地方（除了它今年的爆發(fā)式增長之外）在于：它令人信服地揭示了 “LLM 應用”這一全新層級的存在——人們開始頻繁討論“某某領域的 Cursor（Cursor for X）”。

正如我今年在 Y Combinator 演講中所強調(diào)的那樣（https://www.donnamagi.com/articles/karpathy-yc-talk），像 Cursor 這樣的 LLM 應用，本質(zhì)上是在特定垂直領域內(nèi)，對 LLM 調(diào)用進行打包與編排：

它們負責完成“上下文工程”
在后臺編排多次 LLM 調(diào)用，將其串聯(lián)成結(jié)構(gòu)日益復雜的 DAG（有向無環(huán)圖），并在性能與成本之間進行精細權(quán)衡
為“人機交互”提供面向具體應用場景的 GUI
提供一個“自治程度滑桿”

在 2025 年，很多人圍繞這一新應用層“到底有多厚”展開了大量討論：

所有應用最終都會被 LLM 實驗室直接吞并，還是 LLM 應用本身依然存在廣闊的機會空間？

我個人的判斷是：LLM 實驗室可能會培養(yǎng)出“能力一般的大學生水平”的模型，但 LLM 應用則會通過提供私有數(shù)據(jù)、傳感器、執(zhí)行器和反饋回路，對這些模型進行組織、微調(diào)，并真正將它們激活，組建成能夠在特定垂直領域落地的專業(yè)團隊。

Claude Code / 在你電腦上運行的 AI

Claude Code（簡稱 CC）是第一個讓人直觀感受到 LLM Agent 形態(tài)的產(chǎn)品——它能夠以循環(huán)的方式，將工具使用與推理串聯(lián)起來，用于解決更復雜、長期的問題。

對我來說，CC 另一大亮點在于：它能夠直接運行在你的電腦上，并且使用你的私有環(huán)境、數(shù)據(jù)和上下文。相比之下，我認為 OpenAI 在這方面走偏了，他們早期的 Codex/Agent 研究主要聚焦于云端部署，通過 ChatGPT 容器進行編排，而沒有充分考慮在本地運行的可能性。

雖然在云端運行的 Agent Swarms 看起來像是“AGI 的終極目標”，但現(xiàn)實世界中，我們處在一個能力增長鋸齒狀、起飛較慢的中間階段，因此直接在開發(fā)者的電腦上運行 Agent 更為合理。

需要注意的是，這里真正關(guān)鍵的區(qū)別并不是 AI 操作究竟運行在云端還是本地，而在于其他所有因素：已經(jīng)啟動并運行的電腦、安裝環(huán)境、上下文、數(shù)據(jù)、機密信息、配置，以及低延遲的交互體驗。

Anthropic 在這一點上抓住了正確的優(yōu)先順序，并將 CC 打包成一個簡潔且極具魅力的 CLI 形式，這改變了人們對 AI 的感知——它不再只是一個像 Google 一樣需要訪問的網(wǎng)站，而是一種“小精靈/幽靈”，真正“居住”在你的電腦上。這標志著與 AI 互動的一種全新、獨立的范式。

Vibe 編程

2025 年是 AI 實現(xiàn)突破的一年——它可以只用英文指令就生成各種令人印象深刻的程序，幾乎不用理會代碼本身。有趣的是，我第一次提出“vibe 編程”這個術(shù)語，是在一條隨手靈感發(fā)的推文里，當時完全沒想到它會發(fā)展得這么遠。

通過 Vibe 編程，編程不再嚴格局限于專業(yè)編碼人員，任何人都可以參與。從這個角度來看，它正是我在《賦能大眾》（Power to the People）中提到的例子之一：LLM 徹底顛覆了技術(shù)擴散的方式——與以往所有技術(shù)相比，普通人從 LLM 中獲得的收益遠超專業(yè)人士、企業(yè)甚至政府。

Vibe 編程不僅讓普通人能夠接觸編程，還讓訓練有素的專業(yè)人士能夠撰寫大量原本可能永遠不會出現(xiàn)的軟件。在 NanoChat 中，我通過 Vibe 編程，用 Rust 實現(xiàn)了自己定制的高效 BPE 分詞器，而無需采用現(xiàn)成庫，也不需要在 Rust 上達到多深的水平。

今年我用 Vibe 編程實現(xiàn)了很多項目，作為快速應用演示，來驗證我想要存在的功能（例如 menugen、llm-council、reader3、HN 時間膠囊）。我甚至用 Vibe 編程快速生成了整個短生命周期應用，只為了找出一個 bug——為什么不呢？代碼突然變得自由、短暫、可塑、一次性可丟棄。

Vibe 編程將重塑軟件生態(tài)，并改變工作崗位的定義。

Nano Banana / LLM GUI

Google Gemini 的 Nano Banana 是 2025 年最令人驚嘆、具有范式顛覆性的模型之一。在我的世界觀里，LLM 是下一代重要的計算范式，類似于 20 世紀 70、80 年代的計算機。

因此，我們將看到類似的創(chuàng)新，原因與當年計算機時代類似：會出現(xiàn)個人計算機的對應形態(tài)、微控制器（認知核心）的對應形態(tài)，甚至是由 Agent 構(gòu)成的「互聯(lián)網(wǎng)」式系統(tǒng)，諸如此類。

特別是在 UI/UX 方面，與 LLM 進行“聊天”有點像在 1980 年代向計算機控制臺發(fā)出命令。文本是計算機（以及 LLM）最原生、首選的數(shù)據(jù)表示形式，但對人類來說，文本并不是最理想的輸入形式——人類其實不喜歡閱讀文本，它既慢又費力。人們更喜歡以視覺化和空間化的方式獲取信息，這也是傳統(tǒng)計算機中 GUI（圖形用戶界面）被發(fā)明的原因。同理，LLM 也應該以我們偏好的形式與我們交流——通過圖像、信息圖、幻燈片、白板、動畫/視頻、Web 應用等。

目前早期的嘗試形式當然包括 emoji 和 Markdown，它們通過視覺化方式“裝飾”和布局文本，使信息更易于理解，如標題、加粗、斜體、列表、表格等。但誰來真正構(gòu)建 LLM GUI 呢？在這個視角下，Nano Banana 提供了一個早期的線索，展示了未來 LLM GUI 的可能形態(tài)。

值得注意的是，它不僅僅是圖像生成本身，更重要的是文本生成、圖像生成與世界知識的聯(lián)合能力，這些能力都在模型權(quán)重中緊密交織。

總結(jié)

2025 年是 LLM 發(fā)展令人興奮且略有驚訝的一年。LLM 正在顯現(xiàn)為一種全新的智能形態(tài)——它們在某些方面比我預期的更聰明，在某些方面又比我預期的更笨。無論如何，它們極具實用價值，而整個行業(yè)目前對它們的潛力認知，甚至還不到 10%。

同時，有太多新想法值得嘗試，從概念上來看，這個領域仍然廣闊開放。正如我今年早些時候提到的，我雖然表面上說法似乎矛盾，但實際上相信：一方面我們會看到快速且持續(xù)的進展，另一方面仍有大量工作需要完成。請系好安全帶。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.