国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI大牛卡帕西發(fā)布2025年度總結(jié):LLM潛力僅挖掘不到10%!

0
分享至


過去一年,LLM 發(fā)展迅速,能力和應用場景都在不斷擴展。從基于可驗證獎勵的強化學習,到本地運行的智能代理,再到“Vibe 編程”和圖形化界面,AI 正以前所未有的方式進入我們的工作和生活。

在這樣的背景下,AI 大牛 Andrej Karpathy 在個人博客上分享了自己對 2025 年 LLM 發(fā)展的獨特觀察,既揭示了技術(shù)趨勢,也提供了對未來智能形態(tài)的思考,非常值得一讀。

https://karpathy.bearblog.dev/year-in-review-2025/

作者 | Andrej Karpathy

編譯 | ChatGPT、蘇宓

出品 | CSDN(ID:CSDNnews)

2025 年是大語言模型(LLM)快速推進、變化密集的一年。下面列出的是一些在我看來尤為重要、且多少有些出乎意料的“范式轉(zhuǎn)變”——它們在概念層面上改變了整體格局。



基于可驗證獎勵的強化學習(RLVR)

在 2025 年初,幾乎所有實驗室中 LLM 的標準生產(chǎn)訓練流程大致如下:

  • 預訓練(Pretraining,約 2020 年的 GPT-2/3)

  • 監(jiān)督微調(diào)(Supervised Finetuning,SFT,約 2022 年的 InstructGPT)

  • 基于人類反饋的強化學習(Reinforcement Learning from Human Feedback,RLHF,約 2022 年)

這一組合在相當長一段時間內(nèi)都是訓練生產(chǎn)級 LLM 的成熟且行之有效的方法。

進入 2025 年后,基于可驗證獎勵的強化學習(RLVR)逐漸成為事實上的新增關(guān)鍵階段,并被納入這一訓練體系。

RLVR 的核心做法是:在多個可自動驗證獎勵的環(huán)境中(例如數(shù)學或代碼類任務),對 LLM 進行強化學習訓練。在這一過程中,模型會自發(fā)地發(fā)展出在人的視角下類似“推理”的策略——它們學會將問題拆解為一系列中間計算步驟,并掌握多種反復試探、回溯求解的策略(可參考 DeepSeek R1 論文中的示例)。在此前的訓練范式下,這類能力很難通過直接設計獲得,因為我們并不清楚對 LLM 而言,最優(yōu)的推理軌跡和糾錯路徑究竟應當是什么樣子;模型必須通過圍繞獎勵函數(shù)的優(yōu)化,自行找到對自己有效的方式。

與 SFT 和 RLHF 這兩個相對“輕量、短周期”的階段不同,RLVR 依賴的是客觀、不可被投機利用的獎勵函數(shù),因此允許進行更長時間、更充分的優(yōu)化。

實踐表明,RLVR 在“能力提升 / 成本”這一比值上表現(xiàn)極高,甚至消耗了原本計劃用于預訓練的大量算力。結(jié)果是,2025 年 LLM 能力的主要進展,很大程度上來自各大實驗室對這一新階段算力“積壓”的集中釋放:模型規(guī)模大致相近,但強化學習的運行時間顯著拉長。

此外,這一新階段還引入了一個此前不存在的重要調(diào)節(jié)維度(以及與之對應的尺度定律):可以通過在測試階段生成更長的推理軌跡、增加“思考時間”,來控制模型能力。OpenAI 的 o1(2024 年末)是 RLVR 模型的首次公開展示,而在 2025 年初發(fā)布的 o3,則成為明顯的拐點——人們已經(jīng)可以直觀地感受到這種差異。


幽靈 vs. 動物 / 鋸齒狀智能(Jagged Intelligence)

2025 年,是我(我想整個行業(yè)也是如此)第一次開始以更直觀的方式真正理解 LLM 智能“形態(tài)”的一年。我們并不是在“進化或培育動物”,而更像是在“召喚幽靈”。

LLM 技術(shù)棧的各個層面都與生物智能截然不同——無論是神經(jīng)架構(gòu)、訓練數(shù)據(jù)、訓練算法,還是尤其關(guān)鍵的優(yōu)化壓力。因此,我們在智能空間中得到的必然是完全不同類型的存在,用“動物”的視角去理解它們,本身就并不合適。

從監(jiān)督信號的角度看,人類的神經(jīng)網(wǎng)絡是為了在原始環(huán)境中保障群體生存而被優(yōu)化的;而 LLM 的神經(jīng)網(wǎng)絡,則是為了模仿人類文本、在數(shù)學與代碼等任務中獲取獎勵,以及在 LM Arena 上贏得人類的點贊而被優(yōu)化的。

隨著可驗證任務領域逐步引入 RLVR,LLM 在這些領域附近的能力會出現(xiàn)“尖峰式”提升,而在整體表現(xiàn)上則呈現(xiàn)出一種頗為有趣的鋸齒狀特征:它們一方面像是博學多才的天才通才,另一方面又像是困惑且認知能力受限的小學生,隨時可能被一次越獄誘騙,從而泄露你的數(shù)據(jù)。


(人類智能:藍色;AI 智能:紅色。因為它指出了一個常被忽略的事實:人類智能本身也是“鋸齒狀的”,只是鋸齒的形態(tài)與 AI 不同。)

與上述討論密切相關(guān)的,是我在 2025 年對各類基準測試逐漸產(chǎn)生的冷淡態(tài)度,甚至可以說是信任的流失。核心原因在于:基準測試在結(jié)構(gòu)上幾乎天然就是“可驗證環(huán)境”,因此會立刻暴露在 RLVR 及其更弱形式(例如通過合成數(shù)據(jù)生成實現(xiàn)的變體)之下。

在典型的“刷榜”過程中,LLM 實驗室的團隊往往不可避免地會圍繞基準測試,在嵌入空間中構(gòu)造出一些相鄰的小環(huán)境區(qū)域,并刻意“長出”足以覆蓋這些區(qū)域的能力鋸齒。在測試集上訓練,正在成為一門新的藝術(shù)。

這也引出了一個耐人尋味的問題:

如果一個模型可以碾壓所有基準測試,但仍然沒有實現(xiàn) AGI,那它究竟缺了什么?

關(guān)于本節(jié)所討論的主題,我在下面這些文章中有更為深入的闡述:

  • Animals vs. Ghosts:https://karpathy.bearblog.dev/animals-vs-ghosts/

  • Verifiability:https://karpathy.bearblog.dev/verifiability/

  • The Space of Minds:https://karpathy.bearblog.dev/the-space-of-minds/


Cursor / LLM 應用的新一層

在我看來,Cursor 最值得關(guān)注的地方(除了它今年的爆發(fā)式增長之外)在于:它令人信服地揭示了 “LLM 應用”這一全新層級的存在——人們開始頻繁討論“某某領域的 Cursor(Cursor for X)”。

正如我今年在 Y Combinator 演講中所強調(diào)的那樣(https://www.donnamagi.com/articles/karpathy-yc-talk),像 Cursor 這樣的 LLM 應用,本質(zhì)上是在特定垂直領域內(nèi),對 LLM 調(diào)用進行打包與編排:

  • 它們負責完成“上下文工程”

  • 在后臺編排多次 LLM 調(diào)用,將其串聯(lián)成結(jié)構(gòu)日益復雜的 DAG(有向無環(huán)圖),并在性能與成本之間進行精細權(quán)衡

  • 為“人機交互”提供面向具體應用場景的 GUI

  • 提供一個“自治程度滑桿”

在 2025 年,很多人圍繞這一新應用層“到底有多厚”展開了大量討論:

所有應用最終都會被 LLM 實驗室直接吞并,還是 LLM 應用本身依然存在廣闊的機會空間?

我個人的判斷是:LLM 實驗室可能會培養(yǎng)出“能力一般的大學生水平”的模型,但 LLM 應用則會通過提供私有數(shù)據(jù)、傳感器、執(zhí)行器和反饋回路,對這些模型進行組織、微調(diào),并真正將它們激活,組建成能夠在特定垂直領域落地的專業(yè)團隊。


Claude Code / 在你電腦上運行的 AI

Claude Code(簡稱 CC)是第一個讓人直觀感受到 LLM Agent 形態(tài)的產(chǎn)品——它能夠以循環(huán)的方式,將工具使用與推理串聯(lián)起來,用于解決更復雜、長期的問題。

對我來說,CC 另一大亮點在于:它能夠直接運行在你的電腦上,并且使用你的私有環(huán)境、數(shù)據(jù)和上下文。相比之下,我認為 OpenAI 在這方面走偏了,他們早期的 Codex/Agent 研究主要聚焦于云端部署,通過 ChatGPT 容器進行編排,而沒有充分考慮在本地運行的可能性。

雖然在云端運行的 Agent Swarms 看起來像是“AGI 的終極目標”,但現(xiàn)實世界中,我們處在一個能力增長鋸齒狀、起飛較慢的中間階段,因此直接在開發(fā)者的電腦上運行 Agent 更為合理。

需要注意的是,這里真正關(guān)鍵的區(qū)別并不是 AI 操作究竟運行在云端還是本地,而在于其他所有因素:已經(jīng)啟動并運行的電腦、安裝環(huán)境、上下文、數(shù)據(jù)、機密信息、配置,以及低延遲的交互體驗。

Anthropic 在這一點上抓住了正確的優(yōu)先順序,并將 CC 打包成一個簡潔且極具魅力的 CLI 形式,這改變了人們對 AI 的感知——它不再只是一個像 Google 一樣需要訪問的網(wǎng)站,而是一種“小精靈/幽靈”,真正“居住”在你的電腦上。這標志著與 AI 互動的一種全新、獨立的范式。


Vibe 編程

2025 年是 AI 實現(xiàn)突破的一年——它可以只用英文指令就生成各種令人印象深刻的程序,幾乎不用理會代碼本身。有趣的是,我第一次提出“vibe 編程”這個術(shù)語,是在一條隨手靈感發(fā)的推文里,當時完全沒想到它會發(fā)展得這么遠。


通過 Vibe 編程,編程不再嚴格局限于專業(yè)編碼人員,任何人都可以參與。從這個角度來看,它正是我在《賦能大眾》(Power to the People)中提到的例子之一:LLM 徹底顛覆了技術(shù)擴散的方式——與以往所有技術(shù)相比,普通人從 LLM 中獲得的收益遠超專業(yè)人士、企業(yè)甚至政府。

Vibe 編程不僅讓普通人能夠接觸編程,還讓訓練有素的專業(yè)人士能夠撰寫大量原本可能永遠不會出現(xiàn)的軟件。在 NanoChat 中,我通過 Vibe 編程,用 Rust 實現(xiàn)了自己定制的高效 BPE 分詞器,而無需采用現(xiàn)成庫,也不需要在 Rust 上達到多深的水平。

今年我用 Vibe 編程實現(xiàn)了很多項目,作為快速應用演示,來驗證我想要存在的功能(例如 menugen、llm-council、reader3、HN 時間膠囊)。我甚至用 Vibe 編程快速生成了整個短生命周期應用,只為了找出一個 bug——為什么不呢?代碼突然變得自由、短暫、可塑、一次性可丟棄。

Vibe 編程將重塑軟件生態(tài),并改變工作崗位的定義。


Nano Banana / LLM GUI

Google Gemini 的 Nano Banana 是 2025 年最令人驚嘆、具有范式顛覆性的模型之一。在我的世界觀里,LLM 是下一代重要的計算范式,類似于 20 世紀 70、80 年代的計算機。

因此,我們將看到類似的創(chuàng)新,原因與當年計算機時代類似:會出現(xiàn)個人計算機的對應形態(tài)、微控制器(認知核心)的對應形態(tài),甚至是由 Agent 構(gòu)成的「互聯(lián)網(wǎng)」式系統(tǒng),諸如此類。

特別是在 UI/UX 方面,與 LLM 進行“聊天”有點像在 1980 年代向計算機控制臺發(fā)出命令。文本是計算機(以及 LLM)最原生、首選的數(shù)據(jù)表示形式,但對人類來說,文本并不是最理想的輸入形式——人類其實不喜歡閱讀文本,它既慢又費力。人們更喜歡以視覺化和空間化的方式獲取信息,這也是傳統(tǒng)計算機中 GUI(圖形用戶界面)被發(fā)明的原因。同理,LLM 也應該以我們偏好的形式與我們交流——通過圖像、信息圖、幻燈片、白板、動畫/視頻、Web 應用等。

目前早期的嘗試形式當然包括 emoji 和 Markdown,它們通過視覺化方式“裝飾”和布局文本,使信息更易于理解,如標題、加粗、斜體、列表、表格等。但誰來真正構(gòu)建 LLM GUI 呢?在這個視角下,Nano Banana 提供了一個早期的線索,展示了未來 LLM GUI 的可能形態(tài)。

值得注意的是,它不僅僅是圖像生成本身,更重要的是文本生成、圖像生成與世界知識的聯(lián)合能力,這些能力都在模型權(quán)重中緊密交織。


總結(jié)

2025 年是 LLM 發(fā)展令人興奮且略有驚訝的一年。LLM 正在顯現(xiàn)為一種全新的智能形態(tài)——它們在某些方面比我預期的更聰明,在某些方面又比我預期的更笨。無論如何,它們極具實用價值,而整個行業(yè)目前對它們的潛力認知,甚至還不到 10%。

同時,有太多新想法值得嘗試,從概念上來看,這個領域仍然廣闊開放。正如我今年早些時候提到的,我雖然表面上說法似乎矛盾,但實際上相信:一方面我們會看到快速且持續(xù)的進展,另一方面仍有大量工作需要完成。請系好安全帶。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
萬萬沒想到,46條中日航線剛?cè)咳∠驼ǔ鲆蝗骸把Ч砉帧?

萬萬沒想到,46條中日航線剛?cè)咳∠驼ǔ鲆蝗骸把Ч砉帧?

書紀文譚
2025-12-26 00:06:01
U22國足少打一人取勝!把伊朗當伊拉克假想敵 兩場硬仗必須贏一場

U22國足少打一人取勝!把伊朗當伊拉克假想敵 兩場硬仗必須贏一場

刀鋒體育
2025-12-25 22:47:08
海南“零關(guān)稅”豪車真相:寶馬X5、保時捷卡宴鮮有符合要求車型,免稅進口車僅限企業(yè)營運

海南“零關(guān)稅”豪車真相:寶馬X5、保時捷卡宴鮮有符合要求車型,免稅進口車僅限企業(yè)營運

每日經(jīng)濟新聞
2025-12-23 16:32:04
商丘一空地現(xiàn)成堆被丟棄的全新手機殼,多人驅(qū)車前往“撿漏”,有人一次撿了50個

商丘一空地現(xiàn)成堆被丟棄的全新手機殼,多人驅(qū)車前往“撿漏”,有人一次撿了50個

極目新聞
2025-12-24 21:09:37
全紅嬋淡淡一句,郭晶晶霸氣一句,應景了李湘母子在哈爾濱的著裝

全紅嬋淡淡一句,郭晶晶霸氣一句,應景了李湘母子在哈爾濱的著裝

夢婷
2025-12-26 00:17:58
向太曝馬伊琍已再婚:當年文章過不了心理那關(guān)

向太曝馬伊琍已再婚:當年文章過不了心理那關(guān)

娛樂看阿敞
2025-12-12 15:50:00
"崩老頭"火了!年輕女性在網(wǎng)上釣中年男性,索要小額紅包節(jié)日大紅包

"崩老頭"火了!年輕女性在網(wǎng)上釣中年男性,索要小額紅包節(jié)日大紅包

互聯(lián)網(wǎng)大觀
2025-12-12 15:14:03
官方:丁偉升任浙江稠州總教練,外籍助教法萊卡斯擔任主教練

官方:丁偉升任浙江稠州總教練,外籍助教法萊卡斯擔任主教練

懂球帝
2025-12-25 21:50:21
夏洛特公主鋼琴首秀!和媽媽一起彈琴太驚艷,梅根緊急曬娃卻翻車

夏洛特公主鋼琴首秀!和媽媽一起彈琴太驚艷,梅根緊急曬娃卻翻車

白露文娛志
2025-12-25 16:38:38
全國總工會新任新聞發(fā)言人徐璐首次亮相主持發(fā)布會

全國總工會新任新聞發(fā)言人徐璐首次亮相主持發(fā)布會

新京報
2025-12-25 20:37:27
影石創(chuàng)始人劉靖康再談“向員工撒錢”爭議:的確做得不對

影石創(chuàng)始人劉靖康再談“向員工撒錢”爭議:的確做得不對

界面新聞
2025-12-25 16:24:58
聶磊栽在一個女人手上,聶磊被抓,為什么大領導出面都不好使?

聶磊栽在一個女人手上,聶磊被抓,為什么大領導出面都不好使?

千年人參它會跑
2024-11-18 21:18:41
宋丹丹做夢沒想到,千辛萬苦給巴圖找的媳婦,竟狠狠“拿捏”了她

宋丹丹做夢沒想到,千辛萬苦給巴圖找的媳婦,竟狠狠“拿捏”了她

以茶帶書
2025-12-25 13:49:17
CBA最新消息!曝新疆男籃換帥,胡明軒傷病嚴重,西伯恩確定離隊

CBA最新消息!曝新疆男籃換帥,胡明軒傷病嚴重,西伯恩確定離隊

體壇瞎白話
2025-12-25 09:47:37
庫皮揚斯克占領軍正在投降,烏克蘭大選民調(diào)對澤連斯基不利

庫皮揚斯克占領軍正在投降,烏克蘭大選民調(diào)對澤連斯基不利

近距離
2025-12-25 18:59:42
逃離商場的“特斯拉們”,為何撐不下去了?

逃離商場的“特斯拉們”,為何撐不下去了?

金錯刀
2025-12-24 10:09:57
12月31日,新能源充電服務補貼停止,網(wǎng)約車司機:天塌了

12月31日,新能源充電服務補貼停止,網(wǎng)約車司機:天塌了

用車指南
2025-12-25 10:00:59
洪森最大的失誤:低估了西哈莫尼國王,高估了兒子洪瑪奈!

洪森最大的失誤:低估了西哈莫尼國王,高估了兒子洪瑪奈!

阿柒的訊
2025-12-23 18:22:55
闞清子傳出噩耗:畸形兒夭折,令人心碎的真相曝光

闞清子傳出噩耗:畸形兒夭折,令人心碎的真相曝光

小椰的奶奶
2025-12-26 00:35:38
突發(fā)!金價巨震

突發(fā)!金價巨震

中吳網(wǎng)
2025-12-25 14:06:56
2025-12-26 01:16:49
CSDN incentive-icons
CSDN
成就一億技術(shù)人
26209文章數(shù) 242203關(guān)注度
往期回顧 全部

科技要聞

小米17Ultra發(fā)布,徠卡2億像素 ,6999元起

頭條要聞

韓國"最毒"財閥千金被捕 韓國人稱"經(jīng)過她身邊就會死"

頭條要聞

韓國"最毒"財閥千金被捕 韓國人稱"經(jīng)過她身邊就會死"

體育要聞

約基奇有多喜歡馬?

娛樂要聞

朱孝天把阿信好意當球踢!

財經(jīng)要聞

新規(guī)來了,年化超24%的小貸被即刻叫停

汽車要聞

速來!智界在上海西岸準備了年末潮流盛典

態(tài)度原創(chuàng)

教育
健康
旅游
藝術(shù)
親子

教育要聞

雞娃的盡頭是街道辦?!東西海朝等5區(qū)公示錄取名單及生源校!

這些新療法,讓化療不再那么痛苦

旅游要聞

東營文旅精彩亮相2025中國國際旅游交易會

藝術(shù)要聞

你絕對沒見過的美麗風景,快來看看!

親子要聞

中國兒童癌癥生存率如何?《柳葉刀》發(fā)布重磅研究

無障礙瀏覽 進入關(guān)懷版