国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

近兩百萬(wàn)人圍觀的Karpathy年終大語(yǔ)言模型清單,主角是它們

0
分享至


來(lái)源:機(jī)器之心

編輯:杜偉

2025 年還有 10 天就要結(jié)束,這意味著是時(shí)候進(jìn)行一波年終總結(jié)了。

對(duì)于人工智能領(lǐng)域而言,2025 年是大語(yǔ)言模型(LLM)快速演進(jìn)、重磅事件密集出現(xiàn)的一年。

就在昨天,知名 AI 學(xué)者 Karpathy 列出了一份清單,記錄了他個(gè)人認(rèn)為最重要、也多少有些出乎意料的「范式轉(zhuǎn)變」。


這些真正改變了行業(yè)格局、并在概念層面讓 Karpathy 印象深刻的變化會(huì)落在哪些領(lǐng)域呢?我們接下來(lái)一一來(lái)看(以第一人稱)。

可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)

2025 年初,幾乎所有實(shí)驗(yàn)室的 LLM 生產(chǎn)訓(xùn)練流程都像下面這樣:

  • 預(yù)訓(xùn)練(類似 2020 年的 GPT-2/3);

  • 監(jiān)督微調(diào)(SFT,類似 2022 年的 InstructGPT)

  • 基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF,約 2022 年)

這套流程穩(wěn)定、可靠,曾長(zhǎng)期被視為「工業(yè)級(jí) LLM」的標(biāo)準(zhǔn)做法。

但在 2025 年,一種新的階段浮出水面,并迅速成為事實(shí)上的標(biāo)配:可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Verifiable Rewards,RLVR)。

RLVR 的核心做法是,讓模型在可自動(dòng)驗(yàn)證的環(huán)境中接受強(qiáng)化學(xué)習(xí)訓(xùn)練,比如數(shù)學(xué)題、代碼題、邏輯謎題等。在這些環(huán)境中,模型自發(fā)學(xué)會(huì)一些在人類看來(lái)非常像「推理」的策略:它會(huì)把復(fù)雜問(wèn)題拆解成中間步驟,并反復(fù)試探、修正路徑,逐步逼近答案(DeepSeek R1 的論文中有不少很好的例子)。

在以往的 SFT 或 RLHF 框架下,這類「推理軌跡」是極難人為設(shè)計(jì)出來(lái)的。這是因?yàn)槲覀儾⒉恢缹?duì)模型而言,什么才是「最優(yōu)的思考過(guò)程」。而在 RLVR 中,模型可以通過(guò)優(yōu)化獎(jiǎng)勵(lì)函數(shù),自行摸索出對(duì)自己最有效的解題方式。

此外,與 SFT 和 RLHF 這種「計(jì)算量相對(duì)較小的薄層微調(diào)」不同,RLVR 使用的是客觀、難以被投機(jī)取巧的獎(jiǎng)勵(lì)函數(shù),這使得訓(xùn)練可以跑得非常久。結(jié)果就是:RLVR 提供了極高的能力 / 成本比,大量吞噬了原本準(zhǔn)備用于預(yù)訓(xùn)練的算力。

因此,2025 年的大部分能力提升,并不是來(lái)自模型規(guī)模的暴漲,而是來(lái)自相似規(guī)模模型 + 更長(zhǎng)時(shí)間的 RL 訓(xùn)練。這個(gè)階段還帶來(lái)了一個(gè)全新的「旋鈕」:通過(guò)在推理時(shí)生成更長(zhǎng)的思考鏈條、投入更多測(cè)試時(shí)算力,模型能力可以繼續(xù)提升,并呈現(xiàn)出新的 scaling law。

OpenAI 的 o1(2024 年底)是第一個(gè)明確展示 RLVR 思路的模型,而 2025 年初的 o3,則是那個(gè)讓人直觀感受到質(zhì)變拐點(diǎn)的版本。

幽靈 vs 動(dòng)物:鋸齒狀智能

2025 年,是我(以及我認(rèn)為整個(gè)行業(yè))第一次真正直覺(jué)性地理解了 LLM 智能的「形狀」。我們并不是在「培育或進(jìn)化動(dòng)物」,而是在「召喚幽靈」。

LLM 的一切都和人類不同:神經(jīng)結(jié)構(gòu)不同、訓(xùn)練數(shù)據(jù)不同、訓(xùn)練算法不同,最關(guān)鍵的是優(yōu)化目標(biāo)完全不同。人類神經(jīng)系統(tǒng),是為叢林生存、部落協(xié)作而優(yōu)化的;而 LLM 是為模仿人類文本、在數(shù)學(xué)謎題中拿分、在 LM Arena 里獲得點(diǎn)贊而優(yōu)化的。

一旦某些領(lǐng)域具備可驗(yàn)證性,RLVR 就會(huì)在這些區(qū)域「長(zhǎng)出尖刺」。于是我們看到的,是一種鋸齒化(jagged)明顯的能力分布:它們可以在某些領(lǐng)域表現(xiàn)得像博學(xué)的天才,同時(shí)又在另一些地方像困惑的小學(xué)生,甚至輕易被 jailbreak 套走隱私數(shù)據(jù)。



我很喜歡一張 meme:人類智能是藍(lán)色曲線,AI 是紅色曲線。它也提醒我們:人類智能本身,同樣是鋸齒狀的,只是形狀不同。

這也解釋了我在 2025 年對(duì)基準(zhǔn)普遍不當(dāng)回事與不信任。問(wèn)題在于:基準(zhǔn)測(cè)試本質(zhì)上就是可驗(yàn)證環(huán)境,因此天然容易被 RLVR 或弱化版本的「合成數(shù)據(jù)訓(xùn)練」所攻破。

在現(xiàn)實(shí)中,模型團(tuán)隊(duì)往往會(huì)在基準(zhǔn)所在的嵌入空間附近「培育能力突起」,把 jaggies 精準(zhǔn)地長(zhǎng)到測(cè)試點(diǎn)上。「在測(cè)試集上訓(xùn)練」已經(jīng)演變成了一門藝術(shù)。

那么問(wèn)題來(lái)了:如果一個(gè)模型碾壓了所有基準(zhǔn),卻依然不是 AGI,那意味著什么?

Cursor:LLM 應(yīng)用的新一層

Cursor 在 2025 年的爆發(fā)本身就很驚人,但對(duì)我而言,更重要的是:它清晰地揭示了一種全新的 LLM 應(yīng)用層。

人們開(kāi)始說(shuō),「這是某某領(lǐng)域的 Cursor」。在我今年 YC 演講中提到過(guò):像 Cursor 這樣的 LLM 應(yīng)用,本質(zhì)是在為特定垂直領(lǐng)域打包和編排 LLM 能力:

  • 上下文工程(context engineering);

  • 在后臺(tái)編排多次 LLM 調(diào)用,形成越來(lái)越復(fù)雜的 DAG,同時(shí)平衡成本與性能;

  • 提供面向人的、領(lǐng)域?qū)S玫?GUI;

  • 提供「自主性滑塊」(autonomy slider)。

2025 年圍繞著一個(gè)問(wèn)題出現(xiàn)了大量討論:這一層會(huì)有多厚?LLM 實(shí)驗(yàn)室會(huì)不會(huì)吞掉所有應(yīng)用?還是說(shuō),LLM 應(yīng)用層依然有廣闊空間?

我個(gè)人的判斷是:基礎(chǔ)模型會(huì)趨向于「一個(gè)通用能力很強(qiáng)的大學(xué)畢業(yè)生」,而真正把他們組織成專業(yè)團(tuán)隊(duì)、在具體行業(yè)中落地的會(huì)是應(yīng)用層,通過(guò)私有數(shù)據(jù)、傳感器、執(zhí)行器和反饋回路將模型組織并投入實(shí)際工作流程」。

Claude Code:住在你電腦里的 AI

Claude Code(CC)是我第一次覺(jué)得:「這才像一個(gè)真正的 LLM Agent。」它以循環(huán)方式將推理與工具調(diào)用串聯(lián)起來(lái),能持續(xù)解決長(zhǎng)任務(wù)。

更重要的是:它運(yùn)行在你的本地電腦上,直接使用你的環(huán)境、數(shù)據(jù)和上下文。

我認(rèn)為 OpenAI 在這里判斷失誤了:他們把 agent /codex 的重心放在云端容器、由 ChatGPT 統(tǒng)一調(diào)度;而在一個(gè)能力鋸齒、起飛緩慢的世界里,更合理的順序其實(shí)是先讓 agent 成為開(kāi)發(fā)者身邊的伙伴。

Claude Code 在這點(diǎn)上做對(duì)了,并且用一個(gè)極其優(yōu)雅、極簡(jiǎn)、極具說(shuō)服力的 CLI 形態(tài)呈現(xiàn)出來(lái)。

AI 不再只是一個(gè)你訪問(wèn)的網(wǎng)站,而是一個(gè)住在你電腦里的小幽靈。

這是一次全新的交互范式轉(zhuǎn)變。

Vibe Coding(氛圍編程)

2025 年,是 AI 跨過(guò)某個(gè)關(guān)鍵門檻的一年:人們可以只用英語(yǔ)構(gòu)建復(fù)雜程序,甚至忘記代碼本身的存在。

有趣的是,「vibe coding」這個(gè)詞,最早只是我一條隨手寫(xiě)的推文,完全沒(méi)想到會(huì)流傳這么廣。

Vibe coding 讓編程不再只是專業(yè)工程師的專利,任何人都可以上手;但同時(shí),它也讓專業(yè)工程師可以寫(xiě)出大量原本永遠(yuǎn)不會(huì)被寫(xiě)出來(lái)的軟件。

在 nanochat 項(xiàng)目中,我直接用 vibe coding 寫(xiě)了一個(gè)高效的 Rust BPE tokenizer;我用它快速寫(xiě)了很多 demo 項(xiàng)目(比如 menugen、llm-council、reader3、HN time capsule);甚至為了定位一個(gè) bug,我會(huì) vibe coding 一個(gè)臨時(shí)應(yīng)用,用完即棄。

代碼變得不值錢、短暫存在、并可隨意改寫(xiě)與丟棄。

Vibe coding 在重塑軟件形態(tài)之外,也會(huì)重塑工作角色。

Nano Banana:LLM 的 GUI

Google Gemini 的「Nano Banana」,是 2025 年最讓我震撼的模型之一。

在我的世界觀里,LLM 是類似 1970–80 年代計(jì)算機(jī)的新一代通用計(jì)算范式,因此我們必然會(huì)看到類似的演化路徑:

  • 個(gè)人計(jì)算

  • 微控制器(認(rèn)知核心)

  • Agent 網(wǎng)絡(luò)(類似互聯(lián)網(wǎng))

而在 UI/UX 層面,「聊天」就像 80 年代的命令行。文本是計(jì)算機(jī)最偏好的表示形式,但并不是人類最喜歡的輸入方式。人們更喜歡視覺(jué)化、空間化的信息 —— 這正是 GUI 出現(xiàn)的原因。

同理,LLM 也應(yīng)該用我們偏好的形式與我們交流:圖片、信息圖、幻燈片、白板、動(dòng)畫(huà)、網(wǎng)頁(yè)應(yīng)用……

Emoji 和 Markdown 只是最早期、最粗糙的嘗試。那么,誰(shuí)會(huì)構(gòu)建真正的 LLM GUI?在我看來(lái),Nano Banana 是一個(gè)非常早期但重要的信號(hào)。

它的意義不只在于圖像生成,而在于:文本、圖像與世界知識(shí)在同一模型中深度糾纏。

最后總結(jié)

2025 年,是一個(gè)令人興奮、也充滿意外的大模型之年。

LLM 正在顯現(xiàn)出一種全新的智能形態(tài):它們既比我預(yù)期的聰明得多,又比我預(yù)期的愚蠢得多。

但無(wú)論如何,它們已經(jīng)極其有用,而我認(rèn)為行業(yè)甚至還沒(méi)有發(fā)揮出它們 10% 的潛力。

想法太多,空間太大,這個(gè)領(lǐng)域仍然是開(kāi)放的。

正如我今年在 Dwarkesh 播客中說(shuō)過(guò)的那樣:

我一方面相信進(jìn)展會(huì)持續(xù)且迅猛,另一方面也清楚,還有大量艱苦而細(xì)致的工作要做。

「系好安全帶」,接下來(lái)只會(huì)更快。


原推鏈接:https://x.com/karpathy/status/2002118205729562949

閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問(wèn)歐米伽研究所的“未來(lái)知識(shí)庫(kù)”

https://wx.zsxq.com/group/454854145828


未來(lái)知識(shí)庫(kù)是“ 歐米伽 未來(lái)研究所”建立的在線知識(shí)庫(kù)平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來(lái)趨勢(shì)。目前擁有超過(guò)8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問(wèn)https://wx.zsxq.com/group/454854145828進(jìn)入。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
犧牲五人,僅存一人:電視劇《烏龍山剿匪記》用鮮血寫(xiě)就的勝利

犧牲五人,僅存一人:電視劇《烏龍山剿匪記》用鮮血寫(xiě)就的勝利

白羽居士
2025-12-25 19:14:10
扣押中國(guó)油輪后,美方發(fā)現(xiàn)中國(guó)貨輪填滿導(dǎo)彈,白宮的說(shuō)法終于變了

扣押中國(guó)油輪后,美方發(fā)現(xiàn)中國(guó)貨輪填滿導(dǎo)彈,白宮的說(shuō)法終于變了

書(shū)中自有顏如玉
2025-12-27 13:41:09
沉默五天,蔡英文重磅發(fā)文,臺(tái)北全城已警戒,國(guó)民黨揪出罪惡根源

沉默五天,蔡英文重磅發(fā)文,臺(tái)北全城已警戒,國(guó)民黨揪出罪惡根源

現(xiàn)代小青青慕慕
2025-12-27 15:04:15
“飛人”劉翔徹底躺平,42歲每天游山玩水,看他曬世界各地游玩照

“飛人”劉翔徹底躺平,42歲每天游山玩水,看他曬世界各地游玩照

可樂(lè)談情感
2025-12-25 15:47:33
我調(diào)任市委書(shū)記后,被初戀嘲笑,秘書(shū)叫我書(shū)記后她驚呆了

我調(diào)任市委書(shū)記后,被初戀嘲笑,秘書(shū)叫我書(shū)記后她驚呆了

秋風(fēng)專欄
2025-12-23 15:18:07
這次,姜昆的"澄清"徹底淪為笑話,一份天氣預(yù)報(bào),把他們?nèi)鲑u了

這次,姜昆的"澄清"徹底淪為笑話,一份天氣預(yù)報(bào),把他們?nèi)鲑u了

千言?shī)蕵?lè)記
2025-12-27 19:56:34
深圳創(chuàng)投圈“搶人”實(shí)錄:機(jī)構(gòu)蹲守大疆樓下,離職就拿2000萬(wàn)

深圳創(chuàng)投圈“搶人”實(shí)錄:機(jī)構(gòu)蹲守大疆樓下,離職就拿2000萬(wàn)

財(cái)經(jīng)AI湃
2025-12-27 10:01:14
凌晨,發(fā)射成功!

凌晨,發(fā)射成功!

環(huán)球時(shí)報(bào)國(guó)際
2025-12-27 08:22:48
放棄中立選邊站,普京盟友準(zhǔn)備和中國(guó)翻臉?盧卡申科向美遞投名狀

放棄中立選邊站,普京盟友準(zhǔn)備和中國(guó)翻臉?盧卡申科向美遞投名狀

知鑒明史
2025-12-26 19:21:37
斬首!美軍圣誕夜空襲尼日利亞,據(jù)稱尼軍70%的武器裝備是中國(guó)造

斬首!美軍圣誕夜空襲尼日利亞,據(jù)稱尼軍70%的武器裝備是中國(guó)造

達(dá)文西看世界
2025-12-27 14:23:35
12月27日俄烏:澤連斯基赴美,特朗普憤怒回應(yīng)

12月27日俄烏:澤連斯基赴美,特朗普憤怒回應(yīng)

山河路口
2025-12-27 17:49:14
人口告別世界第一?二孩催生無(wú)效后,國(guó)家終于向住房出手了

人口告別世界第一?二孩催生無(wú)效后,國(guó)家終于向住房出手了

春秋論娛
2025-12-25 07:11:24
烏克蘭最美體操冠軍,放棄國(guó)籍做中國(guó)媳婦,37歲生二胎仍似少女

烏克蘭最美體操冠軍,放棄國(guó)籍做中國(guó)媳婦,37歲生二胎仍似少女

相思賦予誰(shuí)a
2025-12-10 02:34:18
迷人的大腿:生命的等高線

迷人的大腿:生命的等高線

疾跑的小蝸牛
2025-12-19 07:25:05
馬未都:香港寧愿要20萬(wàn)菲傭,也不接受內(nèi)地保姆,原因很簡(jiǎn)單

馬未都:香港寧愿要20萬(wàn)菲傭,也不接受內(nèi)地保姆,原因很簡(jiǎn)單

犀利辣椒
2025-12-27 06:42:38
呂良偉70大壽:楊受成彎腰舉杯、章小惠胖出水桶腰、王晶鍋蓋頭

呂良偉70大壽:楊受成彎腰舉杯、章小惠胖出水桶腰、王晶鍋蓋頭

小小李?yuàn)?/span>
2025-12-25 20:50:09
2026年,三年期定存利率:建行、郵儲(chǔ)、農(nóng)商銀行,哪個(gè)銀行最高?

2026年,三年期定存利率:建行、郵儲(chǔ)、農(nóng)商銀行,哪個(gè)銀行最高?

平說(shuō)財(cái)經(jīng)
2025-12-27 17:46:18
一場(chǎng)大裁員正在席卷中國(guó)的銀行!金飯碗,也不香了,什么原因?

一場(chǎng)大裁員正在席卷中國(guó)的銀行!金飯碗,也不香了,什么原因?

小鬼頭體育
2025-12-26 13:05:21
積極信號(hào)釋放!老百姓:建議把電動(dòng)輕便摩托車劃歸為非機(jī)動(dòng)車

積極信號(hào)釋放!老百姓:建議把電動(dòng)輕便摩托車劃歸為非機(jī)動(dòng)車

電動(dòng)車小辣椒
2025-12-27 07:05:20
78歲的克林頓和76歲的希拉里:一個(gè)老成骷髏手發(fā)抖,一個(gè)中氣十足

78歲的克林頓和76歲的希拉里:一個(gè)老成骷髏手發(fā)抖,一個(gè)中氣十足

小熊侃史
2025-12-26 11:22:19
2025-12-27 20:44:49
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4423文章數(shù) 37357關(guān)注度
往期回顧 全部

科技要聞

小米也漲價(jià)了!業(yè)界稱終端再不漲明年必虧

頭條要聞

美媒:特朗普顯然觸及了中國(guó)的紅線 中方怒了

頭條要聞

美媒:特朗普顯然觸及了中國(guó)的紅線 中方怒了

體育要聞

NBA教練圈的布朗尼,花了22年證明自己

娛樂(lè)要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財(cái)經(jīng)要聞

注意,開(kāi)始拉物價(jià)了!

汽車要聞

好音響比大屏更重要?車企開(kāi)始“聽(tīng)”用戶的

態(tài)度原創(chuàng)

游戲
旅游
手機(jī)
家居
公開(kāi)課

多款抗日游戲公布 會(huì)是打愛(ài)國(guó)情懷的圈錢爛作嗎?

旅游要聞

城市徒步新玩法!徐家匯“博物行”首發(fā),7條路線把都市變戶外博物館

手機(jī)要聞

小米玄戒O1出貨百萬(wàn)顆,十年磨一劍!自研芯片這條路,小米很清醒

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版