国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

大模型比預(yù)期聰明得多,也愚笨得多 | 卡帕西點(diǎn)評(píng)2025

0
分享至


2025 年是大語(yǔ)言模型取得顯著進(jìn)展、且事件頻發(fā)的一年。下面列出的是一些在我個(gè)人看來(lái)尤為重要、并且略顯出人意料的“范式變化”——它們改變了大模型面貌,也改變了我的理解。

  1. 來(lái)自可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)

在 2025 年初,幾乎所有實(shí)驗(yàn)室的大模型生產(chǎn)級(jí)技術(shù)棧和工程流程體系大致都是這樣:

預(yù)訓(xùn)練(GPT-2/3,大約 2020 年)

監(jiān)督微調(diào)(InstructGPT,大約 2022 年)

以及來(lái)自人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF,大約 2022 年)

一段時(shí)間以來(lái),這一套方法被證明是訓(xùn)練可用于生產(chǎn)的大模型的穩(wěn)定配方。到了 2025 年,來(lái)自可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)出現(xiàn),并事實(shí)上成為新的主要階段。

通過(guò)在多個(gè)環(huán)境中針對(duì)可自動(dòng)驗(yàn)證的獎(jiǎng)勵(lì)來(lái)訓(xùn)練大模型(例如數(shù)學(xué)或代碼謎題),模型會(huì)自發(fā)地產(chǎn)生在人類(lèi)看來(lái)像是“推理”的策略——它們學(xué)會(huì)把問(wèn)題拆解為中間計(jì)算步驟,也學(xué)會(huì)多種來(lái)回求解的策略(可參見(jiàn) DeepSeek R1 論文中的示例)。在此前的范式下,這些策略極難獲得,因?yàn)椴⒉磺宄?duì)大模型而言,什么樣的推理軌跡和恢復(fù)路徑才是最優(yōu)的——模型必須通過(guò)獎(jiǎng)勵(lì)優(yōu)化自行發(fā)現(xiàn)哪些方式對(duì)它有效。

與 SFT 和 RLHF 這兩個(gè)相對(duì)薄/短(計(jì)算量較小的微調(diào))的階段不同,RLVR 是在客觀(guān)(無(wú)法投機(jī)利用)的獎(jiǎng)勵(lì)函數(shù)下進(jìn)行訓(xùn)練,因此允許更長(zhǎng)時(shí)間的優(yōu)化。實(shí)踐證明,運(yùn)行 RLVR 帶來(lái)了高能力/成本比,直接吞噬了原本打算用于預(yù)訓(xùn)練的算力。因此,2025 年的大部分能力進(jìn)展,實(shí)際上來(lái)自于各大實(shí)驗(yàn)室消化這一新增階段的積壓,總體表現(xiàn)為模型規(guī)模相近,但 RL 運(yùn)行時(shí)間顯著拉長(zhǎng)。

這一新階段還有一個(gè)獨(dú)特之處:我們獲得了一個(gè)全新的調(diào)節(jié)旋鈕(以及與之對(duì)應(yīng)的縮放規(guī)律),可以通過(guò)在測(cè)試時(shí)生成更長(zhǎng)的推理軌跡、增加“思考時(shí)間”,來(lái)控制模型能力。OpenAI 的 o1(2024 下半年)是第一個(gè) RLVR 模型的演示,而 o3(2025 年初)的發(fā)布,則是一個(gè)明顯的拐點(diǎn),人們可以直觀(guān)地感受到差異。

  1. 幽靈 vs 動(dòng)物 / 鋸齒狀智能

2025 年,是我(我想也是整個(gè)行業(yè))第一次以更直覺(jué)的方式真正理解大模型智能“形狀”的一年。我們并不是在“進(jìn)化或培育動(dòng)物”,而是在“召喚幽靈”。

大模型體系的方方面面都與生物智能不同(神經(jīng)結(jié)構(gòu)、訓(xùn)練數(shù)據(jù)、訓(xùn)練算法,尤其是優(yōu)化壓力)因此我們?cè)谥悄芸臻g中得到的是完全不同的實(shí)體,用“動(dòng)物”的視角去理解它們并不合適。從監(jiān)督信息的角度看,人類(lèi)神經(jīng)網(wǎng)絡(luò)是為叢林中部落的生存而優(yōu)化的;而大模型的神經(jīng)網(wǎng)絡(luò)則是為模仿人類(lèi)文本、在數(shù)學(xué)謎題中獲取獎(jiǎng)勵(lì)、以及在語(yǔ)言模型競(jìng)技場(chǎng)中獲得人類(lèi)點(diǎn)贊而優(yōu)化的。

隨著可驗(yàn)證領(lǐng)域?yàn)?RLVR 打開(kāi)空間,大模型在這些領(lǐng)域附近會(huì)出現(xiàn)能力的“尖峰”,整體表現(xiàn)出一種頗為有趣的鋸齒狀性能特征——它們一方面像是博學(xué)的天才通才,另一方面又像是認(rèn)知混亂、容易受騙的小學(xué)生,隨時(shí)可能被一次越獄攻擊誘導(dǎo)交出你的數(shù)據(jù)。


(人類(lèi)智能為藍(lán)色,AI 智能為紅色。我很喜歡這個(gè)梗圖,它指出人類(lèi)智能本身也以另一種方式呈現(xiàn)出鋸齒狀。)

與此相關(guān)的,是我在 2025 年對(duì)基準(zhǔn)測(cè)試普遍產(chǎn)生的冷淡與不信任。核心問(wèn)題在于:基準(zhǔn)測(cè)試幾乎在結(jié)構(gòu)上就是可驗(yàn)證環(huán)境,因此極易受到 RLVR 及其弱化形式(通過(guò)合成數(shù)據(jù))影響。在典型的“刷榜”過(guò)程中,實(shí)驗(yàn)室團(tuán)隊(duì)不可避免地會(huì)構(gòu)建環(huán)境,靠近一個(gè)角落,位于基準(zhǔn)測(cè)試所占據(jù)的嵌入空間,并在這些地方“長(zhǎng)出鋸齒”。在測(cè)試集上訓(xùn)練,已經(jīng)成為一種新的藝術(shù)形式。

把所有基準(zhǔn)測(cè)試都碾壓一遍,卻仍然得不到 AGI,這是怎么回事?

我在以下文章中對(duì)這一主題寫(xiě)了更多內(nèi)容:

Animals vs. Ghosts (動(dòng)物 vs.幽靈)

Verifiability (可驗(yàn)證)

The Space of Minds (心智空間)

  1. Cursor / 新一層的大模型應(yīng)用

Cursor 今年最讓我印象深刻的,并不僅是它的爆發(fā)式增長(zhǎng),而是它清晰地揭示了一種全新的“大模型應(yīng)用層”——人們開(kāi)始談?wù)摗澳愁I(lǐng)域的 Cursor”。

正如我在今年的 Y Combinator 演講中所強(qiáng)調(diào)的那樣,像 Cursor 這樣的應(yīng)用會(huì)為特定垂直領(lǐng)域打包并編排大模型調(diào)用:

它們負(fù)責(zé)“上下文工程”;

在后臺(tái)將多次模型調(diào)用串聯(lián)成越來(lái)越復(fù)雜的有向無(wú)環(huán)圖(DAG),在性能與成本之間精細(xì)權(quán)衡;

為人類(lèi)參與者提供特定應(yīng)用的圖形界面;

并提供一個(gè)“自主程度滑塊”。

2025 年有大量討論圍繞這一新應(yīng)用層到底有多“厚”。大模型實(shí)驗(yàn)室會(huì)不會(huì)吃下所有應(yīng)用?是否仍有空間留給獨(dú)立應(yīng)用?我個(gè)人的判斷是:實(shí)驗(yàn)室會(huì)培養(yǎng)出通用能力相當(dāng)于大學(xué)生的模型,而具體的大模型應(yīng)用則會(huì)通過(guò)提供私有數(shù)據(jù)、傳感器、執(zhí)行器和反饋回路,把這些模型組織、微調(diào)并真正“激活”為特定領(lǐng)域中的專(zhuān)業(yè)團(tuán)隊(duì)。

  1. Claude Code / 駐留在你電腦里的 AI

Claude Code(CC)是我見(jiàn)到的第一個(gè)真正令人信服的大模型智能體示例——它以一種循環(huán)的方式,將工具使用與推理串聯(lián)起來(lái),完成長(zhǎng)時(shí)間的問(wèn)題求解。

同時(shí),它運(yùn)行在你的電腦上,使用你的私有環(huán)境、數(shù)據(jù)和上下文。這一點(diǎn)在我看來(lái)非常重要。我認(rèn)為OpenAI在這里的方向是錯(cuò)誤的,因?yàn)樗缙趯?Codex /智能體聚焦于由 ChatGPT 編排的云端容器,而不是直接運(yùn)行在本地。

雖然云端運(yùn)行的智能體集群可能是“AGI 終局”,但我們目前身處的是一個(gè)能力鋸齒、起飛速度較慢的中間階段,在這種情況下,把智能體直接運(yùn)行在開(kāi)發(fā)者的電腦上更合理。真正重要的區(qū)別并不在于 AI 運(yùn)算發(fā)生在哪里,而在于:已經(jīng)啟動(dòng)的電腦本身、其安裝環(huán)境、上下文、數(shù)據(jù)、密鑰、配置,以及低延遲的交互。

Anthropic 把優(yōu)先級(jí)順序理清了,并將 CC 打包成一個(gè)令人愉悅、極簡(jiǎn)的 CLI (命令行界面)形態(tài),改變了 AI 的樣貌——它不再只是一個(gè)你訪(fǎng)問(wèn)的網(wǎng)站,而是一個(gè)“住在你電腦里”的小幽靈。這是一種全新的、獨(dú)立的 AI 交互范式。

  1. 氛圍編程(Vibe Coding)

2025 年,是 AI 跨過(guò)一個(gè)關(guān)鍵能力門(mén)檻的一年:人們可以?xún)H通過(guò)英語(yǔ)構(gòu)建各種令人印象深刻的程序,甚至忘記代碼的存在。有趣的是,我是在一條隨手寫(xiě)下的推文中無(wú)意創(chuàng)造了“vibe coding”這個(gè)詞,完全沒(méi)想到它會(huì)流傳開(kāi)來(lái)。

在這種模式下,編程不再只是專(zhuān)業(yè)人士的專(zhuān)利,而成為任何人都能做的事情。這也再次印證了我在《權(quán)力歸于大眾》中寫(xiě)過(guò)的觀(guān)點(diǎn):與此前所有技術(shù)不同,大模型讓普通人獲得的收益遠(yuǎn)大于專(zhuān)業(yè)人士、企業(yè)或政府。

(2025/4/8) 閱讀全文>

與此同時(shí),氛圍編程也讓專(zhuān)業(yè)開(kāi)發(fā)者能夠?qū)懗龃罅吭静粫?huì)被寫(xiě)出來(lái)的軟件。今年我用這種方式寫(xiě)了多個(gè)項(xiàng)目,只是為了快速驗(yàn)證某個(gè)想法。代碼突然變得廉價(jià)、短暫、可塑,用完即棄。

氛圍編程將重塑軟件,并改變工作描述。

  1. NanoBanana /大模型GUI

Google 的 Gemini Nano Banana 是 2025 年最令人震撼、最具范式意義的模型之一。在我看來(lái),大模型是繼 1970、80 年代計(jì)算機(jī)之后的下一代計(jì)算范式,因此我們將看到類(lèi)似的創(chuàng)新:個(gè)人計(jì)算、微控制器、互聯(lián)網(wǎng)等。

在 UI/UX 層面,與大模型“聊天”,就像 1980 年代在命令行里給計(jì)算機(jī)下指令。文本是計(jì)算機(jī)偏好的數(shù)據(jù)形式,但并不是人類(lèi)偏好的輸入形式。人們更喜歡視覺(jué)和空間化的信息呈現(xiàn),這正是 GUI 出現(xiàn)的原因。

同樣,大模型也應(yīng)該用人類(lèi)偏好的方式與我們交流——圖像、信息圖、幻燈片、白板、動(dòng)畫(huà)、網(wǎng)頁(yè)應(yīng)用等。Nano Banana 是這一方向的早期信號(hào),它的重要之處不僅在于生成圖像,而在于文本生成、圖像生成與世界知識(shí)在模型權(quán)重中的糾纏。

總結(jié)

2025 年是令人興奮、略顯意外的一年。大模型正在顯現(xiàn)為一種全新的智能形態(tài):既比我預(yù)期的聰明得多,又比我預(yù)期的愚笨得多。它們極其有用,而行業(yè)甚至還沒(méi)有意識(shí)到它們潛力的 10%。

與此同時(shí),想法多得令人應(yīng)接不暇,整個(gè)領(lǐng)域依然是一片廣闊的開(kāi)放空間。正如我今年早些時(shí)候在 Dwarkesh 播客中提到的那樣,我同時(shí)相信(表面看似矛盾):我們既會(huì)看到快速而持續(xù)的進(jìn)展,也還有大量工作要做。

系好安全帶。

原文來(lái)自卡帕西的博客:

https://karpathy.bearblog.dev/year-in-review-2025/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
U23國(guó)足20分鐘丟2球!小倉(cāng)幸成遠(yuǎn)射世界波,王鈺棟低級(jí)失誤

U23國(guó)足20分鐘丟2球!小倉(cāng)幸成遠(yuǎn)射世界波,王鈺棟低級(jí)失誤

奧拜爾
2026-01-24 23:27:54
民進(jìn)黨準(zhǔn)備下死手,黃國(guó)昌攜美密令向大陸遞投名狀,統(tǒng)一已成定局

民進(jìn)黨準(zhǔn)備下死手,黃國(guó)昌攜美密令向大陸遞投名狀,統(tǒng)一已成定局

小俎娛樂(lè)
2026-01-25 14:34:15
布呂尼:從妻子變兒媳,同時(shí)和父子談戀愛(ài),最終成為法國(guó)第一夫人

布呂尼:從妻子變兒媳,同時(shí)和父子談戀愛(ài),最終成為法國(guó)第一夫人

青途歷史
2026-01-23 20:12:55
明確規(guī)定來(lái)了!機(jī)關(guān)事業(yè)單位職工下班后打牌打麻將,算違紀(jì)嗎?

明確規(guī)定來(lái)了!機(jī)關(guān)事業(yè)單位職工下班后打牌打麻將,算違紀(jì)嗎?

阿纂看事
2026-01-24 09:56:48
78年王近山病逝,鄧小平看過(guò)訃告上的軍級(jí)之后,坦言:確實(shí)不合適

78年王近山病逝,鄧小平看過(guò)訃告上的軍級(jí)之后,坦言:確實(shí)不合適

元哥說(shuō)歷史
2026-01-25 14:45:03
打臉黑子,湖人逆轉(zhuǎn)獨(dú)行俠,賽后還有5個(gè)好消息,東契奇喜笑顏開(kāi)

打臉黑子,湖人逆轉(zhuǎn)獨(dú)行俠,賽后還有5個(gè)好消息,東契奇喜笑顏開(kāi)

鄒維體育
2026-01-25 12:17:55
此人叛變新四軍,1949年李先念主動(dòng)宴請(qǐng)他,他舉報(bào):有人要叛變

此人叛變新四軍,1949年李先念主動(dòng)宴請(qǐng)他,他舉報(bào):有人要叛變

大運(yùn)河時(shí)空
2026-01-25 17:05:03
越共中央政治局,“新面孔”接近一半

越共中央政治局,“新面孔”接近一半

中國(guó)新聞周刊
2026-01-24 19:46:04
2026年養(yǎng)老金繼續(xù)漲?人社部部長(zhǎng)表態(tài)了!取消掛鉤調(diào)整可行嗎?

2026年養(yǎng)老金繼續(xù)漲?人社部部長(zhǎng)表態(tài)了!取消掛鉤調(diào)整可行嗎?

李健政觀(guān)察
2026-01-25 13:08:19
49年,裝滿(mǎn)50箱大洋的飛機(jī)墜毀,當(dāng)?shù)厝四寐榇鼡專(zhuān)瑓s付出慘痛代價(jià)

49年,裝滿(mǎn)50箱大洋的飛機(jī)墜毀,當(dāng)?shù)厝四寐榇鼡專(zhuān)瑓s付出慘痛代價(jià)

雍親王府
2026-01-25 08:20:03
白宮發(fā)布“特朗普和企鵝漫步格陵蘭島”圖,遭群嘲

白宮發(fā)布“特朗普和企鵝漫步格陵蘭島”圖,遭群嘲

新華社
2026-01-25 16:55:04
井柏然曬北京千萬(wàn)豪宅!水泥地?fù)Q成木板土氣,陽(yáng)臺(tái)和劉雯合照搶鏡

井柏然曬北京千萬(wàn)豪宅!水泥地?fù)Q成木板土氣,陽(yáng)臺(tái)和劉雯合照搶鏡

曉徙娛樂(lè)
2026-01-25 04:21:24
肯德基,被迫改名PFK

肯德基,被迫改名PFK

設(shè)計(jì)癖
2026-01-24 12:13:41
丈夫項(xiàng)英犧牲后,李又蘭改嫁張愛(ài)萍,生下三個(gè)兒子都是牛人

丈夫項(xiàng)英犧牲后,李又蘭改嫁張愛(ài)萍,生下三個(gè)兒子都是牛人

史韻流轉(zhuǎn)
2026-01-25 06:25:03
“臘八3不吃,福氣進(jìn)家門(mén)”,指哪3不吃?臘八節(jié)來(lái)臨,莫忘老傳統(tǒng)

“臘八3不吃,福氣進(jìn)家門(mén)”,指哪3不吃?臘八節(jié)來(lái)臨,莫忘老傳統(tǒng)

神牛
2026-01-24 15:00:25
陪睡陪玩只是冰山一角!萬(wàn)達(dá)蒸發(fā)800億后,王思聰再次傳出大丑聞

陪睡陪玩只是冰山一角!萬(wàn)達(dá)蒸發(fā)800億后,王思聰再次傳出大丑聞

阿器談史
2025-12-26 15:26:05
快報(bào)調(diào)查|嫣然醫(yī)院與嫣然基金的賬本迷局

快報(bào)調(diào)查|嫣然醫(yī)院與嫣然基金的賬本迷局

現(xiàn)代快報(bào)
2026-01-24 18:53:06
14年后,再看“京城四少”的現(xiàn)狀,才明白娶一個(gè)好老婆有多重要

14年后,再看“京城四少”的現(xiàn)狀,才明白娶一個(gè)好老婆有多重要

豐譚筆錄
2026-01-13 07:20:11
“秦嵐”也太凡爾賽了吧!穿一身瑜伽服凹凸有致,巴掌腰太搶鏡

“秦嵐”也太凡爾賽了吧!穿一身瑜伽服凹凸有致,巴掌腰太搶鏡

巧手曉廚娘
2025-12-30 18:59:18
從草根到頂流,趙麗穎能“輸?shù)闷稹钡牡着疲旱艿懿攀钦嬲氖刈o(hù)者

從草根到頂流,趙麗穎能“輸?shù)闷稹钡牡着疲旱艿懿攀钦嬲氖刈o(hù)者

夢(mèng)在深巷qw
2026-01-25 10:22:47
2026-01-25 17:27:00
未盡研究 incentive-icons
未盡研究
新能源、人工智能、合成生物、地緣X
292文章數(shù) 61關(guān)注度
往期回顧 全部

科技要聞

黃仁勛在上海逛菜市場(chǎng),可能惦記著三件事

頭條要聞

獲黃仁勛簽名紅包商戶(hù):我開(kāi)始不認(rèn)識(shí)他 紅包里有600元

頭條要聞

獲黃仁勛簽名紅包商戶(hù):我開(kāi)始不認(rèn)識(shí)他 紅包里有600元

體育要聞

中國(guó)足球不會(huì)一夜變強(qiáng),但他們已經(jīng)創(chuàng)造歷史

娛樂(lè)要聞

王玉雯方嚴(yán)正聲明 劇方回應(yīng):涉事人員已被開(kāi)除

財(cái)經(jīng)要聞

隋廣義等80人被公訴 千億騙局進(jìn)入末路

汽車(chē)要聞

別克至境E7內(nèi)飾圖曝光 新車(chē)將于一季度正式發(fā)布

態(tài)度原創(chuàng)

健康
藝術(shù)
房產(chǎn)
手機(jī)
公開(kāi)課

耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

藝術(shù)要聞

全認(rèn)識(shí)這13個(gè)字的人,能否復(fù)印王羲之的作品?

房產(chǎn)要聞

正式官宣!三亞又一所名校要來(lái)了!

手機(jī)要聞

榮耀泡泡瑪特聯(lián)名手機(jī)今日開(kāi)售:首銷(xiāo)即引爆,線(xiàn)下再現(xiàn)排隊(duì)熱潮

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版