国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Andrej Karpathy 年度總結(jié):Nano Banana最為震撼, 指向下一代 AI GUI 的雛形

0
分享至

↑閱讀之前記得關(guān)注+星標(biāo)??,,每天才能第一時間接收到更新

AK的年終總結(jié)來了,這是不可錯過的好文,全文分享給大家


2025 年是大型語言模型(LLM)領(lǐng)域蓬勃發(fā)展、大事頻發(fā)的一年。以下是我個人認(rèn)為最值得關(guān)注且略感意外的“范式轉(zhuǎn)變”清單——這些變化改變了行業(yè)格局,并在理念上讓我深受觸動

1. 基于可驗證獎勵的強化學(xué)習(xí)(RLVR)

在 2025 年初,各大實驗室的 LLM 生產(chǎn)流程大體如下:

預(yù)訓(xùn)練(Pretraining,約 2020 年的 GPT-2/3)

指令微調(diào)(Supervised Finetuning,約 2022 年的 InstructGPT)

基于人類反饋的強化學(xué)習(xí)(RLHF,約 2022 年)

長期以來,這一直是訓(xùn)練生產(chǎn)級 LLM 的成熟穩(wěn)定配方。而到了 2025 年,基于可驗證獎勵的強化學(xué)習(xí)(RLVR) 成了這一組合中事實上的新成員。通過針對一系列可自動驗證獎勵的環(huán)境(例如數(shù)學(xué)題或代碼謎題)進(jìn)行訓(xùn)練,LLM 會自發(fā)地演化出在人類看來類似于“推理”的策略——它們學(xué)會了將問題拆解為中間計算步驟,并學(xué)會了多種來回嘗試、推導(dǎo)解決問題的策略(參見 DeepSeek R1 論文中的示例)。在之前的范式中,這些策略很難實現(xiàn),因為人類并不清楚 LLM 最優(yōu)的推理路徑和糾錯過程應(yīng)該是怎樣的——模型必須通過針對獎勵的優(yōu)化,自己找到行之有效的方法。

與 SFT 和 RLHF 這類計算量較小的“輕量級”微調(diào)階段不同,RLVR 針對的是客觀(不可作弊)的獎勵函數(shù),這使得進(jìn)行更長周期的優(yōu)化成為可能。事實證明,運行 RLVR 具有極高的“能力/成本比”,它吞噬了原本計劃用于預(yù)訓(xùn)練的算力。因此,2025 年的大部分能力提升,都源于各大實驗室在消化這一新階段帶來的“算力積壓”,總體上我們看到的模型參數(shù)規(guī)模變動不大,但 RL 運行的時間要長得多。同樣,這一新階段還帶了一個全新的調(diào)節(jié)旋鈕(以及相關(guān)的縮放定律):我們可以通過生成更長的推理路徑、增加“思考時間”,來控制模型在推理時的能力表現(xiàn)。OpenAI 的 o1(2024 年底)是 RLVR 模型的首次展示,但 o3 的發(fā)布(2025 年初)才是明顯的拐點,讓你能直觀感受到這種差異。

2. 幽靈 vs. 動物 / 鋸齒狀智能

2025 年,我(以及我認(rèn)為整個行業(yè)也是如此)開始從直覺上內(nèi)化 LLM 智能的“形態(tài)”。我們并不是在“進(jìn)化或培養(yǎng)動物”,而是在“召喚幽靈”。LLM 技術(shù)棧的一切(神經(jīng)架構(gòu)、訓(xùn)練數(shù)據(jù)、訓(xùn)練算法,尤其是優(yōu)化壓力)都完全不同,因此產(chǎn)生出完全不同于生物智能的實體也就不足為奇了,用觀察動物的視角來看待它們是不恰當(dāng)?shù)摹?/p>

從監(jiān)督信息的比特位來看,人類神經(jīng)網(wǎng)絡(luò)是為了在叢林部落中生存而優(yōu)化的;而 LLM 神經(jīng)網(wǎng)絡(luò)是為了模仿人類文本、在數(shù)學(xué)題中獲取獎勵、以及在 LM Arena 榜單上獲得人類點贊而優(yōu)化的。隨著可驗證領(lǐng)域的出現(xiàn),RLVR 使得 LLM 在這些領(lǐng)域附近的能力出現(xiàn)“激增”,整體表現(xiàn)出一種有趣的**“鋸齒狀”性能特征**:它們既是博學(xué)的天才,又像是個思維混亂、有認(rèn)知障礙的小學(xué)生,前一秒還在解難題,后一秒就可能被簡單的提示詞破解(Jailbreak)從而泄露你的數(shù)據(jù)。


與此相關(guān)的是,我在 2025 年對各種基準(zhǔn)測試(Benchmarks)產(chǎn)生了普遍的審美疲勞和信任危機。核心問題在于,基準(zhǔn)測試從定義上幾乎就是“可驗證環(huán)境”,因此極易受到 RLVR 或更弱形式的合成數(shù)據(jù)生成的攻擊。在典型的“刷榜(benchmaxxing)”過程中,實驗室團(tuán)隊不可避免地在測試集周圍構(gòu)建環(huán)境,長出“鋸齒”來覆蓋這些區(qū)域。“面向測試集訓(xùn)練”已經(jīng)成了一種新的藝術(shù)形式。

如果一個模型刷爆了所有榜單,卻依然沒能實現(xiàn)通用人工智能(AGI),那會是怎樣的景象?

3. Cursor / 新一代 LLM 應(yīng)用層

關(guān)于 Cursor,最令我觸目的(除了它今年的彗星般崛起)是它令人信服地揭示了“LLM 應(yīng)用”的新層級——人們開始討論各行各業(yè)的“Cursor 版”。正如我在今年的 Y Combinator 演講中所強調(diào)的,像 Cursor 這樣的 LLM 應(yīng)用為特定垂直領(lǐng)域封裝并編排了 LLM 調(diào)用:

它們處理“上下文工程”

它們在底層編排多個 LLM 調(diào)用,將其串聯(lián)成日益復(fù)雜的有向無環(huán)圖(DAG),精細(xì)平衡性能和成本

它們?yōu)槿祟悈⑴c提供特定應(yīng)用的圖形界面(GUI)。

它們提供了一個“自主程度調(diào)節(jié)滑塊”

2025 年有很多關(guān)于這個新應(yīng)用層究竟會有多“厚”的討論。LLM 實驗室會通吃所有應(yīng)用,還是會給垂直應(yīng)用留下肥沃的草原?我個人懷疑,LLM 實驗室傾向于培養(yǎng)出能力全面的“大學(xué)生”,而 LLM 應(yīng)用則會通過提供私有數(shù)據(jù)、傳感器、執(zhí)行器和反饋閉環(huán),來組織、微調(diào)并真正驅(qū)動這些“大學(xué)生”團(tuán)隊,使之成為特定領(lǐng)域的專業(yè)從業(yè)者。

4. Claude Code / 住在你電腦里的 AI

Claude Code (CC) 的出現(xiàn),是 LLM 智能體(Agent)的第一次令人信服的展示——它能以循環(huán)往復(fù)的方式串聯(lián)工具調(diào)用和推理,進(jìn)行長時間的問題解決。此外,CC 令我關(guān)注的一點是,它運行在你的電腦上,使用你的私有環(huán)境、數(shù)據(jù)和上下文。我認(rèn)為 OpenAI 在這方面走偏了,因為他們把 Codex/智能體的重心放在了云端容器,通過 ChatGPT 編排,而不是放在 localhost(本地)。雖然云端運行的智能體集群感覺像是“AGI 的終局”,但我們生活在一個能力參差不齊、技術(shù)緩慢起步的過渡世界,直接在電腦上運行智能體,與開發(fā)者及其具體配置手拉手工作,反而更有意義。CC 抓住了這個優(yōu)先順序,并將其打包成一個精美、極簡、令人信服的命令行(CLI)形態(tài),改變了 AI 的樣貌——它不再是一個像 Google 那樣你主動訪問的網(wǎng)站,而是一個“住”在你電腦里的靈體/幽靈。這是一種全新的、獨特的 AI 交互范式

5. Vibe coding

2025 年,AI 跨越了一個能力閾值,使得人們僅憑英語就能構(gòu)建各種令人驚嘆的程序,甚至完全忘記了代碼的存在。有趣的是,“Vibe coding”這個詞是我在一條淋浴時的胡思亂想推文里偶然創(chuàng)造的,完全沒料到它會流傳這么廣。

有了Vibe coding,編程不再是受過高度訓(xùn)練的專業(yè)人士的專利,而是任何人都能做的事。在這方面,它再次印證了我之前在《權(quán)力歸于人民》中所寫的:LLM 如何反轉(zhuǎn)了技術(shù)擴散的腳本——與以往所有技術(shù)不同,普通人從 LLM 中獲益遠(yuǎn)多于專業(yè)人士、企業(yè)和政府。不僅普通人能嘗試編程,受過訓(xùn)練的專業(yè)人士也能寫出更多(氛圍編碼產(chǎn)生的)原本根本不會去寫的軟件。在開發(fā) nanochat 時,我用 Rust 氛圍編碼了我自己的高效 BPE 分詞器,而不需要去尋找現(xiàn)有庫或在那個深度學(xué)習(xí) Rust。今年我氛圍編碼了許多項目,作為我想要存在的東西的快速 Demo。我甚至為了找一個 Bug 氛圍編碼了整個臨時應(yīng)用——因為代碼突然變得免費、瞬時、可塑,用完即棄。氛圍編碼將重塑軟件生態(tài),并改變職業(yè)定義。

6. Nano Banana / LLM 圖形界面

Google Gemini Nano Banana 是 2025 年最令人震撼、最具范式轉(zhuǎn)移意義的模型之一。在我的世界觀里,LLM 是繼 1970、80 年代計算機之后的下一次重大計算范式。因此,我們將看到基于類似邏輯的類似創(chuàng)新:我們將看到個人計算的等價物、微控制器的等價物(認(rèn)知核心)、互聯(lián)網(wǎng)的等價物(智能體網(wǎng)絡(luò))等等。

特別是在 UI/UX 方面,與 LLM 對話有點像在 80 年代向電腦控制臺輸入命令。文本是計算機(和 LLM)偏好的原始數(shù)據(jù)表示,但它并不是人類偏好的格式,尤其是在輸入端。人類其實不喜歡讀長篇大論——這很慢且費勁。相反,人類喜歡以視覺和空間方式消耗信息,這就是傳統(tǒng)計算中 GUI 被發(fā)明的原因。同理,LLM 也應(yīng)該以我們偏好的格式與我們交流——通過圖像、信息圖、幻燈片、白板、動畫/視頻、網(wǎng)頁應(yīng)用等。

這種模式的早期和現(xiàn)狀當(dāng)然是 Emoji 和 Markdown,它們是裝飾和排版文本的方式。但誰來真正構(gòu)建“LLM GUI”呢?在這種視角下,Nano Banana 是這種可能性的早期雛形。重要的是,它的顯著特征不僅在于圖像生成本身,而在于由文本生成、圖像生成和世界知識在模型權(quán)重中交織而成的聯(lián)合能力。

簡而言之: 2025 年是 LLM 領(lǐng)域激動人心且略帶意外的一年。LLM 正在演變成一種新型智能,它比我預(yù)期的要聰明得多,同時也比我預(yù)期的要笨得多。無論如何,它們都極其有用,我認(rèn)為即便以目前的能力,整個行業(yè)實現(xiàn)出的潛力還不到 10%。與此同時,還有太多的想法值得嘗試,從概念上講,這個領(lǐng)域依然大有可為。正如我今年早些時候在 Dwarkesh 的播客中所說:我同時相信(表面上看似矛盾)我們會看到持續(xù)且飛速的進(jìn)展,但依然有大量艱苦的工作等待完成。

坐穩(wěn)了,好戲才剛開始。

source:

https://x.com/karpathy/status/2002118205729562949

--end--

最后記得??我,每天都在更新:歡迎點贊轉(zhuǎn)發(fā)推薦評論,別忘了關(guān)注我

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
伊朗最大的內(nèi)鬼浮出水面!

伊朗最大的內(nèi)鬼浮出水面!

仰望星空的一粒沙子
2026-03-01 22:29:18
美軍瞞不住了!炸航母基地,炸11億美元雷達(dá),幾十萬噸燃油被點燃

美軍瞞不住了!炸航母基地,炸11億美元雷達(dá),幾十萬噸燃油被點燃

書紀(jì)文譚
2026-03-01 23:26:27
美以空襲伊朗,阿拉伯國家聯(lián)盟發(fā)聲:“阿拉伯-以色列沖突升級為全面地區(qū)戰(zhàn)爭的時刻”

美以空襲伊朗,阿拉伯國家聯(lián)盟發(fā)聲:“阿拉伯-以色列沖突升級為全面地區(qū)戰(zhàn)爭的時刻”

環(huán)球網(wǎng)資訊
2026-03-01 11:00:18
“大力神”軍機墜毀 已致15人死亡 天空下鈔票雨 民眾瘋搶!

“大力神”軍機墜毀 已致15人死亡 天空下鈔票雨 民眾瘋搶!

每日經(jīng)濟(jì)新聞
2026-02-28 14:37:58
特朗普稱美方“基本摧毀”伊朗海軍總部

特朗普稱美方“基本摧毀”伊朗海軍總部

財聯(lián)社
2026-03-02 01:29:13
陸軍總司令遇難,最高領(lǐng)袖已被炸?伊朗報復(fù),第一支援兵出現(xiàn)

陸軍總司令遇難,最高領(lǐng)袖已被炸?伊朗報復(fù),第一支援兵出現(xiàn)

吳欣純Deborah
2026-03-01 12:28:11
“反詐老陳”賬號被封,本人回應(yīng):問心無愧!MCN機構(gòu):即刻解除所有合約,雙方合作立即終止

“反詐老陳”賬號被封,本人回應(yīng):問心無愧!MCN機構(gòu):即刻解除所有合約,雙方合作立即終止

都市快報橙柿互動
2026-03-01 07:15:47
20名伊朗女排姑娘,剛創(chuàng)造了62年紀(jì)錄,卻被導(dǎo)彈永遠(yuǎn)留在了訓(xùn)練場

20名伊朗女排姑娘,剛創(chuàng)造了62年紀(jì)錄,卻被導(dǎo)彈永遠(yuǎn)留在了訓(xùn)練場

眼界縱橫
2026-03-01 21:50:28
網(wǎng)友預(yù)測明天早上10點半 deepseek 發(fā)布V4 模型,首次沒給英偉達(dá)權(quán)限,選擇與華為合作

網(wǎng)友預(yù)測明天早上10點半 deepseek 發(fā)布V4 模型,首次沒給英偉達(dá)權(quán)限,選擇與華為合作

風(fēng)向觀察
2026-03-01 17:11:32
女單頒獎!王曼昱領(lǐng)獎杯開心,孫穎莎獲全程歡呼,展可愛一幕!

女單頒獎!王曼昱領(lǐng)獎杯開心,孫穎莎獲全程歡呼,展可愛一幕!

籃球資訊達(dá)人
2026-03-01 20:51:07
真的天塌!拔乳牙竟把孩子2顆恒牙拔掉,鹽城一口腔醫(yī)生整出事故

真的天塌!拔乳牙竟把孩子2顆恒牙拔掉,鹽城一口腔醫(yī)生整出事故

火山詩話
2026-03-01 18:08:52
美國2個月內(nèi)悍然對兩國領(lǐng)導(dǎo)人發(fā)動襲擊,繼委內(nèi)瑞拉、伊朗之后,下一個會是誰?專家:有可能是古巴

美國2個月內(nèi)悍然對兩國領(lǐng)導(dǎo)人發(fā)動襲擊,繼委內(nèi)瑞拉、伊朗之后,下一個會是誰?專家:有可能是古巴

極目新聞
2026-03-01 15:07:54
中國演員度假滯留迪拜,航班一次又一次被取消,發(fā)視頻稱“想回家”

中國演員度假滯留迪拜,航班一次又一次被取消,發(fā)視頻稱“想回家”

上觀新聞
2026-03-01 17:25:04
1971年伊朗花20億干這么愚蠢的事情,最終成為最昂貴的葬禮

1971年伊朗花20億干這么愚蠢的事情,最終成為最昂貴的葬禮

爆角追蹤
2026-03-01 15:28:53
近期,一名中國男子去泰國玩,花6000泰銖找21歲女孩,悲劇發(fā)生了

近期,一名中國男子去泰國玩,花6000泰銖找21歲女孩,悲劇發(fā)生了

鯨探所長
2026-03-01 14:38:25
外媒稱哈梅內(nèi)伊在其工作場所遇害,為何沒躲避?為何能精準(zhǔn)定位?

外媒稱哈梅內(nèi)伊在其工作場所遇害,為何沒躲避?為何能精準(zhǔn)定位?

之乎者也小魚兒
2026-03-01 11:44:00
暴雪藍(lán)色預(yù)警:山西、河北、山東、河南等地部分地區(qū)有暴雪

暴雪藍(lán)色預(yù)警:山西、河北、山東、河南等地部分地區(qū)有暴雪

界面新聞
2026-03-01 10:11:27
A股:大家坐穩(wěn)扶好了,美以伊大沖突,牛市或?qū)⒃俅沃匮輾v史了!

A股:大家坐穩(wěn)扶好了,美以伊大沖突,牛市或?qū)⒃俅沃匮輾v史了!

夜深愛雜談
2026-03-01 19:34:36
哈梅內(nèi)伊:舊時代的最后一個獨裁者

哈梅內(nèi)伊:舊時代的最后一個獨裁者

黔有虎
2026-03-01 19:08:14
全線拉升!剛剛,超10萬人爆倉!伊朗總統(tǒng),最新發(fā)聲!伊朗股市按下“暫停鍵”

全線拉升!剛剛,超10萬人爆倉!伊朗總統(tǒng),最新發(fā)聲!伊朗股市按下“暫停鍵”

每日經(jīng)濟(jì)新聞
2026-03-01 19:40:50
2026-03-02 06:11:00
AI寒武紀(jì) incentive-icons
AI寒武紀(jì)
專注于人工智能,科技領(lǐng)域
1034文章數(shù) 396關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

特朗普警告伊朗“不要報復(fù)” 伊朗外長回應(yīng)

頭條要聞

特朗普警告伊朗“不要報復(fù)” 伊朗外長回應(yīng)

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

游戲
數(shù)碼
家居
親子
軍事航空

以《生化危機》命名?Capcom解答對RE引擎的誤讀

數(shù)碼要聞

曝蘋果WWDC 26將推Core AI框架取代Core ML并公布多項AI功能

家居要聞

素色肌理 品意式格調(diào)

親子要聞

帶娃看醫(yī)生,聽懂這幾句話少走90%彎路!

軍事要聞

伊朗前總統(tǒng)內(nèi)賈德遇襲身亡

無障礙瀏覽 進(jìn)入關(guān)懷版