国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

<samp id="sqwko"><kbd id="sqwko"></kbd></samp>

<table id="sqwko"><dl id="sqwko"></dl></table>

<samp id="sqwko"></samp>

<rp id="cvdud"><kbd id="cvdud"></kbd></rp>

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴(yán)選
郵箱大師
網(wǎng)易云課堂

注冊免費(fèi)郵箱

注冊VIP郵箱（特權(quán)郵箱，付費(fèi)）
免費(fèi)下載網(wǎng)易官方手機(jī)郵箱應(yīng)用

移動(dòng)端
網(wǎng)易公開課
網(wǎng)易嚴(yán)選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請入駐

10萬引普林斯頓劉壯最新訪談：架構(gòu)沒那么重要，數(shù)據(jù)才是王道

2026-04-29 12:17:01　來源: 量子位

北京舉報(bào)

0

分享至

聽雨發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI

引用量超過10萬次，清華姚班校友，ConvNeXt、ImageBind、《無歸一化的Transformer》……這些論文的作者——

普林斯頓大學(xué)助理教授劉壯，在學(xué)術(shù)圈是一個(gè)頗為特殊的存在——他的每一篇論文幾乎都在質(zhì)疑某個(gè)“理所當(dāng)然”的假設(shè)。

架構(gòu)真的重要嗎？數(shù)據(jù)集真的足夠多樣嗎？歸一化層是必需的嗎？大語言模型有世界模型嗎？AI智能體能替代博士生嗎？

在《信息瓶頸》的最新播客中，劉壯和主持人Ravid Shwartz-Ziv、Allen Roush展開了長達(dá)一個(gè)多小時(shí)的對談，解答了這些問題。

劉壯給出了幾個(gè)核心判斷（太長不看版）

1、架構(gòu)選什么，沒你想的重要

只要把殘差連接、自注意力、歸一化層、線性層這四大基礎(chǔ)做對，不管用ConvNet還是Transformer，最終都會(huì)落在同一條性能曲線上。

過去十年真正推動(dòng)AI進(jìn)步的，是更大程度上是數(shù)據(jù)規(guī)模和計(jì)算規(guī)模，而不只是架構(gòu)創(chuàng)新。

2、數(shù)據(jù)集遠(yuǎn)沒有我們以為的多樣

他和何愷明做了一個(gè)實(shí)驗(yàn)：訓(xùn)練神經(jīng)網(wǎng)絡(luò)來判斷一張圖片來自哪個(gè)數(shù)據(jù)集。

結(jié)果在三個(gè)號(hào)稱“多樣化”的億級(jí)數(shù)據(jù)集上，準(zhǔn)確率高達(dá)80% 以上——

說明這些數(shù)據(jù)集在模型眼里仍然涇渭分明，距離“無偏的全球分布”還差得遠(yuǎn)。

3、大語言模型有世界模型，但只在語言空間里

LLM在高層次事件推理上表現(xiàn)出色，但視覺空間的精細(xì)世界模型我們還沒有——

根本原因是視覺數(shù)據(jù)的信息密度太高，現(xiàn)有算力還處理不了

而且對于超過一半的工作場景（尤其是數(shù)字化的白領(lǐng)工作），根本不需要視覺世界模型。

4、記憶才是當(dāng)前最大的瓶頸，不是能力

現(xiàn)有模型的推理能力已經(jīng)足夠強(qiáng)，真正缺的是穩(wěn)定的長期記憶。

我們需要那么多智能體協(xié)作，恰恰是因?yàn)橐粋€(gè)智能體記不住所有事情。

5、自主科研還沒到位，AI替代不了研究生

他親自測試過讓Claude Code在一兩天內(nèi)獨(dú)立完成一個(gè)研究項(xiàng)目。

結(jié)論是：低層次任務(wù)還行，但提出有意思的問題、設(shè)計(jì)實(shí)驗(yàn)、保持方向感——這些還做不到。

整個(gè)訪談?dòng)幸粭l隱藏的主線：我們在AI領(lǐng)域里奉為圭臬的很多東西，其實(shí)是歷史偶然。

而真正決定成敗的，往往是那些更樸素、更無聊的因素——數(shù)據(jù)、規(guī)模、記憶

以下是量子位梳理的劉壯最新訪談，為便于理解，有部分刪減和潤色，并在必要的地方添加了編者注，各位enjoy~

架構(gòu)沒那么重要，但細(xì)節(jié)決定一切

編者注：2020年前后，計(jì)算機(jī)視覺領(lǐng)域掀起了一場“Transformer熱”。
2020年Google Brain提出的視覺Transformer（ViT）橫空出世，整個(gè)視覺社區(qū)迅速向它遷移，傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)（ConvNet）被普遍認(rèn)為已經(jīng)落伍。
2022年，劉壯團(tuán)隊(duì)發(fā)表ConvNeXt，把經(jīng)典的 ResNet 架構(gòu)一步步“現(xiàn)代化”，最終讓它在性能上追平了當(dāng)時(shí)最強(qiáng)的視覺Transformer——結(jié)論令人意外：兩者的差距并非來自架構(gòu)本身，而是來自訓(xùn)練方案的不同。

Ravid：今天我們會(huì)聊聊你的一些論文?？傮w上，我們要探討當(dāng)今AI中真正重要的組成部分是什么。你的研究成果很多，我想我們可以從“哪些組件最關(guān)鍵”開始。

幾年前，你發(fā)表了一篇關(guān)于“面向2020年代的卷積神經(jīng)網(wǎng)絡(luò)”的論文。你能先介紹一下這篇論文，然后我們再來拆解當(dāng)前AI系統(tǒng)的各個(gè)組成部分嗎？

劉壯：嗯，當(dāng)然。那是一段非常有趣的經(jīng)歷。

這篇論文我們是在2021年寫的，那時(shí)候Transformer剛剛通過視覺Transformer的引入進(jìn)入了計(jì)算機(jī)視覺領(lǐng)域，整個(gè)視覺社區(qū)都在從傳統(tǒng)的卷積網(wǎng)絡(luò)切換到視覺Transformer，性能也越來越好。

在這項(xiàng)工作中，我們想研究：ConvNet是否真的已經(jīng)喪失了競爭力？

是否有可能通過系統(tǒng)性地控制所有設(shè)計(jì)細(xì)節(jié)，來驗(yàn)證ConvNet能否被現(xiàn)代化、達(dá)到當(dāng)時(shí)視覺Transformer的水平？

我們想搞清楚，Transformer和ConvNet之間看似存在的性能差距，究竟是源于架構(gòu)本質(zhì)的不同——比如用自注意力還是卷積——還是源于一些看似微小的設(shè)計(jì)細(xì)節(jié)。

最終我們發(fā)現(xiàn)答案是后者。

經(jīng)過大量對ConvNet各組件的研究，我們最終讓模型在多種任務(wù)上達(dá)到了當(dāng)時(shí)最強(qiáng)視覺 Transformer 的水平。

這說明，無論選擇ConvNet還是視覺Transformer，只要把所有細(xì)節(jié)都做對，就能在視覺任務(wù)上達(dá)到同等的前沿性能。

Ravid：你現(xiàn)在還相信這一點(diǎn)嗎？你還認(rèn)為架構(gòu)其實(shí)并不重要嗎

劉壯：我不會(huì)這么說——總體上我傾向于認(rèn)同，但我不會(huì)說架構(gòu)不重要

我的意思是，只要你把所有細(xì)節(jié)都做對，只要你對設(shè)計(jì)空間探索得足夠充分，就會(huì)收斂到一個(gè)類似“帕累托前沿”的點(diǎn)——在精度和效率之間取得最佳平衡。

要突破這條前沿線是非常困難的。

我覺得過去這么多年，除了幾年前已經(jīng)成熟的那些架構(gòu)之外，真正被廣泛采用的架構(gòu)創(chuàng)新其實(shí)并不多。

不過這個(gè)探索過程本身非常有趣。

最近，一些開源模型公司，比如Kimi、DeepSeek，還在不斷折騰架構(gòu)，比如怎么改殘差連接、怎么連接不同層，我非常尊重這類工作。

事實(shí)上，學(xué)術(shù)界現(xiàn)在架構(gòu)研究沒那么活躍，部分原因是我們負(fù)擔(dān)不起用足夠說服力的規(guī)模來驗(yàn)證這些效果所需的計(jì)算資源。

但我自己還是會(huì)用學(xué)校的資源去嘗試?，F(xiàn)在有了Claude Code的幫助，我可以自己動(dòng)手寫代碼去探索，這非常有趣。

從實(shí)用角度來看，我認(rèn)為我們用什么數(shù)據(jù)訓(xùn)練模型，比選擇什么架構(gòu)更重要——前提是輸入輸出接口不變。

架構(gòu)本質(zhì)上是我們參數(shù)化函數(shù)近似器的方式，這是神經(jīng)網(wǎng)絡(luò)或深度學(xué)習(xí)最基本的功能。

只要你把幾件事做對，比如用殘差連接、用自注意力或其他合理的機(jī)制、在合適的位置放激活函數(shù)和前饋層，你就能非常接近甚至達(dá)到性能與效率的前沿曲線。

從實(shí)際應(yīng)用的角度，我認(rèn)為更重要的是：這個(gè)模型用什么數(shù)據(jù)訓(xùn)練的？它怎么處理上下文和記憶？

在上下文和記憶這方面，確實(shí)有一些架構(gòu)工作在解決這個(gè)問題。

我覺得這才是讓AI再上一個(gè)臺(tái)階最迫切需要解決的問題。

Allen：根據(jù)我的理解，你們是把ResNet逐步往類似Swin Transformer的設(shè)計(jì)方向現(xiàn)代化，最終得到一個(gè)能與 Transformer強(qiáng)力競爭的ConvNet。

在那篇論文里，哪一個(gè)消融實(shí)驗(yàn)最讓你對“Transformer的優(yōu)勢究竟從何而來”改變了看法？

編者注：消融實(shí)驗(yàn)（ablation study）是深度學(xué)習(xí)研究中的常用方法，指的是逐一去掉或改變模型中的某個(gè)組件，觀察性能如何變化，以此判斷每個(gè)組件的貢獻(xiàn)大小。

劉壯：哪一個(gè)？我覺得是每一個(gè)。

你看那張圖，沒有任何單一改動(dòng)能大幅拉升性能。有些改動(dòng)比其他的更有效，但沒有哪一個(gè)能改變一切。

ConvNeXt論文的Figure 2，展示了ResNet現(xiàn)代化的完整過程和每一步對應(yīng)的性能變化

也許激活函數(shù)的使用，以及減少歸一化層的數(shù)量，是讓我比較感興趣、也有明顯性能提升的一個(gè)點(diǎn)。

但真正起作用的是把所有改動(dòng)疊加在一起

這些看似微小的組件，當(dāng)我們把它們組合起來的時(shí)候，產(chǎn)生的性能差距，是那種通常只有把卷積換成自注意力這種大改動(dòng)才能帶來的效果。

所以我認(rèn)為，這篇論文最大的啟示是：這些小細(xì)節(jié)組合在一起，比那些看起來很核心的網(wǎng)絡(luò)組件影響更大

Ravid：對我來說，感覺我們是在大量嘗試各種東西，有些起效了，模型就變好了。然后回過頭來，我們才開始真正理解哪些組件是關(guān)鍵的。

你覺得我們是需要先有突破，再回頭理解細(xì)節(jié)？還是說我們只需要反復(fù)試錯(cuò)，不需要明確的方向？

劉壯：Transformer對整個(gè)社區(qū)來說絕對是一個(gè)福音，把Transformer引入計(jì)算機(jī)視覺這件事，意義重大。

是那幾年里絕對是最重要的突破之一。

但視覺Transformer還有另一個(gè)好處，就是它實(shí)現(xiàn)了文本和圖像表示的統(tǒng)一。

Transformer的使用對后來的發(fā)展非常關(guān)鍵，比如LLaVA，這類多模態(tài)框架——用視覺編碼器把圖像編碼成token，然后和文本 token 一起輸入到下游的大語言模型里。

這是現(xiàn)在很多多模態(tài)模型的基本框架。

編者注：LLaVA（Large Language and Vision Assistant）是2023年提出的一種多模態(tài)大語言模型框架，將圖像編碼器（通常是CLIP）和大語言模型（如LLaMA）連接起來，讓模型能同時(shí)理解圖像和文字。
這一框架成為后來GPT-4V、Gemini等多模態(tài)模型的基礎(chǔ)思路。

回到我們的研究，這種對細(xì)節(jié)的深入分析，我覺得更像是一堂課。它改變了我自己的認(rèn)知，也改變了很多人的認(rèn)知，這讓我更引以為傲。

當(dāng)然人們還是可以繼續(xù)用ConvNet，它也有自己的優(yōu)勢，尤其是在純視覺任務(wù)里：部署方便，比較容易理解，也因?yàn)椴僮魇蔷植康?，所以對更高分辨率和長序列有更好的支持。

兩種架構(gòu)只是在不同地方各有所長。

Ravid：好，架構(gòu)不那么重要——你還有一篇更近的論文，證明了歸一化層也不那么重要，對嗎？

基本上可以用雙曲正切激活函數(shù)來取代歸一化層，只需要一些調(diào)整，但效果一樣好。

那你覺得真正重要的核心組件是什么？而且為什么好的AI模型只是在最近五年才出現(xiàn)，而不是十年前？

編者注：這里指的是2025年劉壯與Yann LeCun等人合作發(fā)表的論文《Transformers Without Normalization》
歸一化層（Normalization Layer）是現(xiàn)代神經(jīng)網(wǎng)絡(luò)中幾乎無處不在的組件，最常見的是LayerNorm，它的作用是穩(wěn)定訓(xùn)練過程、加速收斂。
這篇論文用一種稱為“動(dòng)態(tài)雙曲正切（dynamic tanh）”的激活函數(shù)替換了LayerNorm，在多種設(shè)置下仍能與標(biāo)準(zhǔn)Transformer持平甚至更好。

劉壯：這是個(gè)好問題。

首先，Transformer大約是十年前提出來的，九年前吧。

所以在那之后很長一段時(shí)間里，我們基本還是沿用類似的基本框架，只有一些小改動(dòng)，比如激活層、專家混合（不是每次都用）、局部注意力、滑動(dòng)窗口注意力等，但核心框架和九年前論文剛出來時(shí)基本一樣。

所以我的答案是：數(shù)據(jù)，以及訓(xùn)練時(shí)使用的計(jì)算規(guī)模

這就像GPT-1到GPT-3的經(jīng)典故事——基本上是同一個(gè)模型，用更多計(jì)算量、更多數(shù)據(jù)、更多樣化的數(shù)據(jù)、更大規(guī)模的互聯(lián)網(wǎng)數(shù)據(jù)來訓(xùn)練，就得到了我們現(xiàn)在看到的這些強(qiáng)大能力。

所以我會(huì)把這歸因于數(shù)據(jù)，其次是算力

我認(rèn)為數(shù)據(jù)是主要因素，因?yàn)楝F(xiàn)在大多數(shù)模型訓(xùn)練的epoch數(shù)都不超過一個(gè)。

編者注：Epoch指的是模型把整個(gè)訓(xùn)練數(shù)據(jù)集完整過一遍的次數(shù)。
“不超過一個(gè) epoch”意味著模型甚至沒有把所有數(shù)據(jù)看第二遍——這說明數(shù)據(jù)的總量和多樣性，比反復(fù)訓(xùn)練同一批數(shù)據(jù)更關(guān)鍵。

Allen：我注意到你的研究有一個(gè)貫穿始終的論點(diǎn)，就是這個(gè)領(lǐng)域常常把架構(gòu)和訓(xùn)練方案混為一談。

如果你要為今天的架構(gòu)論文設(shè)定規(guī)則，在有人聲稱某種架構(gòu)選擇有價(jià)值之前，你會(huì)要求哪些控制條件？

劉壯：好，在理想世界里，我們有無限計(jì)算資源，對吧？

首先，我會(huì)要求在一定規(guī)模上驗(yàn)證效果，不一定是前沿模型，但至少要在70億、300億參數(shù)這個(gè)量級(jí)。

規(guī)模對工業(yè)界來說很重要，只有在這個(gè)規(guī)模上，大家才真的會(huì)相信你的改動(dòng)有效。當(dāng)然，這并不總是可行的。

其次，如果你要在較小規(guī)模上研究架構(gòu)變化，我會(huì)要求首先做超參數(shù)搜索

你不能只在一組超參數(shù)下證明新架構(gòu)比舊架構(gòu)好，尤其是當(dāng)這組超參數(shù)是專門為這個(gè)新模型調(diào)過的。

每個(gè)模型都應(yīng)該在各自最優(yōu)的超參數(shù)下進(jìn)行比較，最重要的超參數(shù)是學(xué)習(xí)率、衰減、優(yōu)化器類型。

讓我很煩的一件事是，有人甚至不去調(diào)基線模型的學(xué)習(xí)率，只調(diào)自己方法的，然后就聲稱有效——這是導(dǎo)致很多”結(jié)果無法泛化”的最常見的問題所在。

第三，我會(huì)要求這個(gè)想法或方法在不止一個(gè)數(shù)據(jù)集上得到驗(yàn)證，最好是在一個(gè)合理規(guī)模的數(shù)據(jù)集上。

ImageNet今天仍然適用，但理想情況下，還應(yīng)該在一些小規(guī)模的大語言模型上驗(yàn)證，比如在FineWeb上訓(xùn)練。

我非常贊成在多樣的數(shù)據(jù)集上驗(yàn)證想法，至少要在領(lǐng)域內(nèi)常用的數(shù)據(jù)集上。這就是我會(huì)提的幾個(gè)標(biāo)準(zhǔn)。

編者注：FineWeb是Hugging Face于2024年發(fā)布的大規(guī)模網(wǎng)頁文本數(shù)據(jù)集，經(jīng)過嚴(yán)格清洗，常被用作語言模型預(yù)訓(xùn)練的基準(zhǔn)數(shù)據(jù)集。

Ravid：如果一個(gè)想法是真正好的，它是否應(yīng)該在不同領(lǐng)域、不同數(shù)據(jù)集、不同場景下都有效？

還是說有些非常好的想法只適用于非常特定的場景？

劉壯：我認(rèn)為兩種都同樣有價(jià)值。

在第二種情況下，我希望研究者能清楚地說明，這個(gè)方法在什么特定場景下更好，仍然應(yīng)該在不止一個(gè)數(shù)據(jù)集上驗(yàn)證。

如果你聲稱你的模型在長上下文音頻上效果更好，你仍然可以在這個(gè)方向上用多個(gè)數(shù)據(jù)集測試。

同時(shí)要解釋清楚，為什么這個(gè)方法在這個(gè)特定領(lǐng)域好，為什么在其他領(lǐng)域不好，然后從這里出發(fā)，去解決那些弱點(diǎn)。

這就是研究的價(jià)值所在——你不需要第一步就全面成功，那固然很好，但不是必須的。

數(shù)據(jù)集沒你想的那么“多樣”

編者注：這部分討論應(yīng)指劉壯與何愷明合作發(fā)表的論文《A Decade’s Battle on Dataset Bias: Are We There Yet?》，研究動(dòng)機(jī)是：我們一直以為主流視覺數(shù)據(jù)集越來越多樣、越來越全面，但真的是這樣嗎？

Ravid：好，那我們來聊聊數(shù)據(jù)。你說數(shù)據(jù)是最重要的。具體是數(shù)據(jù)的哪些方面？我們先從你那篇關(guān)于“數(shù)據(jù)集偏差的幾十年之爭”的論文說起。你們的研究動(dòng)機(jī)是什么？

劉壯：這篇論文主要聚焦在視覺領(lǐng)域。

多年來，人們一直在從越來越多樣化的來源構(gòu)建越來越大的數(shù)據(jù)集——從最初的MNIST，到CIFAR，再到ImageNet，再到互聯(lián)網(wǎng)規(guī)模的 DataComp、Google 的 Conceptual Captions 等。

這些數(shù)據(jù)集看起來越來越多樣，規(guī)模從幾萬張到十億級(jí)別。大家很自然地會(huì)認(rèn)為：我們已經(jīng)收集了互聯(lián)網(wǎng)上能拿到的所有東西，數(shù)據(jù)集應(yīng)該足夠了吧？

編者注：MNIST是手寫數(shù)字識(shí)別數(shù)據(jù)集（約7萬張圖片），CIFAR是小圖像分類數(shù)據(jù)集（約6萬張），ImageNet是目前最權(quán)威的圖像識(shí)別基準(zhǔn)（約120萬張），DataComp和Conceptual Captions則是十億級(jí)別的互聯(lián)網(wǎng)圖文對數(shù)據(jù)集。
這條發(fā)展脈絡(luò)代表了過去二十年視覺數(shù)據(jù)集規(guī)模的指數(shù)級(jí)擴(kuò)張。

但在我們的初步實(shí)驗(yàn)里，我們發(fā)現(xiàn)這些數(shù)據(jù)集彼此之間其實(shí)差異極大。

我們是怎么衡量的呢？我們設(shè)計(jì)了一個(gè)非?！按馈钡膶?shí)驗(yàn)——從深度學(xué)習(xí)訓(xùn)練的角度來看完全沒有實(shí)際意義。

我們做的是：給定三個(gè)很大的數(shù)據(jù)集，訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)來判斷一張圖片來自哪個(gè)數(shù)據(jù)集

這不是什么實(shí)際問題，只是想猜測圖片的來源，是個(gè)多分類問題。

結(jié)果發(fā)現(xiàn)，在這三個(gè)看似非常多樣化的數(shù)據(jù)集上，模型仍然能以超過80%的準(zhǔn)確率回答這個(gè)問題。

而隨機(jī)猜測的準(zhǔn)確率是33%，模型的準(zhǔn)確率遠(yuǎn)遠(yuǎn)超過這個(gè)基線。

這意味著，在模型看來，這些數(shù)據(jù)集仍然非常不同，有非常清晰的線索讓模型判斷圖片來自哪里。

當(dāng)然，我們是在留出的驗(yàn)證集上做測試，不是在訓(xùn)練集上猜。

這促使我們反思：我們真的成功構(gòu)建了一個(gè)大規(guī)模、全面覆蓋的數(shù)據(jù)集了嗎？什么樣的數(shù)據(jù)才是終極目標(biāo)？

這個(gè)“無偏的全球分布數(shù)據(jù)集”本身就很難定義，不同的人可能有不同的標(biāo)準(zhǔn)。

大語言模型成功的一個(gè)重要原因，是它不是領(lǐng)域?qū)Ｓ玫哪Ｐ停茏鏊惺?。要做到這一點(diǎn)，一個(gè)普遍的假設(shè)是模型在訓(xùn)練時(shí)需要見過所有東西。

但從這個(gè)初步實(shí)驗(yàn)來看，我們顯然還沒有達(dá)到那個(gè)程度。

Ravid：那你覺得答案是什么？好的數(shù)據(jù)需要具備哪些屬性——多樣性、不確定性、避免冗余？

劉壯：是的，內(nèi)容多樣性、風(fēng)格多樣性……深度學(xué)習(xí)的一個(gè)大教訓(xùn)是：

想讓它擅長所有事，就要在所有事上訓(xùn)練它。

但在當(dāng)今的條件下，我們?nèi)匀幻媾R權(quán)衡問題——算力有限，模型容量有限。

模型學(xué)到的不同能力之間可能會(huì)相互競爭，比如如果你想讓模型在編程上更好，可能就需要犧牲一點(diǎn)它在心理咨詢方面的能力，這只是舉個(gè)例子。

如何配比訓(xùn)練數(shù)據(jù)，讓每個(gè)我們希望模型擅長的領(lǐng)域都得到足夠的表示？這是一個(gè)重要的設(shè)計(jì)問題。

在我們最近一個(gè)文字轉(zhuǎn)圖像的項(xiàng)目里，我們發(fā)現(xiàn)了一個(gè)出人意料的簡單方案——不是最優(yōu)的，但足夠簡單——就是把你關(guān)心的所有領(lǐng)域大致等權(quán)重地混合

你不會(huì)希望“如何理發(fā)”和“如何編程”得到同等權(quán)重，因?yàn)樗鼈儗Υ蠖鄶?shù)人的重要程度差別很大，你當(dāng)然希望模型在編程上見過更多數(shù)據(jù)。

但如果你把“理發(fā)”擴(kuò)展為“日常生活技能”這個(gè)層面，把它和另一個(gè)同等重要程度的領(lǐng)域放在一起，然后從每個(gè)領(lǐng)域收集高質(zhì)量數(shù)據(jù)并等權(quán)重混合，這種做法在很多其他項(xiàng)目里效果都不錯(cuò)。

Ravid：你覺得這就是未來的方向嗎？就是把各種來源簡單地混合在一起？

劉壯：對于通用模型來說，是的。

如果你只是想讓模型在所有事情上都還不錯(cuò)，而不是在某個(gè)特定困難任務(wù)上特別拔尖，那我認(rèn)為數(shù)據(jù)覆蓋是王道

Ilya Sutskever有句名言，大意是只要你有一個(gè)大模型，收集了足夠多的數(shù)據(jù)，模型就一定能訓(xùn)好

我認(rèn)為這在現(xiàn)代深度學(xué)習(xí)里仍然適用。

當(dāng)面對用戶時(shí)，想讓模型在某個(gè)任務(wù)上表現(xiàn)好，就在訓(xùn)練集里放足夠多這方面的數(shù)據(jù)，這是最合理的解決方案。

視覺是橋梁，但語言先點(diǎn)燃了這把火

編者注：這部分涉及兩篇論文。一是2023年Meta發(fā)表的ImageBind，由劉壯參與，將圖像、文本、音頻、深度、熱成像、IMU運(yùn)動(dòng)傳感器六種模態(tài)對齊到同一個(gè)嵌入空間。
二是同年發(fā)表的《Eyes Wide Shut》，揭示了 CLIP視覺編碼器的系統(tǒng)性盲點(diǎn)。
CLIP是 OpenAI于2021年提出的圖文對比學(xué)習(xí)模型，目前是絕大多數(shù)多模態(tài)大語言模型的視覺編碼器基礎(chǔ)。

AllenImageBind把六種模態(tài)對齊到同一個(gè)嵌入空間里。

你覺得這是在說明視覺模態(tài)本身的特殊地位，還是只是說明了視覺數(shù)據(jù)在大規(guī)模數(shù)據(jù)中碰巧有這樣的角色？

劉壯：我覺得這篇論文一個(gè)很重要的信息是：不同模態(tài)確實(shí)可以被嵌入在一起，這是現(xiàn)在多模態(tài)基礎(chǔ)模型運(yùn)作方式的基礎(chǔ)

常見的做法是用編碼器把每個(gè)模態(tài)對齊到語言模型的token表示。

ImageBind更專注于學(xué)習(xí)編碼器本身，而不是把它們連接到大語言模型上。

另一個(gè)洞見是：視覺是連接所有模態(tài)的天然橋梁，因?yàn)橐曈X數(shù)據(jù)就像是我們?nèi)祟惖哪J(rèn)輸入。

它經(jīng)常和很多其他模態(tài)同時(shí)出現(xiàn)，比如音頻——看YouTube視頻時(shí)，音頻和視覺數(shù)據(jù)自然地融合在一起，你可以用這個(gè)信號(hào)來對齊兩者。

還有運(yùn)動(dòng)數(shù)據(jù)，也經(jīng)常和圖像或視覺數(shù)據(jù)同時(shí)出現(xiàn)。這揭示了視覺在我們?nèi)粘８兄械母拘缘匚弧?/p>

Ravid：但為什么最終能力上的大躍升是通過語言模型實(shí)現(xiàn)的？

我們有視覺好一段時(shí)間了，但沒有看到AI在所有領(lǐng)域、所有公司里大規(guī)模普及。直到語言模型變強(qiáng)，人們才突然開始用 AI。

你覺得這只是巧合，還是語言本身有什么根本性的優(yōu)勢？

劉壯：是的，這是個(gè)被廣泛討論的話題。

我的理解是：視覺本質(zhì)上是吞吐量非常高的數(shù)據(jù)——它流入我們感知系統(tǒng)的帶寬遠(yuǎn)高于語言，而我們還沒有足夠的算力來真正處理這些數(shù)據(jù)

想想看，就一幀圖像，存儲(chǔ)它所需的空間就遠(yuǎn)大于用語言描述這張圖像——描述可能只需要幾個(gè)字節(jié)，圖像卻需要幾千字節(jié)，相差上千倍。

所以一張圖片的信息量確實(shí)超過一千個(gè)詞。

另外，我們也沒有好的機(jī)制讓模型在圖像上做精細(xì)定位——在當(dāng)前的多模態(tài)語言模型里，所有信息都已經(jīng)編碼在視覺 token 里了，模型沒有辦法回頭去重新聚焦圖像的某個(gè)區(qū)域。

如果視覺編碼器質(zhì)量不好，自回歸模型對此毫無辦法。

而語言處于一個(gè)低維得多的空間，每個(gè)詞都有明確的含義——這有點(diǎn)像人類從自然界里做無監(jiān)督學(xué)習(xí)。

我們在進(jìn)化過程中篩選出了這些重要概念，把它們凝縮成詞，每個(gè)詞只需要幾個(gè)字節(jié)的存儲(chǔ)空間，而用圖像來表示”杯子”這個(gè)概念，可能需要成千上萬張圖片。

處理這么大量信息所需的算力自然要高得多，我覺得我們目前還沒有到那個(gè)程度。

Allen：好，然后是那篇我很喜歡標(biāo)題的論文——《Eyes Wide Shut》，斯坦利·庫布里克的最后一部電影。

你在論文里提出，很多多模態(tài)大語言模型的失敗，都可以追溯到CLIP這樣的視覺編碼器以及CLIP的盲點(diǎn)。

能概括一下這篇論文嗎？在你看來，這個(gè)瓶頸究竟有多少是視覺問題，又有多少是語言模型或?qū)R問題？

劉壯：我認(rèn)為這在很大程度上是視覺編碼器的問題

正如我之前說的，這些模型只會(huì)學(xué)訓(xùn)練時(shí)教它們學(xué)的東西。如果訓(xùn)練時(shí)沒有讓模型面對你希望它擅長的任務(wù)類型，測試時(shí)它就不會(huì)好。

具體來說，CLIP訓(xùn)練的目標(biāo)是讓圖像表示和它的文字描述對齊。而圖像描述自然地更關(guān)注圖像的內(nèi)容——里面有什么物體，它們在做什么——而不太會(huì)明確說明這些物體的位置

如果圖中有一個(gè)人和一條狗，描述大概只會(huì)說“人和狗玩?！?，而不會(huì)說人在左邊還是右邊——這是我們?nèi)祟惷枋鰣D像時(shí)很自然的方式。

對人來說這沒問題，我們不太在乎誰在左邊。但如果你希望模型能夠回答這類位置關(guān)系的問題，就需要在訓(xùn)練里用到這些。而這正是CLIP訓(xùn)練所忽略的。

結(jié)果我們得到一個(gè)被用作多模態(tài)語言模型視覺編碼器的CLIP模型，它根本沒被訓(xùn)練去處理這些任務(wù)。

這再次印證了我的觀點(diǎn)：想讓模型擅長什么，就要在那件事上訓(xùn)練它

Allen：在《Eyes Wide Shut》那篇論文里，你建議把視覺特征和自監(jiān)督特征混合來改善視覺定位。

如果同時(shí)優(yōu)化語言對齊和細(xì)粒度視覺辨別，你認(rèn)為多模態(tài)語言模型最理想的視覺編碼器應(yīng)該是什么樣的？

編者注：自監(jiān)督學(xué)習(xí)（self-supervised learning）是一種不需要人工標(biāo)注的訓(xùn)練方式，模型通過預(yù)測圖像的一部分、或者預(yù)測被遮擋的區(qū)域來學(xué)習(xí)視覺表示。
典型的方法有MAE（Masked Autoencoders）、DINO等，它們往往能學(xué)到比 CLIP 更細(xì)粒度的視覺特征。

劉壯：我現(xiàn)在心里想的解決方案就是兩者都做。這兩種是現(xiàn)在視覺預(yù)訓(xùn)練的兩大主流范式。

我還想加一個(gè)——現(xiàn)在很多人在討論世界模型——我會(huì)在視覺部分加入時(shí)間維度，這也會(huì)非常有幫助。

大語言模型有世界模型，但只在語言空間里

編者注：“大語言模型有沒有世界模型”是近年來 AI 領(lǐng)域最激烈的爭論之一。
Yann LeCun長期主張：現(xiàn)有大語言模型沒有真正的世界模型，他力推一種基于能量的層次化架構(gòu)來顯式構(gòu)建世界模型。
而另一些研究者（如Ilya Sutskever）則認(rèn)為，足夠大的語言模型在預(yù)測下一個(gè)token的過程中，已經(jīng)隱式地學(xué)到了世界模型。
劉壯在這里給出了他自己的第三種答案。

Ravid：我們來聊聊世界模型。你對世界模型的定義是什么？

劉壯：對我來說，世界模型就是預(yù)測世界如何運(yùn)作，根據(jù)你當(dāng)前的狀態(tài)來預(yù)測世界接下來會(huì)發(fā)生什么。

Ravid：這具體是什么意思？

比如幾周前Stephane Mallat來這里聲稱大語言模型有世界模型，而之前Yann LeCun來這里說我們需要顯式地構(gòu)建世界模型，目前的大語言模型并沒有。

你怎么看？你覺得我們能定義出一個(gè)標(biāo)準(zhǔn)，來判斷哪些模型有世界模型、哪些沒有？

劉壯：是的，我認(rèn)為大語言模型在語言空間里是有世界模型的，這毫無疑問。

語言是我們所接收的所有感知信號(hào)的更高層次的抽象，大語言模型在這個(gè)層面上有著相當(dāng)好的世界模型。

我經(jīng)常和ChatGPT討論歷史。幾天前我讓它想象一個(gè)假設(shè)場景：中國歷史上某個(gè)事件里，我讓ChatGPT想象如果那個(gè)失敗的勢力贏得了戰(zhàn)爭，歷史會(huì)怎么變？

它給出的回答非常合理——把所有小事件串聯(lián)起來，一切都講得通，只是一些小概率的決策偏移，然后一切隨之改變，像真實(shí)歷史一樣，完全有可能就是真實(shí)歷史。

在這個(gè)意義上，我覺得沒有哪個(gè)小說家或歷史學(xué)家能超越它在這串事件中的邏輯推理水平。

所以它們確實(shí)有一個(gè)很好的世界模型，只不過是在非常高的抽象層次上

當(dāng)我們說“我們現(xiàn)在沒有世界模型”，說的其實(shí)是視覺空間的世界模型——我們沒法在像素空間里完整地恢復(fù)或模擬世界，這也是真的。

我認(rèn)為模型有沒有世界模型，取決于你想對世界的哪個(gè)層次建模。

如果你把世界的高層次事件視為一個(gè)自包含的世界，那我們通過語言模型確實(shí)有。

但如果你把每個(gè)像素、每個(gè)原始信號(hào)、每個(gè)物理信號(hào)，包括世界上每種物質(zhì)的物理屬性，都納入考量，那我們確實(shí)還沒有那個(gè)層次的精細(xì)化模型。

根本原因還是視覺數(shù)據(jù)的吞吐量太高，我們還沒有足夠的算力來完美地對它建模。

Ravid：那你覺得我們真的需要世界模型來解決 99% 的任務(wù)嗎？

劉壯：對于數(shù)字化工作，比如白領(lǐng)工作，我認(rèn)為不需要視覺世界模型。

很多事情都在數(shù)字空間里運(yùn)作，我最多需要模型能讀取我的電腦屏幕，而屏幕內(nèi)容可以被數(shù)字化或壓縮，通常最多是一組圖像，不是實(shí)時(shí)視頻流，這相對容易。

我目前用Claude Code的瓶頸之一就是需要截屏，這個(gè)問題應(yīng)該很快可以解決，因?yàn)檫@些模型可能很快就能以安全的方式訪問我們的屏幕。

但對于體力勞動(dòng)，比如建筑、駕駛、體力活動(dòng)，我認(rèn)為確實(shí)需要視覺模型，因?yàn)檫@類工作中的反饋是非常細(xì)粒度的。

還有理發(fā)——你想剪哪部分頭發(fā)、剪多少，這是沒法靠語言模型來完成的。

還有一些物理性的工作，比如外科手術(shù)。我認(rèn)為，真正需要視覺世界模型才能做好的工作，不會(huì)超過一半

記憶才是真正的瓶頸，智能體只是權(quán)宜之計(jì)

編者注：這部分話題涵蓋了幾個(gè)相互關(guān)聯(lián)的議題：強(qiáng)化學(xué)習(xí)（RL）訓(xùn)練、Agent、持續(xù)學(xué)習(xí)，以及AI輔助科研的現(xiàn)狀。
劉壯還提到了另一篇自己的論文《Idiosyncrasies in Large Language Models》（大語言模型中的特異性），該論文發(fā)現(xiàn)，不同大語言模型生成的文本存在可被識(shí)別的“指紋”，即便經(jīng)過改寫或翻譯仍然保留。

Ravid：你怎么看強(qiáng)化學(xué)習(xí)？

現(xiàn)在所有實(shí)驗(yàn)室都在建自己的環(huán)境，想在編程或某些特定任務(wù)上做得更好，就搭一個(gè)專用環(huán)境，讓模型在這個(gè)環(huán)境里訓(xùn)練，給它反饋和獎(jiǎng)勵(lì)。

你覺得這是未來的方向嗎？

劉壯：是的，實(shí)際上我不確定每個(gè)實(shí)驗(yàn)室都這樣做強(qiáng)化學(xué)習(xí)或監(jiān)督微調(diào)是否真的可行。

我希望未來能有一套像預(yù)訓(xùn)練一樣成熟的方法來做持續(xù)訓(xùn)練。可以是強(qiáng)化學(xué)習(xí)，也可以是情境工程、提示工程、智能體協(xié)作，這些都還是開放的。

也許還需要調(diào)整架構(gòu)，讓模型有更大的記憶、更長的上下文。

持續(xù)學(xué)習(xí)這件事，把通用模型適配到特定領(lǐng)域，我認(rèn)為非常重要。

因?yàn)槊總€(gè)人在一生中會(huì)遇到不同的情境。你希望模型成為你的好助手，賦能你的生活和工作，你需要它記住大量上下文。

在這方面，人腦仍然遠(yuǎn)超模型——極大的記憶容量，快速學(xué)習(xí)，只需見一次就能記住一個(gè)事實(shí)，而且不會(huì)忘記。

你今天用Claude Code時(shí)，最讓我擔(dān)心的就是它是否還記得我之前做過的事，我相信很多人都有這個(gè)感受。

在我們各自的職業(yè)生涯里，有太多東西希望模型記住，不用每次都重新解釋。

不是什么特定任務(wù)，而是所有一切——我們與他人的互動(dòng)方式、過去的成就和失敗等等。

我覺得這個(gè)答案可能不只是強(qiáng)化學(xué)習(xí)，更像是系統(tǒng)工程——怎么組織一切，讓模型能輕松訪問所需信息。

說到底還是數(shù)據(jù)問題：怎么組織數(shù)據(jù)，怎么提供足夠的數(shù)據(jù)，怎么整合來自不同來源、不同輸入的數(shù)據(jù)。也許以后我們會(huì)戴智能眼鏡，給這些模型提供視覺輸入。

Ravid：但你覺得基本的組件已經(jīng)到位了，還是會(huì)保持不變？

我們只是需要搭好腳手架——比如怎么讓智能體在世界里行動(dòng)、收集數(shù)據(jù)、組織記憶這些事情？還是說我們需要從根本上改變什么？

劉壯：是的，這是個(gè)很好的問題。

有一個(gè)令人遺憾的現(xiàn)實(shí)是：不是每個(gè)人都能在這些超大模型的基礎(chǔ)層面上做研究，只有負(fù)擔(dān)得起訓(xùn)練成本的人才能做實(shí)驗(yàn)。

所以現(xiàn)在我們看到大量的智能體工作——因?yàn)檫@幾乎是很多人能對系統(tǒng)做出改進(jìn)的唯一方式。

智能體很好，但我注意到，我構(gòu)建的每一套智能體系統(tǒng)，每一個(gè)腳手架——比如我試圖搭一個(gè)能讓Claude Code長時(shí)間運(yùn)行的框架——

通常過幾周或幾個(gè)月，我會(huì)找到一個(gè)更簡單的解決方案，比如用提示或一些內(nèi)置命令和技能來實(shí)現(xiàn)同樣的效果，而不需要Python腳手架這類東西。

所以我認(rèn)為最大的教訓(xùn)是：保持系統(tǒng)簡單，讓模型自己做很多決定

遺憾的是，不是每個(gè)人都能為底層模型能力的提升做貢獻(xiàn)。

我們能做的是情境工程和智能體。但在基礎(chǔ)能力方面，我認(rèn)為我們?nèi)匀豢梢宰汾s。

我們現(xiàn)在關(guān)心的每一個(gè)任務(wù)，在一定的性能水平上，都可以用更少的智能體、更少的腳手架來完成，而更多地依賴模型本身的能力。

我認(rèn)為我們?nèi)匀惶幵谶@條曲線上。

Ravid：但我們?yōu)槭裁匆谝饽?？在算力和?shù)據(jù)越來越多的世界里，為什么不就直接搭智能體解決所有問題？

劉壯智能體還是會(huì)犯錯(cuò)——代碼智能體也是。

我遇到的很多錯(cuò)誤都是因?yàn)樗洸蛔∧承〇|西，這很明顯，應(yīng)該是顯而易見的。

所以我認(rèn)為在記憶方面——記憶和上下文——這是目前最重要的問題，尤其是記憶。它們是一枚硬幣的兩面。

即使你有無限的上下文，如果它忘記了或者記錯(cuò)了事實(shí)，它的記憶力仍然不好。

Claude Code前幾天宣布支持100萬token的上下文窗口，大家都很振奮，包括我，這很好。

但我們怎樣才能擁有無限的記憶？至少是持續(xù)學(xué)習(xí)問題——怎樣才能不忘記？

我覺得這比怎么構(gòu)建協(xié)作智能體更重要，如果我們在這方面取得突破，會(huì)更有價(jià)值。

我們需要很多智能體，恰恰是因?yàn)橐粋€(gè)智能體記不住所有事情，需要拆分任務(wù)。

如果一個(gè)智能體能記住所有事情，做完這個(gè)任務(wù)還不忘記上一個(gè)任務(wù)，那所有工作就可以交給這一個(gè)智能體完成。

作為個(gè)人助手，有一個(gè)能記住所有事情的助手，總比協(xié)調(diào)多個(gè)智能體更方便。

Allen：你還有一篇我很感興趣的論文——《大語言模型中的特異性》，發(fā)現(xiàn)模型特有的特征在改寫、翻譯、摘要之后仍然保留。

你覺得這些“指紋”到底在度量什么？是預(yù)訓(xùn)練數(shù)據(jù)、訓(xùn)練后的風(fēng)格、解碼行為，還是更底層的結(jié)構(gòu)性因素？

劉壯：這篇論文做的是同樣的分類任務(wù)——給定一段文本，讓一個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)判斷它是由哪個(gè)語言模型生成的。

我們發(fā)現(xiàn)準(zhǔn)確率可以非常高，在五個(gè)候選模型的情況下可以達(dá)到99%。

當(dāng)時(shí)對我們來說也挺出乎意料的。

但現(xiàn)在我認(rèn)為大家越來越接受一件事：語言模型生成的文本里確實(shí)存在線索，即使不是AI研究者的普通人也能判斷出大概是哪個(gè)模型寫的。

現(xiàn)在這不再那么令人驚訝了，因?yàn)槊考夜径加凶约旱牟呗詠碜畲蠡脩魠⑴c度，導(dǎo)致模型輸出了不同的風(fēng)格。

到底是什么造成了這些差異？我認(rèn)為每家提供商對風(fēng)格的選擇非常關(guān)鍵——系統(tǒng)提示，我們看不到他們的系統(tǒng)提示，他們有沒有讓模型輸出詳細(xì)或簡潔，有沒有用列表？

后訓(xùn)練策略也有很大影響，不同公司的后訓(xùn)練方式不同，他們招募標(biāo)注員的方式、評分標(biāo)準(zhǔn)都會(huì)有系統(tǒng)性差異，這些都會(huì)鼓勵(lì)不同的行為模式。

預(yù)訓(xùn)練也有影響，每家公司的預(yù)訓(xùn)練數(shù)據(jù)來源不同，有些側(cè)重編程和數(shù)學(xué)推理，有些優(yōu)化通用知識(shí)覆蓋。

令人遺憾的是，我們不知道這些差異各自貢獻(xiàn)多少。

總體來說，我認(rèn)為后訓(xùn)練和系統(tǒng)提示的設(shè)計(jì)是造成差異的主要原因，占大部分比重。

Ravid：你怎么看預(yù)訓(xùn)練這件事？預(yù)訓(xùn)練、中訓(xùn)練、后訓(xùn)練這種劃分會(huì)繼續(xù)存在嗎？

編者注：中訓(xùn)練（mid-training）是近年來工業(yè)界出現(xiàn)的一個(gè)新階段，介于預(yù)訓(xùn)練和后訓(xùn)練之間，主要目的是在更高質(zhì)量的數(shù)據(jù)上繼續(xù)訓(xùn)練、或者擴(kuò)展模型的上下文長度，而不引入人類偏好標(biāo)注。
后訓(xùn)練（post-training）則泛指在預(yù)訓(xùn)練完成后，通過人類反饋強(qiáng)化學(xué)習(xí)（RLHF）、監(jiān)督微調(diào)（SFT）等方式，讓模型更符合人類偏好、更安全、更有用。

劉壯：我認(rèn)為預(yù)訓(xùn)練和中訓(xùn)練彼此更相似，都和后訓(xùn)練有所不同。

后訓(xùn)練的獎(jiǎng)勵(lì)信號(hào)是不同的，因?yàn)樗婕暗饺祟惻袛嗪腿祟惼谩?/p>

預(yù)訓(xùn)練和中訓(xùn)練本質(zhì)上都是自回歸，只是數(shù)據(jù)風(fēng)格和上下文長度不同。

中訓(xùn)練是個(gè)比較新的概念，幾年前我們只有預(yù)訓(xùn)練和后訓(xùn)練，現(xiàn)在多了一個(gè)中訓(xùn)練。

中訓(xùn)練或許是一種臨時(shí)狀態(tài)，因?yàn)橹杏?xùn)練的核心是擴(kuò)展上下文長度、引入更高質(zhì)量的數(shù)據(jù)

我沒有這些公司的內(nèi)部信息，但我覺得這可能是一種妥協(xié)——我們沒有足夠的算力始終在超長上下文上訓(xùn)練、始終在最高質(zhì)量數(shù)據(jù)上訓(xùn)練。

所以預(yù)訓(xùn)練和中訓(xùn)練可以統(tǒng)稱為“預(yù)訓(xùn)練”，引號(hào)里的那種。

后訓(xùn)練不同，因?yàn)樗婕叭祟悓δＰ托袨榈闹鲃?dòng)引導(dǎo)，這種區(qū)別不會(huì)消失。

但我希望未來還有另一個(gè)階段——針對每個(gè)用戶定制的持續(xù)訓(xùn)練，定制偏好、記憶需求、使用風(fēng)格，那會(huì)非常好。

Ravid：你怎么看持續(xù)學(xué)習(xí)？是像自監(jiān)督學(xué)習(xí)那樣從不同視角的差異里學(xué)習(xí)？

還是針對特定任務(wù)，有了新數(shù)據(jù)再解決特定問題？

劉壯：我認(rèn)為持續(xù)學(xué)習(xí)不太是關(guān)于增強(qiáng)能力的。我更愿意把它看作更好的記憶。

這些模型已有的能力已經(jīng)很好了，它們能解出大多數(shù)人解不了的數(shù)學(xué)題。

我們需要的是讓模型記住每個(gè)人的個(gè)性習(xí)慣——我會(huì)如何回應(yīng)某些事件？我有哪些基本原則？

即使我把自己生活里所有的經(jīng)歷和偏好都寫在一個(gè)Markdown文件里，它還是可能遺漏。

比如我現(xiàn)在有一個(gè)全局的Claude MD文件，告訴模型遇到某些情況時(shí)要注意什么，但它們經(jīng)常還是會(huì)忽略。

我沒有好的辦法讓這些內(nèi)容真正“粘”在模型上。

所以我一直認(rèn)為，持續(xù)預(yù)訓(xùn)練更多是關(guān)于擁有穩(wěn)定的記憶、不在小事上犯錯(cuò)，而不是發(fā)展更多能力

是找到在合適場景下使用正確技能的能力，而不是發(fā)展更強(qiáng)大的技能。

Ravid：你怎么看這件事？

我好像在LinkedIn或Twitter上看到有人說，有了新的編程智能體，他不再需要學(xué)生了，直接告訴智能體想做什么，讓它跑實(shí)驗(yàn)、出結(jié)果、寫報(bào)告就行了。

你覺得我們會(huì)看到更多學(xué)生還是更少學(xué)生？

劉壯：從教育角度來說，我認(rèn)為我們需要更多深度投入其中的學(xué)生，需要能夠使用AI并進(jìn)一步推動(dòng)AI發(fā)展的學(xué)生。這一點(diǎn)不應(yīng)該有什么爭議。

從實(shí)際項(xiàng)目的角度，我認(rèn)為答案是一樣的。

只要有合理的資源和時(shí)間，我現(xiàn)在可以用Claude Code自己做一個(gè)小項(xiàng)目。但這不是全自動(dòng)的。

我曾經(jīng)讓它在一兩天內(nèi)獨(dú)立完成一個(gè)項(xiàng)目，從構(gòu)思到實(shí)驗(yàn)到寫論文，但效果不好——

提出的問題很模糊，對我來說沒什么意思；做的實(shí)驗(yàn)不夠全面，只是勉強(qiáng)能支撐結(jié)論；我需要反復(fù)提示才能把它引到正確的方向。

它忘記事情的頻率也超出我的預(yù)期。我讓它一直用某個(gè)GPU分區(qū)，它可能遵守幾個(gè)小時(shí)，任務(wù)完成后就忘了。

我希望它永不停歇，根據(jù)當(dāng)前實(shí)驗(yàn)結(jié)果不斷探索、設(shè)計(jì)下一個(gè)實(shí)驗(yàn)測試新假設(shè)，但它就是不聽，有時(shí)候會(huì)陷入局部最優(yōu)。

所以我認(rèn)為它們擅長低層次的任務(wù)，在更高層次的研究理解和導(dǎo)航上還不夠好

學(xué)生也可以像我一樣，讓Claude Code幫自己提高工作效率。

而且如果他們有正確的心態(tài)，不把所有事情都委托給AI，他們?nèi)匀粫?huì)在這個(gè)過程中成長，成為好的研究者。

我認(rèn)為我們需要更多這樣的學(xué)生，不是更少。

Ravid：你聽說過嗎，Andrej Karpathy 發(fā)布了AutoResearch，就是給一個(gè)代碼智能體去優(yōu)化NanoGPT，讓它連夜跑多個(gè)實(shí)驗(yàn)，結(jié)果驗(yàn)證損失確實(shí)在下降。

編者注：Andrej Karpathy是前Tesla AI總監(jiān)、OpenAI聯(lián)合創(chuàng)始人，現(xiàn)獨(dú)立從事AI教育。
NanoGPT是他開源的一個(gè)極簡GPT實(shí)現(xiàn)，常被用于教學(xué)和研究實(shí)驗(yàn)。
AutoResearch是他探索的一個(gè)概念：讓AI智能體自主設(shè)計(jì)實(shí)驗(yàn)、運(yùn)行訓(xùn)練、分析結(jié)果，全程無需人工干預(yù)。

劉壯：對，對。

Ravid：智能體提出的一個(gè)建議是改變隨機(jī)種子，然后結(jié)果就變好了很多。

我自己也試過類似的事，就是對這個(gè)項(xiàng)目做了個(gè)很簡單的貝葉斯優(yōu)化，超參數(shù)搜索。

結(jié)果發(fā)現(xiàn)用更少的迭代次數(shù)、更短的時(shí)間就能得到更好的結(jié)果。

我覺得最終我們需要搞清楚，哪些用法真正有效，哪些還沒到位，哪些只是因?yàn)榭雌饋頃r(shí)髦、大家都用，所以我們在浪費(fèi)時(shí)間去提示它。

劉壯：嗯。

Ravid：所以，我同意你的判斷，自主研究目前還沒到那個(gè)階段。

未來會(huì)不會(huì)到，我不知道，也許會(huì)。但至少對某些場景，對某些用途，用來開發(fā)產(chǎn)品已經(jīng)相當(dāng)不錯(cuò)、接近可用了。

劉壯：嗯，嗯。

Ravid：但在研究方面，還沒到。

劉壯：確實(shí)，這也是我的親身體驗(yàn)。

https://www.the-information-bottleneck.com/what-actually-matters-in-ai-with-zhuang-liu-princeton/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

給AI發(fā)100美元去二手市場撿漏，結(jié)果它給自己買了19個(gè)乒乓球

DeepTech深科技 2026-04-29 14:22:57
0 跟貼 0
π0.7的泛化能力有多強(qiáng)？零樣本純靠口述就能用空氣炸鍋

DeepTech深科技 2026-04-17 21:34:56
0 跟貼 0

剛剛，美國AI霸主換了！Anthropic年收300億，碾壓OpenAI

新智元 2026-04-29 13:35:43
0 跟貼 0

36年卷積猜想被解決，華人唯一作者，AI或受益

機(jī)器之心Pro 2025-11-26 14:30:39
1 跟貼 1
CVPR 2026 | 20步也能穩(wěn)住畫質(zhì)，這個(gè)擴(kuò)散加速方法不一樣

機(jī)器之心Pro 2026-04-10 18:40:17
0 跟貼 0

超越VLA與世界模型,銀河通用發(fā)布LDA,全譜系數(shù)據(jù)跑通Scaling Law

機(jī)器之心Pro 2026-04-29 10:08:15
0 跟貼 0

一個(gè)以知識(shí)沉淀為核心的產(chǎn)品，在Agent時(shí)代真的有不可替代的價(jià)值嗎？

鈦媒體APP 2026-04-29 12:17:07
0 跟貼 0
連信數(shù)字/連心云黃杏：語言之外，為什么“看懂人心”才是AI的終極考題？

智東西 2026-04-29 10:32:11
0 跟貼 0

00后小哥復(fù)刻Claude最強(qiáng)神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
狂奔的具身賽道里，瑞為技術(shù)的機(jī)器人已經(jīng)在機(jī)場搬行李

36氪 2026-04-29 14:11:25
0 跟貼 0
終于，學(xué)界找到了深度學(xué)習(xí)的「牛頓定律」

機(jī)器之心Pro 2026-04-27 11:42:32
0 跟貼 0
十年Momenta，一切剛在起跑線

新眸深度 2026-04-28 19:52:28
0 跟貼 0
LangFlow: 挑戰(zhàn)離散擴(kuò)散，探索下一代語言模型新范式

機(jī)器之心Pro 2026-04-28 22:22:24
0 跟貼 0
14 歲進(jìn)清華、不到 30 歲拿普林斯頓終身教職，她造了個(gè) AI 讓實(shí)驗(yàn)室新手一周變專家

生物學(xué)霸 2026-03-19 18:06:41
0 跟貼 0
沒有智駕的會(huì)議室不是好KTV！地平線KaKaClaw車載智能體上手

呆呆羊駝 2026-04-25 23:41:05
0 跟貼 0
上海迪士尼回應(yīng)游客勸阻吸煙被打：園區(qū)沒有禁煙；被打男子發(fā)聲：對方已賠錢和解

中國新聞周刊 2026-04-27 14:25:00
15229 跟貼 15229
NASA公布拍攝到的不可思議的圖像，這該怎么解釋？

達(dá)達(dá)愛剪輯 2026-04-27 00:20:37
121 跟貼 121
智能體從「單兵作戰(zhàn)」到「精銳團(tuán)隊(duì)」 -2

機(jī)器之心Pro 2026-04-28 16:56:00
0 跟貼 0
AReaL v1.0開源，智能體強(qiáng)化學(xué)習(xí)「一鍵接入」

機(jī)器之心Pro 2026-03-05 14:46:18
0 跟貼 0
PackingStar雙智能體博弈，攻克14維難題

量子位 2026-02-16 13:12:43
0 跟貼 0
爆火！把智能體當(dāng)游戲角色來玩，一個(gè)人就是一個(gè)公司

機(jī)器之心Pro 2026-02-12 18:04:44
0 跟貼 0
北京車展汽車變成“智能體”？聯(lián)發(fā)科這次玩真的

科技視訊 2026-04-26 18:43:01
0 跟貼 0
政務(wù)服務(wù)智能化精細(xì)化，智能體員工“豐小智”上崗

首都之窗 2026-04-29 10:59:18
0 跟貼 0
最后一仗不打不行

鐵血江湖人 2026-04-28 07:23:52
0 跟貼 0
一個(gè)人成長最快的底層邏輯：自我重構(gòu)！

搞笑枇杷 2026-04-29 02:03:41
0 跟貼 0
韓國人吹噓本國地圖像猛虎，評論區(qū)翻車笑死人：感覺更像大青蟲！

肆無忌憚的哭 2026-04-27 04:47:43
1 跟貼 1
中考數(shù)學(xué)重難點(diǎn)，二次函數(shù)壓軸題。中考數(shù)學(xué)熱點(diǎn)題型學(xué)習(xí)

艾優(yōu)數(shù)學(xué) 2026-04-25 10:55:27
6 跟貼 6
反手攻球框架，下蹲下壓扎馬步、收腹展腹、上下不起伏

孤酒老巷QA 2026-04-28 09:07:56
1 跟貼 1
31省份去年常住人口數(shù)據(jù)公布

第一財(cái)經(jīng)資訊 2026-04-28 18:58:16
1323 跟貼 1323
收評：滬指漲0.71%重回4100點(diǎn) 全市場超百股漲停

財(cái)聯(lián)社 2026-04-29 15:04:38
56 跟貼 56
不卷參數(shù)卷架構(gòu)，這個(gè)開源模型把圖像理解和生成統(tǒng)一了

量子位 2026-04-29 12:24:59
0 跟貼 0
廣州一公園被指“價(jià)格刺客”

中國新聞周刊 2026-04-29 08:20:12
0 跟貼 0
30萬被引的AlphaGo之父，創(chuàng)業(yè)4個(gè)月融資近百億元！篤信RL實(shí)現(xiàn)ASI

新智元 2026-04-28 17:11:10
0 跟貼 0
麻省理工公開課：吉爾伯特教授線性代數(shù)課程-方程組的幾何解釋

齊天候 2026-04-26 12:59:07
0 跟貼 0
重大進(jìn)展！我國新發(fā)現(xiàn)13個(gè)億噸級(jí)油田

看看新聞Knews 2026-04-29 12:28:10
129 跟貼 129
撒貝寧獲全國五一勞動(dòng)獎(jiǎng)?wù)?/a>

閃電新聞 2026-04-28 16:25:55
568 跟貼 568
蘋果新論文發(fā)出驚人一問：What do your logits know?

機(jī)器之心Pro 2026-04-27 10:55:05
12 跟貼 12
深度解讀Deepseek-V4：注意力壓縮 /1M 上下文/ MoE架構(gòu)

盧菁老師 2026-04-27 02:14:19
0 跟貼 0
我大使駁斥美官員：照照鏡子

極目新聞 2026-04-29 09:31:58
1905 跟貼 1905
LCA：DeepSeek 長文本加速神器90% KV 緩存縮減 + 2.5 倍推理提速

機(jī)器之心Pro 2026-04-29 10:56:51
0 跟貼 0

中國肺癌發(fā)病率世界第一！提醒：罪魁禍?zhǔn)滓丫境觯?種食物要少吃

中國肺癌發(fā)病率世界第一！提醒：罪魁禍?zhǔn)滓丫境觯?種食物要少吃

健康之光

2026-03-23 20:10:05

陳思誠找小21歲阮巨不是瞎了眼：他比誰都精，要的是情緒穩(wěn)定

陳思誠找小21歲阮巨不是瞎了眼：他比誰都精，要的是情緒穩(wěn)定

小貓娛樂叭叭

2026-04-27 20:42:52

中國正式禁止美國收購Manus，美媒集體破防指責(zé)

中國正式禁止美國收購Manus，美媒集體破防指責(zé)

空間展示知識(shí)

2026-04-28 11:51:13

金正恩自己都沒想到，下令出兵俄羅斯后，會(huì)給朝鮮帶來這么多驚喜

金正恩自己都沒想到，下令出兵俄羅斯后，會(huì)給朝鮮帶來這么多驚喜

混沌錄

2026-04-11 20:56:12

出大事了，聯(lián)合國會(huì)場又吵翻，121國抱團(tuán)力挺伊朗，美國當(dāng)眾翻臉

出大事了，聯(lián)合國會(huì)場又吵翻，121國抱團(tuán)力挺伊朗，美國當(dāng)眾翻臉

小小科普員

2026-04-28 19:36:37

孫楊與前空姐私生子曝光？13歲男孩練擊劍網(wǎng)友：兩人一模一樣

孫楊與前空姐私生子曝光？13歲男孩練擊劍網(wǎng)友：兩人一模一樣

念洲

2026-04-29 14:49:45

內(nèi)馬爾：我真的很想去踢世界杯；希望在世界杯決賽和梅西交手

內(nèi)馬爾：我真的很想去踢世界杯；希望在世界杯決賽和梅西交手

懂球帝

2026-04-29 14:33:20

伊朗官員：希望伊美談判取得積極成果，伊方仍保留“底牌”

伊朗官員：希望伊美談判取得積極成果，伊方仍保留“底牌”

界面新聞

2026-04-29 15:23:12

《妻子的浪漫旅行2026》孫楊回應(yīng)與妻子張豆豆相處模式引爭議：由于職業(yè)原因，像這樣的旅行是第一次，看到了不足，有一個(gè)好老婆很重要

《妻子的浪漫旅行2026》孫楊回應(yīng)與妻子張豆豆相處模式引爭議：由于職業(yè)原因，像這樣的旅行是第一次，看到了不足，有一個(gè)好老婆很重要

魯中晨報(bào)

2026-04-28 09:53:07

61歲何智麗現(xiàn)狀：從日本回老家上海，與老友聚餐，面色紅潤沒發(fā)福

61歲何智麗現(xiàn)狀：從日本回老家上海，與老友聚餐，面色紅潤沒發(fā)福

以茶帶書

2026-04-14 14:09:22

56歲桑切斯把貝索斯熬成爹？滿眼都是寵溺

56歲桑切斯把貝索斯熬成爹？滿眼都是寵溺

遠(yuǎn)山行客

2026-04-29 09:11:59

終于，一位接地氣的專家說了大實(shí)話：中國老百姓的負(fù)擔(dān)太重了

終于，一位接地氣的專家說了大實(shí)話：中國老百姓的負(fù)擔(dān)太重了

巢客HOME

2026-04-28 05:25:03

裁員裁到大動(dòng)脈后果嚴(yán)重嗎？網(wǎng)友：還真以為老板都是紗布嗎

裁員裁到大動(dòng)脈后果嚴(yán)重嗎？網(wǎng)友：還真以為老板都是紗布嗎

帶你感受人間冷暖

2026-04-22 23:18:22

特斯拉新款Model Y大更新，細(xì)節(jié)改得是真良心

特斯拉新款Model Y大更新，細(xì)節(jié)改得是真良心

華庭講美食

2026-04-29 10:54:42

95年我相親碰大雨，丈母娘叫我和大姐住一屋，那夜我目睹難忘一幕

95年我相親碰大雨，丈母娘叫我和大姐住一屋，那夜我目睹難忘一幕

白云故事

2025-03-04 05:45:02

伊朗戰(zhàn)火燒向加油站美最新民調(diào)：特朗普支持率跌至任內(nèi)新低

伊朗戰(zhàn)火燒向加油站美最新民調(diào)：特朗普支持率跌至任內(nèi)新低

財(cái)聯(lián)社

2026-04-29 08:19:12

汪精衛(wèi)后人回南京祭拜，看到父母的跪像，含淚說：做錯(cuò)事該受懲罰

汪精衛(wèi)后人回南京祭拜，看到父母的跪像，含淚說：做錯(cuò)事該受懲罰

歷史龍?jiān)w

2026-04-28 11:40:16

南瓜子能不能天天吃？醫(yī)生：過了60歲以后，吃堅(jiān)果牢記4個(gè)關(guān)鍵

南瓜子能不能天天吃？醫(yī)生：過了60歲以后，吃堅(jiān)果牢記4個(gè)關(guān)鍵

寶哥精彩賽事

2026-04-29 12:56:14

5米大車越來越多，一個(gè)新問題藏不住了，很多燃油車已“受傷”

5米大車越來越多，一個(gè)新問題藏不住了，很多燃油車已“受傷”

小李車評李建紅

2026-04-29 08:00:03

伊朗新任最高領(lǐng)袖傷情遠(yuǎn)超外部認(rèn)知，難怪伊朗決策左右搖擺

伊朗新任最高領(lǐng)袖傷情遠(yuǎn)超外部認(rèn)知，難怪伊朗決策左右搖擺

廖保平

2026-04-27 09:42:05

追蹤人工智能動(dòng)態(tài)

12559文章數(shù) 176458關(guān)注度

往期回顧全部

科技要聞

今晨庭審紀(jì)實(shí)|馬斯克當(dāng)庭講述OpenAI被偷走

頭條要聞

媒體：阿聯(lián)酋官宣要走對歐佩克重重一擊

頭條要聞

媒體：阿聯(lián)酋官宣要走對歐佩克重重一擊

體育要聞

一場九球狂歡，各路神仙批量下凡

娛樂要聞

馬頔一句話，孫楊媽媽怒罵節(jié)目組2小時(shí)

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào)，八大看點(diǎn)速覽！

汽車要聞

配32寸升降屏新款別克世紀(jì)CENTURY上市53.99萬起

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

教育

親子

時(shí)尚

本地

揭秘干細(xì)胞抗衰美容七大謠言

教育要聞

官宣！26年四川省高考各批次招生類型及投檔規(guī)則出爐

親子要聞

養(yǎng)出不過敏的孩子，關(guān)鍵在于“平衡”

除了“薄底鞋”，今年最流行這5雙鞋，怎么搭都好看！

本地新聞

用青花瓷的方式，打開西溪濕地

© 1997-2026 網(wǎng)易公司版權(quán)所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務(wù) | 隱私政策 | 不良信息舉報(bào) Complaint Center | 廉正舉報(bào) | 侵權(quán)投訴

無障礙瀏覽進(jìn)入關(guān)懷版

<track id="vkyll"><th id="vkyll"></th></track>