網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Lex Fridman硬核訪談：5萬(wàn)字2026 AI全景報(bào)告

2026-02-03 12:14:20　來(lái)源: 劃重點(diǎn)KeyPoints

浙江舉報(bào)

分享至

作者｜林易

編輯｜重點(diǎn)君

2月1日，知名科技播客博主Lex Fridman與兩位機(jī)器學(xué)習(xí)領(lǐng)域的重量級(jí)嘉賓開(kāi)展了一場(chǎng)深度對(duì)話。Sebastian Raschka是知名機(jī)器學(xué)習(xí)研究員與教育家，Nathan Lambert是艾倫人工智能研究所（AI2）的后訓(xùn)練負(fù)責(zé)人，同時(shí)也是RLHF領(lǐng)域的權(quán)威專家。兩位嘉賓恰好代表了當(dāng)前AI領(lǐng)域的兩大核心關(guān)切：原理與技術(shù)路線。

這場(chǎng)長(zhǎng)達(dá)數(shù)小時(shí)的硬核訪談信息密度極高，既是對(duì)過(guò)去一年AI技術(shù)突破的復(fù)盤，更是對(duì)2026年技術(shù)風(fēng)向的深度預(yù)判。我們給你劃下重點(diǎn)：

第一，關(guān)于中美AI競(jìng)爭(zhēng)：2025年的最大變量是DeepSeek時(shí)刻，中國(guó)公司在開(kāi)源權(quán)重模型上已占據(jù)主導(dǎo)地位。

2025年1月發(fā)布的DeepSeek R1被視為中美AI競(jìng)爭(zhēng)的分水嶺，該模型以更低的算力成本達(dá)到了接近最先進(jìn)（SOTA）的性能，震驚了業(yè)界。Nathan Lamber說(shuō)，在開(kāi)源模型方面表現(xiàn)強(qiáng)勢(shì)。DeepSeek、阿里Qwen、MiniMax、Kimi等公司發(fā)布了大量高性能開(kāi)源模型，贏得了開(kāi)源社區(qū)的青睞。

相比之下，美國(guó)曾經(jīng)的開(kāi)源標(biāo)桿Llama卻在這一年迷失了方向。Sebastian Raschka說(shuō)，Meta試圖通過(guò)構(gòu)建巨大的Llama 4模型在基準(zhǔn)測(cè)試中擊敗ChatGPT，但陷入刷榜陷阱，忽略了AI領(lǐng)域真正需要的是輕量級(jí)、可用的模型。這導(dǎo)致Llama留下的生態(tài)空白正在被中國(guó)的開(kāi)源模型迅速填補(bǔ)。

第二，主要AI實(shí)驗(yàn)室與模型現(xiàn)狀：Anthropic最有序，OpenAI內(nèi)部混亂，Meta開(kāi)源策略可能動(dòng)搖。

Anthropic：Claude Opus4.5是當(dāng)前頂流，特別是在編程方面表現(xiàn)出色，深受開(kāi)發(fā)者喜愛(ài)。Anthropic組織最有序、最不混亂。

Google：Gemini 3 雖發(fā)布時(shí)營(yíng)銷聲量不如對(duì)手，但性能極其強(qiáng)大。Google的優(yōu)勢(shì)在于擁有完整的全棧垂直整合能力（TPU芯片、云計(jì)算、模型、應(yīng)用），利潤(rùn)率極高，不依賴英偉達(dá)的高價(jià)GPU芯片。

OpenAI：盡管內(nèi)部混亂，但仍具有極強(qiáng)的交付能力。GPT-5系列（包括o1/o3推理模型）通過(guò)推理時(shí)計(jì)算節(jié)省了大量成本，并定義了新范式。

Meta：LLaMA系列似乎面臨內(nèi)部政治和激勵(lì)問(wèn)題，未來(lái)是否會(huì)有開(kāi)源的LLaMA5存疑，Meta的開(kāi)源策略可能在動(dòng)搖。

第三，關(guān)于技術(shù)范式轉(zhuǎn)移：預(yù)訓(xùn)練的紅利正在消退，AI技術(shù)戰(zhàn)場(chǎng)轉(zhuǎn)向后訓(xùn)練和RLVR。

Nathan Lamber認(rèn)為，預(yù)訓(xùn)練已經(jīng)變得極其昂貴且邊際效益遞減，而現(xiàn)在的模型能力提升重點(diǎn)源自后訓(xùn)練階段的創(chuàng)新。2025年最大的技術(shù)突破是帶有可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)（RLVR）。這徹底改變了模型的訓(xùn)練方式。

傳統(tǒng)的基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）更多是調(diào)整模型的語(yǔ)氣和風(fēng)格，屬于微調(diào)偏好，容易觸及天花板。RLVR則是讓模型在數(shù)學(xué)、代碼等有客觀答案的領(lǐng)域進(jìn)行大規(guī)模試錯(cuò)。通過(guò)“生成-評(píng)分”的迭代循環(huán)，模型能像人類學(xué)生一樣，在數(shù)萬(wàn)次的練習(xí)中自我修正，從而解鎖預(yù)訓(xùn)練中已有的知識(shí)。

預(yù)訓(xùn)練是計(jì)算密集型（算力受限），而后訓(xùn)練階段的RLVR則更像是內(nèi)存密集型（內(nèi)存受限），更看重GPU的運(yùn)行時(shí)間而非單純的算力堆疊。

第四，關(guān)于AI編程：AI催生Vibe Coding，軟件工程正從寫代碼轉(zhuǎn)向系統(tǒng)設(shè)計(jì)。

AI對(duì)編程領(lǐng)域的重塑遠(yuǎn)超預(yù)期。Vibe Coding讓開(kāi)發(fā)者不再糾結(jié)于具體的代碼細(xì)節(jié)，而是通過(guò)自然語(yǔ)言描述需求，快速生成并修改代碼Diffs。在這種模式下，人類的角色從代碼編寫者轉(zhuǎn)變?yōu)橄到y(tǒng)設(shè)計(jì)師和審查者。

Nathan Lambert預(yù)測(cè)，隨著AI能力的提升，軟件開(kāi)發(fā)將變得高度工業(yè)化。雖然完全自動(dòng)化的超級(jí)智能編程因數(shù)據(jù)分布的參差不齊而難以在短期內(nèi)完美實(shí)現(xiàn)，但工具的門檻正在急劇降低。未來(lái)，一個(gè)不懂底層代碼的人，只要擁有清晰的系統(tǒng)設(shè)計(jì)思維，利用Claude Code或Cursor等工具，就能構(gòu)建出復(fù)雜的軟件系統(tǒng)。

第五，關(guān)于Scaling Laws：規(guī)模定律并沒(méi)有失效，但維度變得更加豐富了。

針對(duì)AI發(fā)展是否遇到瓶頸的質(zhì)疑，嘉賓們給出了否定的回答。Nathan Lambert認(rèn)為，Scaling Laws依然是技術(shù)發(fā)展的基石，但現(xiàn)在的擴(kuò)展已從單一的預(yù)訓(xùn)練規(guī)模分裂為三個(gè)維度：

傳統(tǒng)規(guī)模定律：繼續(xù)堆疊模型參數(shù)和數(shù)據(jù)集。

強(qiáng)化學(xué)習(xí)規(guī)模：可以進(jìn)行多長(zhǎng)時(shí)間的試錯(cuò)學(xué)習(xí)。

推理側(cè)算力：讓模型在回答前思考更久，生成更多的思維鏈Token。

這種多維度的擴(kuò)展策略，使得科技巨頭們?cè)?026年依然敢于投入數(shù)百億美元建設(shè)吉瓦級(jí)規(guī)模的算力集群。Sebastian Raschka形象地比喻：在一個(gè)擁有無(wú)限算力的理想世界里，你會(huì)把這三個(gè)維度的旋鈕全部拉滿；但在現(xiàn)實(shí)中，這變成了一場(chǎng)關(guān)于性價(jià)比的權(quán)衡游戲，大公司需要考慮是花1億美元訓(xùn)練更大的模型，還是花200萬(wàn)美元做推理側(cè)擴(kuò)展。

第六，關(guān)于AGI的終局：?jiǎn)我煌ㄓ媚Ｐ偷膲?mèng)想已經(jīng)破滅，未來(lái)屬于多智能體與專業(yè)化模型。

對(duì)于未來(lái)，嘉賓們打破了一個(gè)全能模型統(tǒng)治世界的幻想。Nathan Lambert認(rèn)為，未來(lái)的AI生態(tài)不會(huì)是贏家通吃，而是一個(gè)分工明確的系統(tǒng)。

未來(lái)不會(huì)依賴一個(gè)單一的ChatGPT去處理所有事務(wù)，而是會(huì)有專門負(fù)責(zé)法律、醫(yī)療、編程的垂直模型�，F(xiàn)實(shí)正在演變?yōu)槿藗冡槍?duì)不同任務(wù)調(diào)用不同的Agent。未來(lái)的數(shù)據(jù)中心里，將是許多專門的AGI在相互交流、管理和執(zhí)行任務(wù)。

以下為L(zhǎng)ex Fridman播客訪談實(shí)錄：

1、中國(guó) vs 美國(guó)：誰(shuí)將贏得 AI 競(jìng)賽？

Lex Fridman：以下是一場(chǎng)關(guān)于人工智能前沿動(dòng)態(tài)的對(duì)話，涵蓋了過(guò)去一年AI領(lǐng)域激動(dòng)人心的突破，以及我們對(duì)未來(lái)一年的展望。雖然內(nèi)容有時(shí)會(huì)涉及深度的專業(yè)技術(shù)，但我們力求讓非專業(yè)人士也能聽(tīng)懂，同時(shí)絕不降低內(nèi)容的專業(yè)深度。我很榮幸能邀請(qǐng)到AI社區(qū)中我最喜歡的兩位嘉賓：Sebastian Raschka 和 Nathan Lambert。他們都是備受尊敬的機(jī)器學(xué)習(xí)研究員、工程師，同時(shí)也是優(yōu)秀的傳播者、教育者和作家。Sebastian著有兩本我強(qiáng)烈推薦給初學(xué)者和專家的書(shū)：第一本是《從零開(kāi)始構(gòu)建大語(yǔ)言模型》（Build a Large Language Model From Scratch），另一本是《從零開(kāi)始構(gòu)建推理模型》（Build a Reasoning Model From Scratch）。我堅(jiān)信在機(jī)器學(xué)習(xí)和計(jì)算機(jī)科學(xué)領(lǐng)域，學(xué)習(xí)并理解某項(xiàng)事物的最佳方式就是親手從零開(kāi)始構(gòu)建它。Nathan是艾倫人工智能研究所的后訓(xùn)練負(fù)責(zé)人，也是關(guān)于人類反饋強(qiáng)化學(xué)習(xí)（RLHF）權(quán)威著作的作者。

Lex Fridman：讓我們從“DeepSeek時(shí)刻”這個(gè)視角切入。這大約發(fā)生在一年前的2025年1月，當(dāng)時(shí)中國(guó)公司DeepSeek發(fā)布了開(kāi)放權(quán)重的DeepSeek R1。我認(rèn)為可以公平地說(shuō)，它以更少的算力和更低廉的價(jià)格，達(dá)到了接近或持平SOTA（最先進(jìn)）的性能，驚艷了所有人。從那時(shí)起到今天，AI領(lǐng)域的競(jìng)爭(zhēng)在研究和產(chǎn)品層面都變得異常激烈，這種趨勢(shì)一直在加速。讓我們今天探討所有這些話題。首先我想問(wèn)一個(gè)尖銳的問(wèn)題：在國(guó)際層面上誰(shuí)處于領(lǐng)先地位？是中國(guó)的一系列公司，還是美國(guó)的公司？Sebastian，你認(rèn)為誰(shuí)是贏家？

Sebastian Raschka：“贏”這個(gè)詞涵蓋面很廣。既然你提到了DeepSeek時(shí)刻，我確實(shí)認(rèn)為DeepSeek通過(guò)分享開(kāi)源模型，絕對(duì)贏得了那些致力于開(kāi)放權(quán)重模型（open weight models）的人們的心。我認(rèn)為“贏”包含多個(gè)時(shí)間尺度：當(dāng)下、明年，還有十年后。我唯一可以肯定的是，我不認(rèn)為到了2026年的今天，還會(huì)存在哪家公司能掌握其他公司無(wú)法觸及的獨(dú)占技術(shù)。主要原因是研究人員頻繁地更換工作和實(shí)驗(yàn)室，人才在不斷流動(dòng)。因此，我不認(rèn)為在技術(shù)獲取層面會(huì)有明顯的贏家。然而，差異化因素將體現(xiàn)在預(yù)算和硬件限制上。這些創(chuàng)意本身并非專利，實(shí)現(xiàn)這些創(chuàng)意的方式和資源才是關(guān)鍵。所以，目前我看不到一個(gè)“贏家通吃”的局面。

Lex Fridman：Nathan，你怎么看？

Nathan Lambert：你可以看到各個(gè)實(shí)驗(yàn)室在目標(biāo)投入上存在差異。為了標(biāo)記我們錄制的時(shí)間點(diǎn)，目前針對(duì)Anthropic的Claude Opus 4.5模型的炒作簡(jiǎn)直瘋狂。我在過(guò)去幾周一直用它構(gòu)建東西，它的熱度甚至有點(diǎn)像個(gè)“梗”了。這很有趣，因?yàn)檫@種熱度非常自然。如果我們回到幾個(gè)月前，Google發(fā)布Gemini 3時(shí)的營(yíng)銷手段和驚艷程度都非常高。但隨后11月底Claude Opus 4.5發(fā)布，熱度一路攀升，感覺(jué)大家對(duì)Gemini 3的討論反而沒(méi)那么多了，盡管它剛推出時(shí)被視為Google奪回AI架構(gòu)優(yōu)勢(shì)的時(shí)機(jī)。Gemini 3依然是一款出色的模型，我目前仍在使用它，只是其差異化程度較低。

我同意Sebastian的觀點(diǎn)，創(chuàng)意空間是非常流動(dòng)的。但在文化層面上，Anthropic以敢于在代碼能力（即Claude Code）上重注而聞名，目前效果很不錯(cuò)。所以我認(rèn)為，即使想法可以自由流動(dòng)，但很大程度上仍然受限于人力投入以及組織的文化氛圍。Anthropic目前看起來(lái)是表現(xiàn)得最不混亂的，這算是一個(gè)小小的優(yōu)勢(shì)。另一方面，在技術(shù)層面，中國(guó)有很多令人驚嘆的技術(shù)。除了DeepSeek之外，還有更多的實(shí)驗(yàn)室。DeepSeek在中國(guó)引發(fā)了一場(chǎng)運(yùn)動(dòng)，類似于ChatGPT在美國(guó)引發(fā)的浪潮，當(dāng)時(shí)所有產(chǎn)品都加上了聊天機(jī)器人�，F(xiàn)在中國(guó)有大量科技公司正在發(fā)布實(shí)力強(qiáng)勁的前沿開(kāi)源權(quán)重模型，以至于我會(huì)說(shuō)DeepSeek在某種程度上正在失去其作為中國(guó)卓越開(kāi)源模型制作者的桂冠，像智譜AI的GLM模型、MiniMax的模型以及月之暗面（Kimi），尤其是在過(guò)去幾個(gè)月里，表現(xiàn)得更加出色。

Lex Fridman：所以像DeepSeek這樣的一些模型因?yàn)殚_(kāi)源權(quán)重而受到了大眾的喜愛(ài)。你認(rèn)為中國(guó)公司發(fā)布開(kāi)放權(quán)重模型的策略會(huì)堅(jiān)持多久？

Nathan Lambert：我認(rèn)為會(huì)持續(xù)幾年。就像在美國(guó)一樣，目前還沒(méi)有一個(gè)清晰的商業(yè)模式。我寫關(guān)于開(kāi)放模型的文章有一段時(shí)間了，中國(guó)公司也意識(shí)到了這一點(diǎn)。他們很聰明，也看到了同樣的限制：許多美國(guó)頂尖科技公司出于安全擔(dān)憂，不會(huì)購(gòu)買中國(guó)公司的API訂閱服務(wù)。這在技術(shù)領(lǐng)域是長(zhǎng)期存在的習(xí)慣。因此，這些公司的從業(yè)者將開(kāi)放權(quán)重模型視為一種能力，以此來(lái)通過(guò)這種方式參與到美國(guó)巨大且不斷增長(zhǎng)的AI支出市場(chǎng)中。他們對(duì)此有著非常務(wù)實(shí)的認(rèn)識(shí)，而且這對(duì)他們很有效。但是開(kāi)發(fā)這些模型非常昂貴，所以我預(yù)計(jì)在某個(gè)時(shí)間點(diǎn)會(huì)出現(xiàn)整合，但我不認(rèn)為這會(huì)發(fā)生在2026年。2026年開(kāi)放模型構(gòu)建者的數(shù)量將比2025年更多，而且其中許多著名的構(gòu)建者將來(lái)自中國(guó)。

Lex Fridman：Sebastian，你剛才想補(bǔ)充什么嗎？

Sebastian Raschka：是的。你提到DeepSeek失去領(lǐng)先地位，我在某種程度上認(rèn)同，但也必須考慮到，我認(rèn)為他們?nèi)匀惶幱谖⑷醯念I(lǐng)先地位。其他模型的情況并非是DeepSeek變差了，而是其他模型正在借鑒DeepSeek的思路。例如你提到的Kimi，采用了相同的架構(gòu)進(jìn)行訓(xùn)練。我們?cè)俅慰吹搅诉@種“跳躍式領(lǐng)先”的情況：一個(gè)人發(fā)布了某個(gè)東西，另一個(gè)緊隨其后。最新的模型往往就是最好的模型。我認(rèn)為這又回到了那個(gè)事實(shí)，不會(huì)有一個(gè)絕對(duì)的贏家。

Nathan Lambert：是的。我們還會(huì)看到中國(guó)公司有著不同的激勵(lì)機(jī)制。比如DeepSeek非常神秘，而其他一些初創(chuàng)公司則不同，像MiniMax和零一萬(wàn)物（01.AI）這類公司已經(jīng)提交了IPO文件，正努力爭(zhēng)取西方市場(chǎng)的關(guān)注，并在那里進(jìn)行了大量推廣。DeepSeek是由幻方量化（Highflyer Capital）這家對(duì)沖基金創(chuàng)立的，我們并不確切知道他們將這些模型用于什么，或者他們是否在意商業(yè)化。

Lex Fridman：他們?cè)跍贤ǚ矫婧苌衩�，但在描述模型工作原理的技術(shù)報(bào)告方面并不保守，在這方面他們?nèi)匀槐３珠_(kāi)放。我們還應(yīng)該談?wù)剬?duì)Claude Opus 4.5的炒作。這其中包含了一些層面，即它作為X（原Twitter）信息繭房里的寵兒的熱度，與實(shí)際使用該模型的人數(shù)之間存在差距。我認(rèn)為可以公平地說(shuō)，ChatGPT和Gemini專注于那些僅僅想使用工具解決日常問(wèn)題的廣泛用戶群體，那個(gè)群體非常龐大。所以關(guān)于編程能力的炒作可能并不能完全代表實(shí)際的大眾使用情況。

Sebastian Raschka：很多使用模式也是出于知名度和品牌，同時(shí)也形成了一種肌肉記憶。ChatGPT已經(jīng)存在很長(zhǎng)時(shí)間了，人們習(xí)慣了使用它，這像一種飛輪效應(yīng)。還有一個(gè)有趣的觀點(diǎn)是LLM的定制化。例如ChatGPT有記憶功能，你可能有一個(gè)訂閱用于處理個(gè)人事務(wù)，但你不一定想在工作中使用同一個(gè)賬號(hào)。因?yàn)樗饺松詈凸ぷ髦g存在界限。我認(rèn)為這也是一個(gè)有趣的切入點(diǎn)，你可能會(huì)擁有多個(gè)訂閱：一個(gè)只用于編寫純凈的代碼，不包含任何個(gè)人照片或愛(ài)好；另一個(gè)則是你個(gè)人的東西。我認(rèn)為未來(lái)會(huì)是多個(gè)并存的。

2、ChatGPT vs Claude vs Gemini vs Grok：誰(shuí)正在領(lǐng)先？

Lex Fridman：你認(rèn)為哪個(gè)模型贏得了2025年？又有哪些模型將贏得2026年？

Nathan Lambert：在消費(fèi)級(jí)聊天機(jī)器人的語(yǔ)境下，問(wèn)題在于你是否愿意押注Gemini而非ChatGPT。直覺(jué)告訴我，這似乎是一個(gè)有點(diǎn)冒險(xiǎn)的賭注，因?yàn)镺penAI一直是該領(lǐng)域的領(lǐng)先者，這在科技行業(yè)會(huì)帶來(lái)諸多優(yōu)勢(shì)�；仡�2025年，勢(shì)頭似乎在Gemini這邊，但我認(rèn)為他們當(dāng)時(shí)的起點(diǎn)太低了。愿Bard以及那些早期的嘗試安息吧。他們能克服組織內(nèi)部的混亂并實(shí)現(xiàn)這一目標(biāo)，確實(shí)值得稱贊。但與此同時(shí)，也很難去賭OpenAI會(huì)輸。因?yàn)樗麄冸m然表面上顯得混亂，但非常擅長(zhǎng)讓項(xiàng)目落地。就我個(gè)人而言，我對(duì)GPT-5的評(píng)價(jià)褒貶不一，但它肯定通過(guò)高端線路功能的路由機(jī)制為他們節(jié)省了大量資金，即大多數(shù)用戶不再像以前那樣消耗昂貴的GPU資源了。

Lex Fridman：你對(duì)2026年怎么看？誰(shuí)會(huì)勝出？

Nathan Lambert：盡管有風(fēng)險(xiǎn)，我還是要說(shuō)，我認(rèn)為Gemini將繼續(xù)追趕ChatGPT的進(jìn)展。當(dāng)兩者都以如此極端的規(guī)模運(yùn)行時(shí)，Google的規(guī)模優(yōu)勢(shì)在于它能夠更好地將研究與產(chǎn)品分開(kāi)。而OpenAI在運(yùn)營(yíng)上常被傳非�；靵y，一直在追求高影響力的事物，這是典型的創(chuàng)業(yè)公司文化。在軟件和企業(yè)端，我認(rèn)為Anthropic將會(huì)延續(xù)他們的成功。Google Cloud擁有豐富的產(chǎn)品線，Gemini這個(gè)品牌對(duì)他們的建設(shè)至關(guān)重要。Google Cloud將繼續(xù)保持良好的發(fā)展勢(shì)頭，但在生態(tài)系統(tǒng)中解釋清楚這一點(diǎn)會(huì)更加復(fù)雜，因?yàn)槟鞘桥cAzure和AWS的競(jìng)爭(zhēng)。

Lex Fridman：所以在基礎(chǔ)設(shè)施方面，你認(rèn)為TPU帶來(lái)了優(yōu)勢(shì)？

Nathan Lambert：很大程度上是因?yàn)镹VIDIA芯片的利潤(rùn)率高得離譜，而Google可以從上到下開(kāi)發(fā)一切來(lái)適配他們的技術(shù)棧，不需要支付這部分利潤(rùn)空間。而且他們?cè)诮ㄔO(shè)數(shù)據(jù)中心方面擁有先發(fā)優(yōu)勢(shì)。因此，在這些既需要漫長(zhǎng)前置時(shí)間，又有著極高利潤(rùn)門檻的領(lǐng)域，Google擁有一種歷史性的優(yōu)勢(shì)。如果將出現(xiàn)新的范式，它最有可能來(lái)自O(shè)penAI，因?yàn)樗麄兊难芯坎块T一次又一次地證明了這一點(diǎn)，比如Deep Research、Sora、o1推理模型。這種落地全新研究理念或產(chǎn)品的能力是OpenAI的核心特質(zhì)。很難賭他們會(huì)輸，但我認(rèn)為今年的重點(diǎn)將很大程度上圍繞規(guī)�；⊿caling）和優(yōu)化模型中那些“垂手可得的果實(shí)”。

Lex Fridman：顯然，在智能與速度之間存在權(quán)衡。這就是ChatGPT-5在幕后試圖解決的問(wèn)題。廣大公眾到底是想要智能，還是想要速度？

Sebastian Raschka：我覺(jué)得這實(shí)際上是一個(gè)很棒的多樣化選擇。就我個(gè)人的使用習(xí)慣而言，大多數(shù)時(shí)候當(dāng)我查閱某些內(nèi)容時(shí)，我會(huì)用ChatGPT問(wèn)一個(gè)簡(jiǎn)單的問(wèn)題，快速獲取信息。對(duì)于大多數(shù)日常任務(wù)，我會(huì)使用快速模型�，F(xiàn)在自動(dòng)模式已經(jīng)做得相當(dāng)不錯(cuò)了。但有時(shí)我也想要Pro模式。例如當(dāng)我寫好東西后，我會(huì)把它放入ChatGPT并說(shuō)：“做一個(gè)非常徹底的檢查。我的所有引用、想法、格式都正確嗎？”這種情況下我不需要立即得到答案，可以讓它運(yùn)行著，回頭再看。這就是擁有這種選項(xiàng)的重要性。如果每個(gè)查詢都要讓我等30分鐘甚至10分鐘，我一定會(huì)瘋掉的。

Nathan Lambert：那就是我。我坐在這兒簡(jiǎn)直要瘋了，你居然還在用路由模式和非思考模型（non-thinking models）。我心想：“你是怎么受得了那種東西的？”我已經(jīng)重度使用ChatGPT很長(zhǎng)時(shí)間了，從來(lái)沒(méi)碰過(guò)非思考模型。我覺(jué)得它的語(yǔ)氣和出錯(cuò)的概率似乎更高。這可以追溯到OpenAI發(fā)布o(jì)3的時(shí)候，那是第一個(gè)能夠進(jìn)行深度搜索、整合多個(gè)來(lái)源的模型。我已經(jīng)習(xí)慣了那樣。所以在處理工作信息查詢時(shí)，我只會(huì)使用GPT-5.2 Thinking或Pro版本。我經(jīng)常會(huì)同時(shí)進(jìn)行五個(gè)Pro查詢，尋找特定的論文或代碼參考。

Sebastian Raschka：我有一個(gè)有趣的例子，當(dāng)時(shí)我只需要盡快得到答案。在這次旅行之前的播客中，我家里運(yùn)行著一個(gè)本地GPU，我想運(yùn)行一個(gè)長(zhǎng)時(shí)間的RL（強(qiáng)化學(xué)習(xí)）實(shí)驗(yàn)。通常我會(huì)拔掉電源，但我如果不小心拔掉了GPU電源，當(dāng)時(shí)我妻子已經(jīng)在車?yán)锏戎�，我心想：“噢，糟了�！蔽蚁胍宰羁斓乃俣葘懗鲆粋€(gè)Bash腳本，用來(lái)運(yùn)行不同的實(shí)驗(yàn)和評(píng)估。我知道怎么用Bash終端，但在那一刻我只需要大概10秒鐘把命令給我。所以我用了不帶思考過(guò)程的最快模型。它給了我Bash命令，我需要將不同的腳本串聯(lián)在一起，這就解決了問(wèn)題。

Nathan Lambert：我用Gemini處理這類需求。我會(huì)用思考模型處理所有信息類事務(wù)，然后用Gemini處理追求速度的任務(wù)，或者那些通過(guò)Google搜索能更好解釋的內(nèi)容。Gemini應(yīng)用也變得好多了。對(duì)于代碼和任何形式的哲學(xué)討論，我會(huì)使用Claude Opus 4.5，而且總是開(kāi)啟擴(kuò)展思考（extended thinking）。擴(kuò)展思考和推理時(shí)間擴(kuò)展（inference time scaling）只是讓模型變得稍微更聰明一點(diǎn)的方式。然后有時(shí)我會(huì)使用Grok來(lái)獲取實(shí)時(shí)信息，或者在AI Twitter上尋找內(nèi)容。Grok-4 Super Heavy發(fā)布時(shí)表現(xiàn)非常出色，但我后來(lái)因?yàn)榱?xí)慣用ChatGPT App就慢慢把它忘了。

Lex Fridman：是的，我確實(shí)也在用Grok-4 Heavy用于調(diào)試。對(duì)于那些其他模型無(wú)法解決的硬核調(diào)試問(wèn)題，我發(fā)現(xiàn)它是最擅長(zhǎng)的。這很有趣，因?yàn)槟阏f(shuō)ChatGPT是最好的界面，對(duì)我來(lái)說(shuō)Gemini是更好的界面。我想是因?yàn)槲覑?ài)上了它們最出色的“大海撈針”（needle in the haystack）能力。如果我放入包含大量上下文的內(nèi)容并尋找非常具體的信息，Gemini一直表現(xiàn)最好。這就像有一種閾值效應(yīng)：你會(huì)堅(jiān)持使用一個(gè)模型，直到它做了一件蠢事，然后你就會(huì)換個(gè)工具。

Sebastian Raschka：沒(méi)錯(cuò)，你會(huì)一直使用它直到它出故障。就像我們使用瀏覽器一樣，你不會(huì)在不同瀏覽器中輸入同一個(gè)網(wǎng)址對(duì)比，除非網(wǎng)頁(yè)無(wú)法渲染。關(guān)于長(zhǎng)上下文，我之前也是為了這個(gè)功能使用Gemini，但GPT-4o發(fā)布時(shí)展示了驚人的長(zhǎng)上下文評(píng)分提升�，F(xiàn)在我更看好GPT-5.2的長(zhǎng)上下文。

3、最適合編程的AI

Lex Fridman：我們還沒(méi)怎么提到編程。那是另一個(gè)很多人非常關(guān)注的使用場(chǎng)景。所以我基本上是一半一半地在使用Cursor和Claude Code。你們呢？

Sebastian Raschka：我用的是VSCode的Codex插件。它非常方便，就像一個(gè)可以訪問(wèn)你代碼庫(kù)的聊天界面。我知道Claude Code似乎有點(diǎn)不同，它更具智能體（agentic）特征，能為你完成整個(gè)項(xiàng)目。我目前還沒(méi)到能完全放心使用它的程度，也許是因?yàn)槲矣锌刂朴蚁Ｍ芸吹骄唧w發(fā)生了什么。Cursor對(duì)我來(lái)說(shuō)目前處于一個(gè)恰到好處的平衡點(diǎn)，它在幫助我，但沒(méi)有完全取代我的工作。

Lex Fridman：我使用Claude寫代碼的原因之一是為了培養(yǎng)用英語(yǔ)編程的能力。這種體驗(yàn)從根本上是不同的。你不再是微觀管理代碼生成的細(xì)節(jié)，而是查看diff。如果你使用Cursor這種IDE，你可以看到修改和變更代碼時(shí)的差異。去觀察、閱讀并深入理解代碼，而不是僅僅停留在設(shè)計(jì)層面進(jìn)行宏觀引導(dǎo)，這是思考編程過(guò)程的另一種方式。Claude Code似乎更好地利用了Claude 3.5 Opus。

Nathan Lambert：這對(duì)人們來(lái)說(shuō)是一個(gè)很好的并排對(duì)比。你可以同時(shí)打開(kāi)Claude Code、Cursor和VSCode，選擇相同的模型并提出問(wèn)題。Claude在代碼能力那個(gè)領(lǐng)域要出色得多。

Lex Fridman：好的，我們應(yīng)該說(shuō)明你們兩位在多個(gè)領(lǐng)域都是名副其實(shí)的專家，包括研究員、程序員、教育者以及作家。Nathan，希望你能很快出一本關(guān)于RLHF的書(shū)。

Nathan Lambert：已經(jīng)可以預(yù)訂了，而且有完整的數(shù)字預(yù)印本。我只是在為實(shí)體書(shū)做美化和更好的排版。

Lex Fridman：Sebastian Raschka是一位機(jī)器學(xué)習(xí)研究員和作家，出版了多本具有影響力的書(shū)籍。其中有兩本我想特別提一下：一本是我強(qiáng)烈推薦的《從零開(kāi)始構(gòu)建大語(yǔ)言模型》，以及新書(shū)《從零開(kāi)始構(gòu)建推理模型》。我感到非常興奮，因?yàn)閺念^開(kāi)始構(gòu)建東西是學(xué)習(xí)最有效的方式之一。

Sebastian Raschka：說(shuō)實(shí)話，從頭開(kāi)始構(gòu)建一個(gè)LLM非常有趣。這也是一個(gè)學(xué)習(xí)很多東西的過(guò)程。正如你所說(shuō)，這可能是了解事物真實(shí)運(yùn)作機(jī)制的最佳方式。你可以看圖表，但圖表可能會(huì)有錯(cuò)誤；你可以看概念，但可能會(huì)誤解。但如果你看到代碼并且能運(yùn)行，你就知道它是正確的，它是精確的。這就是編程背后的魅力，它不會(huì)撒謊。即使是數(shù)學(xué)，我認(rèn)為書(shū)里也可能存在你永遠(yuǎn)察覺(jué)不到的錯(cuò)誤。因?yàn)槟阍谧x書(shū)時(shí)并沒(méi)有實(shí)際運(yùn)行那些數(shù)學(xué)計(jì)算，所以無(wú)法去驗(yàn)證它。而代碼的優(yōu)勢(shì)就在于，你可以動(dòng)手驗(yàn)證。

Lex Fridman：沒(méi)錯(cuò)，我同意你關(guān)于《LLM From Scratch》這本書(shū)的看法。屏蔽掉互聯(lián)網(wǎng)等一切干擾，全身心投入到書(shū)本中，這種感覺(jué)確實(shí)很好。但是，我也讀過(guò)一些書(shū)，比如歷史書(shū)。某種程度上，讀書(shū)讓你不再感到孤獨(dú)，這真的更有趣。不過(guò)在編程方面，我認(rèn)為與LLM一起編程確實(shí)更有意思。其實(shí)我認(rèn)為與LLM一起閱讀也更有趣。你說(shuō)得對(duì)。不過(guò)這種干擾應(yīng)該被降到最低。也就是說(shuō)，你是利用LLM來(lái)從根本上豐富體驗(yàn)，通過(guò)它增加更多的上下文。也許吧。我只是覺(jué)得，在小規(guī)模應(yīng)用上，LLM帶給我的“頓悟時(shí)刻”頻率真的很高。

Sebastian Raschka：確實(shí)如此。我也想修正一下我的觀點(diǎn)，我并不是建議完全不使用LLM。我建議的是分階段進(jìn)行：先進(jìn)行一輪離線、專注模式的學(xué)習(xí)，這時(shí)候雖然我會(huì)記筆記，但我會(huì)努力克制住立即查閱資料的沖動(dòng)；之后我會(huì)進(jìn)行第二輪。對(duì)我來(lái)說(shuō)，以這種方式組織學(xué)習(xí)更有效。有時(shí)候問(wèn)題在后續(xù)章節(jié)中自然會(huì)得到解答，而有時(shí)候，讓問(wèn)題沉淀一下、多思考一會(huì)兒也會(huì)有所幫助。當(dāng)然，每個(gè)人的偏好不同。我強(qiáng)烈建議在閱讀書(shū)籍時(shí)使用LLM，只是對(duì)我而言，它不是首選步驟，更像是第二輪的復(fù)習(xí)工具。

Lex Fridman：作為一個(gè)建議，我的做法恰恰相反。我喜歡在開(kāi)始時(shí)就使用LLM。我想先理清整個(gè)背景，比如了解我正要踏入的是一個(gè)什么樣的世界。但我會(huì)盡量避免從LLM的界面跳轉(zhuǎn)到Twitter或博客之類的網(wǎng)頁(yè)，因?yàn)槟菢幽憔驼娴臅?huì)陷入無(wú)底洞。你會(huì)讀到某人的觀點(diǎn)，或者看到關(guān)于某個(gè)特定話題的激烈爭(zhēng)論，突然間你就脫離了學(xué)習(xí)狀態(tài)，進(jìn)入了互聯(lián)網(wǎng)和Reddit的領(lǐng)域。但如果你純粹是讓LLM為你提供“這件事為什么重要”的背景，以及大局觀是什么，這會(huì)非常有幫助。雖然有些書(shū)本身也很擅長(zhǎng)搭建背景，但并不總是如此。

Nathan Lambert：這就是為什么我喜歡ChatGPT的桌面應(yīng)用，因?yàn)樗袮I整合到了你的電腦工作中，你可以全身心投入其中，而不只是把它當(dāng)作雜亂無(wú)章的瀏覽器標(biāo)簽頁(yè)中的一個(gè)。我認(rèn)為Claude Code以及類似的特定工具在營(yíng)造這種愉悅感方面做得很好。作為一種產(chǎn)品設(shè)計(jì)，它非常吸引人，充當(dāng)了一個(gè)讓你的AI走向世界的界面。Claude與OpenAI的Codex之間有一種難以言表的區(qū)別：Claude給人一種溫暖且引人入勝的感覺(jué)；而Codex雖然通常也同樣出色，但總讓人覺(jué)得在細(xì)節(jié)處理上稍微有點(diǎn)粗糙。相比之下，Claude Code讓構(gòu)建東西變得很有趣，尤其是從零開(kāi)始的時(shí)候，你完全不用操心，因?yàn)槟阆嘈潘欢茏龀鰜?lái)。

這對(duì)搭建網(wǎng)站和類似的數(shù)據(jù)刷新工具非常有用。我用它來(lái)進(jìn)行數(shù)據(jù)分析。比如我的博客需要爬取Hugging Face的數(shù)據(jù)，以便持續(xù)保存每個(gè)數(shù)據(jù)集和模型的下載量�，F(xiàn)在我們有了這些數(shù)據(jù)，Claude就像是說(shuō)：“沒(méi)問(wèn)題，我已經(jīng)利用這些數(shù)據(jù)做好了分析。”我當(dāng)時(shí)心想，這原本得花掉我好幾天的時(shí)間。我有足夠的局勢(shì)感知能力去判斷它生成的趨勢(shì)是合理的，并且可以去核查。這確實(shí)是一種美妙的交互界面，你擁有了一個(gè)中間層，而不必親自去處理那些維護(hù)Web項(xiàng)目時(shí)必須面對(duì)的底層繁瑣工作。

4、開(kāi)源 vs 閉源 LLMs

Lex Fridman：好的。剛才我們討論了一系列關(guān)于閉源模型的話題。讓我們聊聊開(kāi)源模型。跟我說(shuō)說(shuō)開(kāi)源LLM的格局。哪些模型比較有趣？哪些讓你印象深刻，為什么？我們已經(jīng)提到了DeepSeek。

Nathan Lambert：你想看看我們憑記憶能說(shuō)出多少個(gè)嗎？

Lex Fridman：來(lái)吧，不用看筆記。

Nathan Lambert：DeepSeek、Kimi、MiniMax、智譜AI（Zhipu AI）、面壁智能（ModelBest）。這就已經(jīng)是不少中國(guó)模型了。然后我們把Mistral AI、Gemma也加進(jìn)來(lái)。還有GPT-OSS，也就是ChatGPT相關(guān)的開(kāi)源模型。實(shí)際上，NVIDIA也有一個(gè)非�？岬哪Ｐ徒蠳emotron 3。特別是在年底這段時(shí)間，涌現(xiàn)了很多東西。Qwen（通義千問(wèn)）也是一個(gè)顯而易見(jiàn)的名字。你至少可以列出10個(gè)中國(guó)的和10個(gè)西方的模型。

OpenAI實(shí)際上也發(fā)布了他們的第一個(gè)開(kāi)源模型——隔了很久，自GPT-2以來(lái)。這就是我當(dāng)時(shí)寫關(guān)于“OpenAI發(fā)布開(kāi)源模型”的文章時(shí)所指的。當(dāng)時(shí)人們都說(shuō)“別忘了GPT-2”，我覺(jué)得這很有趣，因?yàn)槟峭耆遣煌臅r(shí)代了。但GPT-OSS實(shí)際上是一個(gè)非常強(qiáng)大的模型，并且能做到其他模型做得不太好的一些事情。

出于私心，我也想推介一些西方公司。在美國(guó)和歐洲都有完全開(kāi)放的模型。我在艾倫人工智能研究所工作，我們一直在構(gòu)建OLMo，并發(fā)布了數(shù)據(jù)、代碼以及所有相關(guān)內(nèi)容。現(xiàn)在我們面臨著真正的競(jìng)爭(zhēng)，人們正致力于發(fā)布所有內(nèi)容以便他人訓(xùn)練模型。例如基礎(chǔ)模型研究所（Institute for Foundation Models）推出的LM360，他們發(fā)布了K2模型。Apertus是一個(gè)瑞士的研究聯(lián)盟。Hugging Face推出了SmallLM，非常受歡迎。此外，NVIDIA的Nemotron也已經(jīng)開(kāi)始發(fā)布數(shù)據(jù)。還有斯坦福大學(xué)的Marin社區(qū)項(xiàng)目，它建立了一套流程，讓人們可以通過(guò)提交GitHub issue來(lái)實(shí)現(xiàn)新想法，并使其在穩(wěn)定的語(yǔ)言建模棧中運(yùn)行。所以在2024年，這個(gè)領(lǐng)域的名單要比以前豐富得多。我認(rèn)為這對(duì)于更多人參與進(jìn)來(lái)并理解語(yǔ)言模型是一件好事。

目前還沒(méi)有一家中國(guó)公司有類似的對(duì)應(yīng)機(jī)構(gòu)。我要指出的是，中國(guó)的開(kāi)源語(yǔ)言模型往往規(guī)模大得多，這使得它們作為混合專家模型（MoE）具有更高的峰值性能。而許多我們非常喜歡的西方模型，無(wú)論是Gemma還是Nemotron，往往是來(lái)自美國(guó)的較小模型。不過(guò)這種情況正開(kāi)始改變。Mistral Large 3在12月發(fā)布了，它是一個(gè)巨大的MoE模型，架構(gòu)與DeepSeek非常相似。還有一家名為Reka的初創(chuàng)公司。Nemotron和NVIDIA已經(jīng)預(yù)告了參數(shù)量遠(yuǎn)超1000億甚至達(dá)到4000億級(jí)別的MoE模型，將在2026年第一季度左右推出。所以我認(rèn)為，在“人們使用中國(guó)還是美國(guó)的開(kāi)源模型”這一問(wèn)題上的平衡狀態(tài)，今年將會(huì)發(fā)生改變。這是我個(gè)人非常期待看到的。

Lex Fridman：首先，非常佩服你能叫出這么多名字。LLaMA是你命名的嗎？

Nathan Lambert：不是我。

Lex Fridman：好的。你能提到有哪些表現(xiàn)突出的有趣模型嗎？你剛才提到了Qwen3顯然是一個(gè)佼佼者。

Sebastian Raschka：這一年幾乎是以DeepSeek的兩個(gè)動(dòng)作作為開(kāi)端和結(jié)尾的：DeepSeek V3和R1。DeepSeek V3是在2024年12月發(fā)布的，R1緊隨其后。我喜歡它們的地方在于，它們總是在架構(gòu)上有一些有趣的微調(diào)，這是其他公司所不具備的。

除此之外，如果你想選擇熟悉但性能非常出色的模型，Qwen3是個(gè)好選擇。另外我還提到了GPT-OSS。我認(rèn)為GPT-OSS的有趣之處在于，它算是第一個(gè)在訓(xùn)練時(shí)就充分考慮到“工具調(diào)用（Tool Use）”的公開(kāi)權(quán)重模型。我確實(shí)認(rèn)為這在某種程度上是一種范式轉(zhuǎn)移，之前的生態(tài)系統(tǒng)尚未完全準(zhǔn)備好。

所謂“工具調(diào)用”，是指LLM能夠進(jìn)行網(wǎng)頁(yè)搜索，或者調(diào)用Python解釋器。我認(rèn)為這是一個(gè)巨大的突破。因?yàn)殛P(guān)于LLM最常見(jiàn)的抱怨之一就是“幻覺(jué)（Hallucinations）”。在我看來(lái)，解決幻覺(jué)問(wèn)題的最佳方法之一，就是不要試圖讓模型總是去記憶信息或憑空捏造。對(duì)于數(shù)學(xué)問(wèn)題，為什么不直接讓它使用計(jì)算器應(yīng)用或Python呢？如果我問(wèn)LLM“誰(shuí)贏得了1998年的世界杯？”，與其讓它去死記硬背，不如讓它完全通過(guò)搜索來(lái)回答。它會(huì)進(jìn)行工具調(diào)用來(lái)訪問(wèn)Google，也許會(huì)找到FIFA官網(wǎng)，然后告訴你“哦，是法國(guó)隊(duì)”。它能可靠地為你獲取信息。

所以我認(rèn)為這是一個(gè)巨大的突破，目前尚未被開(kāi)源、開(kāi)放權(quán)重生態(tài)系統(tǒng)充分利用。很多人不使用工具調(diào)用模式，首先是因?yàn)樾湃螁?wèn)題。你不想在自己的電腦上運(yùn)行一個(gè)擁有訪問(wèn)工具權(quán)限的模型，因?yàn)樗赡軙?huì)抹掉你的硬盤。所以你可能需要將其容器化。但我確實(shí)認(rèn)為，擁有這種能力是未來(lái)幾年非常重要的一步。

Lex Fridman：有幾件事簡(jiǎn)要說(shuō)一下。首先，謝謝你定義了你所說(shuō)的“工具調(diào)用”的具體含義。在討論這些概念時(shí)，這樣做非常好。即使是像MoE這樣已經(jīng)非常成熟的概念，你也得說(shuō)明那代表“混合專家模型（Mixture of Experts）”，建立起直覺(jué)，讓人們理解那意味著什么，它是如何被實(shí)際應(yīng)用的，以及有哪些不同的變體。那么，開(kāi)放模型如此爆發(fā)式增長(zhǎng)意味著什么？你的直覺(jué)是怎么樣的？

Nathan Lambert：如果你發(fā)布一個(gè)開(kāi)放模型，首要目的就是希望人們?nèi)ナ褂盟�。緊隨其后的是透明度和信任等因素。當(dāng)你觀察中國(guó)時(shí)，最大的原因在于他們希望全球用戶都能使用這些模型。如果你觀察美國(guó)以外的地區(qū)，很多人不會(huì)為軟件付費(fèi)，但他們可能擁有計(jì)算資源，可以把模型部署在本地運(yùn)行。此外，還有一些數(shù)據(jù)是你不想發(fā)送到云端的。因此，首要任務(wù)是讓人們開(kāi)始使用AI，或者使用你的AI，因?yàn)槿绻麤](méi)有模型訪問(wèn)權(quán)限，他們無(wú)法做到這一點(diǎn)。

Lex Fridman：我想我們應(yīng)該明確說(shuō)明，我們一直在討論這些中國(guó)模型和權(quán)重開(kāi)放模型，通常情況下，它們的運(yùn)行方式是在本地運(yùn)行。所以這并不是說(shuō)你把數(shù)據(jù)發(fā)送到了中國(guó)，或者發(fā)送給了硅谷的任何開(kāi)發(fā)者。

Nathan Lambert：沒(méi)錯(cuò)。許多美國(guó)初創(chuàng)公司通過(guò)托管這些來(lái)自中國(guó)的模型并進(jìn)行銷售來(lái)賺錢，這被稱為賣Token，意味著有人會(huì)調(diào)用該模型來(lái)完成工作。

我認(rèn)為另一個(gè)原因是，像OpenAI這樣的美國(guó)公司非常缺乏GPU。他們已經(jīng)達(dá)到了GPU的極限。每當(dāng)他們發(fā)布新產(chǎn)品時(shí)，總是在說(shuō)GPU資源非常緊張。在GPT-4o的發(fā)布環(huán)節(jié)中，Sam Altman曾暗示過(guò)，發(fā)布這個(gè)是因?yàn)榭梢岳糜脩舻腉PU，他們不必動(dòng)用自己的資源，卻仍然可以獲得分發(fā)渠道。這對(duì)他們來(lái)說(shuō)沒(méi)有任何成本，是一個(gè)非�，F(xiàn)實(shí)的考量。

Sebastian Raschka：對(duì)于用戶來(lái)說(shuō)，有些用戶只是像使用ChatGPT那樣在本地使用模型。但對(duì)于公司而言，擁有這些模型是一個(gè)巨大的突破，因?yàn)槟憧梢远ㄖ扑鼈儯梢酝ㄟ^(guò)后期訓(xùn)練添加更多數(shù)據(jù)。比如將它們專門化為法律、醫(yī)療模型等。

此外，中國(guó)權(quán)重開(kāi)放模型的吸引力在于，它們的許可協(xié)議往往更加友好，通常是無(wú)限制的開(kāi)源許可（如Apache 2.0）。而如果我們使用像LLaMA或Gemma這樣的模型，其實(shí)是附帶條件的。比如在用戶數(shù)量方面有一個(gè)上限，如果你超過(guò)了幾百萬(wàn)用戶，就必須向Meta之類的公司報(bào)告財(cái)務(wù)狀況。雖然它是免費(fèi)模型，但確實(shí)存在束縛。人們更喜歡沒(méi)有束縛的東西。除了性能之外，這也是為什么來(lái)自中國(guó)的開(kāi)源權(quán)重模型如此受歡迎的原因之一：你可以直接使用它們，沒(méi)有任何陷阱。

Nathan Lambert：在這方面，生態(tài)系統(tǒng)已經(jīng)變得更好了。當(dāng)你打開(kāi)Perplexity并看到它顯示“在美國(guó)托管的Kimi-K2 Thinking”時(shí)，這真的很有趣。這正是我們所討論的現(xiàn)象。Kimi-K2是一款非常受歡迎的模型，人們?cè)u(píng)價(jià)它在創(chuàng)意寫作以及處理軟件方面表現(xiàn)出色。這些就是人們?cè)诓煌Ｐ椭邪l(fā)現(xiàn)并喜愛(ài)的細(xì)微特質(zhì)。

Lex Fridman：那么，在這些模型探索過(guò)的想法中，有哪些是你覺(jué)得特別有趣、值得聊聊的嗎？也許我們可以按時(shí)間順序來(lái)談。

Sebastian Raschka：首先當(dāng)然是DeepSeek。如果我們聚焦2025年，R1其實(shí)是基于前一年（2024年12月）發(fā)布的DeepSeek V3。

在架構(gòu)方面，令人著迷的是，你仍然可以像我在《從零開(kāi)始構(gòu)建LLM》項(xiàng)目中做的那樣，從GPT-2開(kāi)始，通過(guò)添加組件將其轉(zhuǎn)化為另一個(gè)模型。它們之間有著非常緊密的血脈聯(lián)系。DeepSeek的獨(dú)特之處在于混合專家模型（MoE）——當(dāng)然，并不是他們發(fā)明了MoE，我們稍后可以詳細(xì)聊聊MoE具體意味著什么。除了MoE，他們還采用了多頭潛在注意力（Multi-head Latent Attention, MLA），這是對(duì)注意力機(jī)制的一種改進(jìn)。

我想說(shuō)，在2025年，這些權(quán)重開(kāi)放模型之間的主要區(qū)別因素在于針對(duì)推理或KV緩存（KV cache）大小所做的各種微調(diào)。其目的主要是為了讓長(zhǎng)上下文的成本更低，通過(guò)縮小KV緩存的體積來(lái)實(shí)現(xiàn)。

我們可以做哪些調(diào)整？大部分集中在注意力機(jī)制上。DeepSeek使用了多頭潛在注意力。還有一種“分組查詢注意力（Group Query Attention, GQA）”，目前仍然非常流行，這也不是新發(fā)明的。OLMo-3使用了滑動(dòng)窗口注意力（Sliding Window Attention）。這些不同的微調(diào)使得模型各不相同。但我曾把它們?nèi)糠旁谝黄恼吕镞M(jìn)行過(guò)對(duì)比，發(fā)現(xiàn)它們驚人地相似。只是在中間層有多少次Transformer塊的重復(fù)等數(shù)字上有所不同。這就像是微調(diào)了一些小旋鈕，但無(wú)論如何它都能奏效。你可以移動(dòng)歸一化層來(lái)獲得性能提升。OLMo在消融實(shí)驗(yàn)（Ablation Studies）中展示了移動(dòng)組件對(duì)模型的具體影響。

實(shí)現(xiàn)Transformer并使其保持運(yùn)行的方法有很多。目前盛行的大思路包括MoE、MLA、滑動(dòng)窗口注意力以及GQA。到了年底，研究重點(diǎn)轉(zhuǎn)向了使注意力機(jī)制能夠隨推理Token數(shù)量線性擴(kuò)展。例如Qwen2.5-1M增加了一個(gè)門控Delta網(wǎng)絡(luò)（Gated Delta Net），有點(diǎn)像受到了狀態(tài)空間模型（SSM）的啟發(fā)，本質(zhì)上是用一種更廉價(jià)的操作取代了昂貴的注意力機(jī)制。

5、Transformers：2019 年以來(lái) LLMs 的演進(jìn)

Lex Fridman：也許退一步來(lái)談?wù)凾ransformer架構(gòu)的總體情況會(huì)很有幫助。

Sebastian Raschka：好的，也許我們應(yīng)該從GPT-2架構(gòu)開(kāi)始。Transformer源自《Attention Is All You Need》這篇論文，原始架構(gòu)包含編碼器（Encoder）和解碼器（Decoder）。而GPT只專注于解碼器部分。它本質(zhì)上仍然是一個(gè)神經(jīng)網(wǎng)絡(luò)，內(nèi)部包含注意力機(jī)制。你一次預(yù)測(cè)一個(gè)Token。將其通過(guò)一個(gè)嵌入層（Embedding Layer），接著是Transformer塊（包含注意力模塊和全連接層），中間還有一些歸一化層。

從GPT-2發(fā)展到現(xiàn)在，出現(xiàn)了例如混合專家（MoE）層。MoE并不是新發(fā)明的，其核心思想是在不增加每次前向傳播算力消耗的情況下，使模型參數(shù)總量變大。

在Transformer內(nèi)部有一個(gè)全連接層（可以想象成微型多層感知器MLP），它非常昂貴，因?yàn)樗侨B接的。如果你有一千個(gè)輸入、一千個(gè)輸出，那就是一百萬(wàn)個(gè)連接。MoE的想法是將這個(gè)全連接層擴(kuò)展為多個(gè)前饋網(wǎng)絡(luò)。假設(shè)你有256個(gè)這樣的網(wǎng)絡(luò)（專家），但你不會(huì)同時(shí)使用所有的。你有一個(gè)路由器（Router），它會(huì)根據(jù)輸入Token決定：“好的，使用這個(gè)專家網(wǎng)絡(luò)會(huì)很有用。”

這就叫混合專家。根據(jù)輸入內(nèi)容，比如是數(shù)學(xué)密集型任務(wù)，還是英譯西任務(wù)，它可能會(huì)咨詢不同的專家。當(dāng)然，這種分工并不像“數(shù)學(xué)專家”或“語(yǔ)言專家”那樣界限分明，它是一個(gè)更模糊的概念。但其核心思想是你把更多知識(shí)封裝進(jìn)了網(wǎng)絡(luò)，但并非所有知識(shí)都會(huì)被時(shí)刻調(diào)用，因?yàn)槟菢犹速M(fèi)了。在Token生成過(guò)程中，路由器會(huì)有選擇性地分配任務(wù)。這增加了復(fù)雜性和訓(xùn)練難度，有很多環(huán)節(jié)可能出錯(cuò)。這可能也是為什么OLMo-3仍然使用稠密（Dense）模型的原因。稠密是指只有一個(gè)全連接模塊，并且始終被利用；而MoE被稱為稀疏（Sparse），因?yàn)橹挥胁糠謱＜沂腔钴S的。

Lex Fridman：從根本上說(shuō)，從GPT-2到現(xiàn)在，有多少新想法被實(shí)現(xiàn)了？比如，這些架構(gòu)之間到底有多大區(qū)別？

Sebastian Raschka：想象一下GPT-OSS中的分組查詢注意力（GQA），它只是從多頭注意力（MHA）微調(diào)而來(lái)的�；蛘咚麄儼袻ayerNorm換成了RMSNorm，但這只是一種不同的歸一化方式。非線性激活函數(shù)從Sigmoid換成ReLU，這也并沒(méi)有從根本上改變網(wǎng)絡(luò)。

這只是微調(diào)，做了一點(diǎn)點(diǎn)調(diào)整。我會(huì)說(shuō)，它在本質(zhì)上并沒(méi)有那么大的不同，仍然是相同的架構(gòu)。你可以通過(guò)添加這些改動(dòng)，從一個(gè)模型演進(jìn)到另一個(gè)。例如，我那本書(shū)里用的是GPT-2模型（約1.2億參數(shù)），但在獎(jiǎng)勵(lì)材料中，我?guī)缀鯊牧汩_(kāi)始構(gòu)建了Gemma 3.0。我總是從GPT-2模型開(kāi)始，然后調(diào)整組件，就能從一個(gè)模型演進(jìn)到另一個(gè)。從某種意義上說(shuō)，這是一種傳承。

Lex Fridman：這真的很有意思。當(dāng)你退一步審視，你會(huì)發(fā)現(xiàn)AI領(lǐng)域的發(fā)展如此迅猛，但與此同時(shí)，從根本上講，架構(gòu)并沒(méi)有發(fā)生翻天覆地的改變。那么，這種劇烈變革和進(jìn)步的動(dòng)能究竟源自何處？收益究竟在哪里？

Sebastian Raschka：在開(kāi)發(fā)或訓(xùn)練網(wǎng)絡(luò)的過(guò)程中存在不同的階段。在過(guò)去GPT-2的時(shí)代，只有預(yù)訓(xùn)練（Pre-training）。而現(xiàn)在，我們有了預(yù)訓(xùn)練、中訓(xùn)（Mid-training）和后訓(xùn)練（Post-training）。所以我認(rèn)為，我們目前正處于“后訓(xùn)練聚焦”階段。當(dāng)然，如果你能利用更好、更高質(zhì)量的數(shù)據(jù)進(jìn)行擴(kuò)展，預(yù)訓(xùn)練仍然會(huì)帶來(lái)優(yōu)勢(shì)。

但是，我們現(xiàn)在擁有了GPT-2所不具備的能力解鎖。例如ChatGPT，它本質(zhì)上是一個(gè)GPT-3模型。就架構(gòu)而言，GPT-3與GPT-2是相同的。新的突破在于增加了有監(jiān)督微調(diào)（SFT）以及人類反饋強(qiáng)化學(xué)習(xí)（RLHF）。所以這更多是算法層面的改進(jìn)，而非架構(gòu)層面的變革。

Nathan Lambert：我認(rèn)為系統(tǒng)層面也發(fā)生了很大變化。如果你關(guān)注過(guò)Nvidia的發(fā)布會(huì)，他們會(huì)提到諸如“現(xiàn)在支持FP8，支持FP4”之類的技術(shù)。這些實(shí)驗(yàn)室正在研究如何將更多的算力投入到單個(gè)模型中，這讓他們能夠訓(xùn)練得更快，從而輸入更多數(shù)據(jù)。通過(guò)這種方式，你可以更快地找到更優(yōu)的配置。

沒(méi)錯(cuò)，本質(zhì)上“每GPU每秒處理的Token數(shù)”是你進(jìn)行大規(guī)模訓(xùn)練時(shí)關(guān)注的核心指標(biāo)。通過(guò)開(kāi)啟FP8訓(xùn)練，性能可以從10K提升到13K左右。這意味著模型中每個(gè)參數(shù)占用的內(nèi)存更少，通信開(kāi)銷降低，從而實(shí)現(xiàn)更快的訓(xùn)練速度。所有這些系統(tǒng)層面的優(yōu)化，支撐了數(shù)據(jù)和算法上更快速的實(shí)驗(yàn)迭代。

這就是一個(gè)不斷循環(huán)的過(guò)程。當(dāng)你觀察它們的架構(gòu)時(shí)，很難描述清楚，因?yàn)樗鼈兛雌饋?lái)幾乎一樣，但訓(xùn)練這些模型的代碼庫(kù)卻截然不同。比如訓(xùn)練GPT-OSS 20B的實(shí)際用時(shí)比當(dāng)年訓(xùn)練GPT-2要快得多。在混合專家模型（MoE）中，他們采用了FP4優(yōu)化，從而獲得了更高的吞吐量。但這并沒(méi)有賦予模型新的“能力”，這僅僅關(guān)乎我們能在多大程度上使計(jì)算變得更粗粒度，而不導(dǎo)致模型性能下降。

目前Transformer架構(gòu)的替代方案正在涌現(xiàn)，比如文本擴(kuò)散模型（Text Diffusion Models）或Mamba這種狀態(tài)空間模型（SSM）。但它們都存在權(quán)衡，事實(shí)是目前還沒(méi)有任何東西能取代自回歸Transformer作為SOTA（最先進(jìn)）模型的地位。所以對(duì)于追求最先進(jìn)性能而言，你仍然會(huì)選擇它。

6、AI Scaling Laws：它們已經(jīng)失效還是依然成立？

Lex Fridman：我想這里的大問(wèn)題是，規(guī)模定律（Scaling Laws）在預(yù)訓(xùn)練、后訓(xùn)練、推理、上下文長(zhǎng)度、數(shù)據(jù)以及合成數(shù)據(jù)方面是否依然穩(wěn)固？

Nathan Lambert：我想先從規(guī)模定律的技術(shù)定義開(kāi)始。它本質(zhì)上是一種冪律關(guān)系，你可以將X軸視為算力和數(shù)據(jù)的結(jié)合，而Y軸是對(duì)下一個(gè)Token的留出預(yù)測(cè)準(zhǔn)確率。人們發(fā)現(xiàn)這是一種非�？深A(yù)測(cè)的關(guān)系，我認(rèn)為這一技術(shù)趨勢(shì)仍在繼續(xù)。

現(xiàn)在的維度更加豐富了。OpenAI的o1引入了推理時(shí)擴(kuò)展（Inference Time Scaling）。此外，你還可以通過(guò)擴(kuò)展強(qiáng)化學(xué)習(xí)（RL）訓(xùn)練來(lái)獲得性能提升。所以目前存在三個(gè)維度：

傳統(tǒng)規(guī)模定律：即模型規(guī)模和數(shù)據(jù)集規(guī)模。

強(qiáng)化學(xué)習(xí)規(guī)模：即你可以進(jìn)行多長(zhǎng)時(shí)間的試錯(cuò)學(xué)習(xí)。

推理側(cè)算力：即讓模型針對(duì)特定問(wèn)題生成更多的思維鏈Token。

我對(duì)這三者都持看好態(tài)度。過(guò)去一年在強(qiáng)化學(xué)習(xí)方面（特別是可驗(yàn)證獎(jiǎng)勵(lì)學(xué)習(xí)，即RLVR）以及推理側(cè)擴(kuò)展方面已經(jīng)達(dá)成了很多容易實(shí)現(xiàn)的目標(biāo)。這就是為什么現(xiàn)在的模型使用起來(lái)感覺(jué)如此不同：以前你會(huì)立即得到第一個(gè)Token，而現(xiàn)在它們?cè)诮o出回答前會(huì)思考幾秒鐘甚至幾小時(shí)，生成隱藏的思維鏈。這在模型能力變化方面簡(jiǎn)直是一種美妙的階躍函數(shù)。

這種能力幾乎完全源自于通過(guò)可驗(yàn)證獎(jiǎng)勵(lì)進(jìn)行的強(qiáng)化學(xué)習(xí)訓(xùn)練。當(dāng)你觀察模型生成大量Token時(shí)的推理過(guò)程，你會(huì)發(fā)現(xiàn)它經(jīng)常在嘗試：調(diào)用一個(gè)工具，查看結(jié)果；再嘗試另一個(gè)API，查看結(jié)果。模型很快就能學(xué)會(huì)執(zhí)行這些操作，這為模型在代碼庫(kù)中使用CLI命令、處理Git、整理文件等提供了通用基礎(chǔ)。

Lex Fridman：你提到你基本上看好每一種形式的Scaling。那么關(guān)于預(yù)訓(xùn)練，我們是否在暗示預(yù)訓(xùn)練規(guī)模化中那些“唾手可得的果實(shí)”已經(jīng)被采摘殆盡了？預(yù)訓(xùn)練是否遇到了瓶頸，還是你依然看好它？

Nathan Lambert：預(yù)訓(xùn)練已經(jīng)變得極其昂貴。要擴(kuò)大預(yù)訓(xùn)練規(guī)模，意味著你要提供一個(gè)非常龐大的模型。目前業(yè)內(nèi)共識(shí)是，像GPT-4這一代模型的大小大約在萬(wàn)億參數(shù)量級(jí)。其實(shí)隨著訓(xùn)練效率的提高，你會(huì)希望把模型做小，因?yàn)檫@樣提供服務(wù)的成本會(huì)成比例下降。

相對(duì)于向數(shù)億用戶提供服務(wù)的成本來(lái)說(shuō)，訓(xùn)練成本其實(shí)是非常低的。DeepSeek有一個(gè)著名的數(shù)據(jù)，按云市場(chǎng)價(jià)格計(jì)算，預(yù)訓(xùn)練費(fèi)用約為500萬(wàn)美元。在我們剛剛發(fā)布的OLMo 3論文中詳細(xì)說(shuō)明了，包括工程調(diào)試、實(shí)驗(yàn)和集群閑置在內(nèi)，訓(xùn)練一個(gè)模型大約花費(fèi)了200萬(wàn)美元。很多人都能籌到幾百萬(wàn)美元來(lái)訓(xùn)練模型，但為數(shù)百萬(wàn)用戶提供服務(wù)的持續(xù)成本需要耗費(fèi)價(jià)值數(shù)十億美元的算力。

問(wèn)題在于，如果擴(kuò)展規(guī)模確實(shí)能帶來(lái)更好的模型，它在財(cái)務(wù)上是否值得？我認(rèn)為隨著AI解決更多引人注目的任務(wù)，市場(chǎng)會(huì)推動(dòng)這一點(diǎn)。比如Claude 3.5 Opus與之前的模型相比，徹底解決了我在七月份構(gòu)建項(xiàng)目時(shí)遇到的問(wèn)題。所以進(jìn)步仍在繼續(xù)。

Lex Fridman：所以你的直覺(jué)是，如果不考慮財(cái)務(wù)可行性，僅僅從定律的角度來(lái)看，如果擴(kuò)展計(jì)算規(guī)模，模型會(huì)變得更聰明嗎？

Nathan Lambert：是的。雖然這聽(tīng)起來(lái)像是對(duì)AI公司領(lǐng)導(dǎo)層的盲目信任，但這一規(guī)律已經(jīng)支撐了13個(gè)數(shù)量級(jí)的算力增長(zhǎng)，不太可能突然停止。只是最終我們可能無(wú)法測(cè)試更大的規(guī)模，因?yàn)橐?guī)模越大帶來(lái)的算力問(wèn)題越多。

現(xiàn)在大家都在討論2026年，屆時(shí)超大規(guī)模云服務(wù)商將投入運(yùn)營(yíng)吉瓦（Gigawatt）級(jí)規(guī)模的Blackwell算力集群。這些電力和數(shù)據(jù)中心合同都是在ChatGPT發(fā)布前后簽署的，建設(shè)周期需要兩三年。實(shí)驗(yàn)室將擁有更多的算力用于訓(xùn)練，這是一個(gè)既定事實(shí)。我預(yù)計(jì)我們會(huì)看到訂閱服務(wù)價(jià)格上漲，比如出現(xiàn)2000美元的訂閱服務(wù)，這都源于更大一點(diǎn)的模型所提供的技術(shù)優(yōu)勢(shì)。

Lex Fridman：據(jù)報(bào)道xAI將在2026年初達(dá)到1吉瓦規(guī)模，并在年底達(dá)到2吉瓦。你認(rèn)為他們會(huì)在規(guī)模定律的背景下如何利用這些資源？很大一部分是推理嗎？還是訓(xùn)練？

Nathan Lambert：結(jié)果證明是“以上所有”。你在訓(xùn)練模型時(shí)做出的所有決策最終都會(huì)回到預(yù)訓(xùn)練。即使你打算擴(kuò)展RL，你也需要決定能夠?qū)崿F(xiàn)這一點(diǎn)的架構(gòu)。比如我們討論的混合專家模型（MoE），其稀疏特性使得生成效率大大提高，這已成為后訓(xùn)練的重要組成部分。

但我認(rèn)為大多數(shù)算力仍然正投入到預(yù)訓(xùn)練階段，因?yàn)槟闳匀幌Ｍ麚碛斜M可能最好的基礎(chǔ)模型。幾年后這可能會(huì)達(dá)到飽和，屆時(shí)RL算力投入的比例將會(huì)變大。

Lex Fridman：是否有人不同意你的觀點(diǎn)，認(rèn)為預(yù)訓(xùn)練基本上已經(jīng)過(guò)時(shí)了？認(rèn)為現(xiàn)在的重點(diǎn)全在于推理擴(kuò)展、后訓(xùn)練擴(kuò)展、上下文擴(kuò)展以及合成數(shù)據(jù)？

Nathan Lambert：人們普遍有這種感覺(jué)，但我認(rèn)為實(shí)際情況并非如此。那種“預(yù)訓(xùn)練已死”的論調(diào)只是因?yàn)榕d奮點(diǎn)轉(zhuǎn)移到了別處。

以我們?cè)?1月發(fā)布的模型為例，如果不算預(yù)訓(xùn)練，僅僅做后訓(xùn)練就花了五天時(shí)間，這對(duì)于一個(gè)300億參數(shù)的模型來(lái)說(shuō)是很長(zhǎng)的。到了12月，我們又讓強(qiáng)化學(xué)習(xí)運(yùn)行了三周半，模型變得顯著更好。把這么長(zhǎng)的時(shí)間分配給后訓(xùn)練是前所未有的。

但這并不意味著預(yù)訓(xùn)練被遺棄了。這是一種循環(huán)：你重新進(jìn)行預(yù)訓(xùn)練，然后進(jìn)行一個(gè)月的后訓(xùn)練，接著進(jìn)行安全性測(cè)試發(fā)布給用戶�？傆锌梢愿倪M(jìn)的地方。當(dāng)你使用10萬(wàn)塊GPU進(jìn)行大規(guī)模預(yù)訓(xùn)練時(shí)，你會(huì)遇到截然不同的故障，幾乎肯定隨時(shí)至少有一塊GPU是宕機(jī)的。你需要讓訓(xùn)練代碼能夠處理這種冗余，這完全是另一回事。

當(dāng)我們轉(zhuǎn)向強(qiáng)化學(xué)習(xí)時(shí)，它非常適合異構(gòu)計(jì)算。簡(jiǎn)要介紹一下語(yǔ)言模型的強(qiáng)化學(xué)習(xí)：你需要準(zhǔn)備兩組GPU。一組是Actor（執(zhí)行者），負(fù)責(zé)生成內(nèi)容；另一組是Learner（學(xué)習(xí)者），負(fù)責(zé)實(shí)際的策略梯度更新（如PPO或GRPO算法）。你可以讓分布在世界各地的許多不同Actor處理問(wèn)題，將結(jié)果發(fā)回給Learner進(jìn)行評(píng)分和學(xué)習(xí)。

至于推理側(cè)擴(kuò)展，問(wèn)題變成了：你如何向1億用戶提供一個(gè)需要思考一小時(shí)的模型服務(wù)？這背后存在巨大的系統(tǒng)性挑戰(zhàn)。

Lex Fridman：但我聽(tīng)下來(lái)，你對(duì)所有這些維度的擴(kuò)展都持樂(lè)觀態(tài)度。無(wú)論是推理、邏輯推理，還是預(yù)訓(xùn)練？

Sebastian Raschka：是的。在一個(gè)假設(shè)擁有無(wú)限計(jì)算資源的世界里，你會(huì)想要全面發(fā)力：預(yù)訓(xùn)練、中訓(xùn)、后訓(xùn)練、推理擴(kuò)展全部拉滿。更大的模型會(huì)賦予模型更多的知識(shí)。

但是正如Nathan所說(shuō)，預(yù)訓(xùn)練變得太昂貴了。我們沒(méi)有無(wú)限的算力，所以必須進(jìn)行權(quán)衡。如果你把錢花在預(yù)訓(xùn)練上，這是一項(xiàng)固定成本，模型訓(xùn)練好后就永久擁有了這種能力。而對(duì)于推理側(cè)擴(kuò)展，你是為單次查詢付費(fèi)。

這就變成了一筆賬：如果我的模型半年后就會(huì)被替換，也許花1億美元去訓(xùn)練更大的模型并不值得，不如花200萬(wàn)美元做推理側(cè)擴(kuò)展來(lái)獲得同等的性能提升。這就是ChatGPT現(xiàn)在的策略，他們擁有海量用戶，所以選擇了一條更具性價(jià)比的路線，可能使用了一個(gè)稍微小一點(diǎn)的GPT-5模型配合推理擴(kuò)展。

但在某些特定任務(wù)（如奧數(shù)）中，你可能需要巔峰性能�？偠灾�，我認(rèn)為預(yù)訓(xùn)練、中訓(xùn)、后訓(xùn)練以及推理側(cè)擴(kuò)展都是必須做的，關(guān)鍵在于找到合適的比例以獲得最高的性價(jià)比。

7、AI是如何訓(xùn)練的：Pre-training、Mid-training 和 Post-training

Lex Fridman：我認(rèn)為這里可能是定義預(yù)訓(xùn)練、中訓(xùn)和后訓(xùn)練的好地方。

Sebastian Raschka：預(yù)訓(xùn)練（Pre-training）是經(jīng)典的訓(xùn)練方式，即在海量的互聯(lián)網(wǎng)數(shù)據(jù)、書(shū)籍、論文等語(yǔ)料庫(kù)上，針對(duì)交叉熵?fù)p失進(jìn)行“預(yù)測(cè)下一個(gè)Token”的訓(xùn)練。現(xiàn)在的變化在于，不再僅僅是原始數(shù)據(jù)，還包括合成數(shù)據(jù)。合成數(shù)據(jù)并不一定意味著純粹由AI虛構(gòu)，它也包括從文章中提取內(nèi)容并改寫為高質(zhì)量的問(wèn)答或總結(jié)。這就像人類學(xué)習(xí)：讀一本結(jié)構(gòu)清晰的書(shū)比看亂七八糟的Reddit帖子學(xué)得更快。高質(zhì)量數(shù)據(jù)能讓LLM訓(xùn)練得更快、更準(zhǔn)確。

中訓(xùn)（Mid-training）以前其實(shí)也被統(tǒng)稱為預(yù)訓(xùn)練。被稱為中訓(xùn)是因?yàn)樗橛陬A(yù)訓(xùn)練和后訓(xùn)練之間。它本質(zhì)上還是預(yù)訓(xùn)練，但更加專業(yè)化。例如，你在預(yù)訓(xùn)練階段沒(méi)有那么多的長(zhǎng)上下文文檔，所以你會(huì)設(shè)立一個(gè)特定的階段來(lái)專門訓(xùn)練長(zhǎng)上下文能力。

這就涉及到LLM的一個(gè)問(wèn)題：它是神經(jīng)網(wǎng)絡(luò)，存在“災(zāi)難性遺忘”。你教它新東西，它就會(huì)忘記舊東西。這就像天下沒(méi)有免費(fèi)的午餐。

Lex Fridman：Nathan剛才實(shí)際上是在說(shuō)他攝取了太多的內(nèi)容，以至于出現(xiàn)了一種災(zāi)難性的遺忘問(wèn)題。

Sebastian Raschka：是的。我試著學(xué)習(xí)關(guān)于AI的一切，感覺(jué)就像我正在學(xué)習(xí)預(yù)訓(xùn)練并行性時(shí)，腦子里丟掉了一些東西，但我甚至不知道丟掉的是什么。

雖然我不想將LLM（大語(yǔ)言模型）擬人化，但在某種意義上，這和人類學(xué)習(xí)的方式是一樣的。數(shù)量并不總是越大越好，這就涉及篩選機(jī)制。Mid-training（中期訓(xùn)練）階段就是針對(duì)高質(zhì)量?jī)?nèi)容進(jìn)行最終篩選，確保模型最后接觸到的是最優(yōu)質(zhì)的素材。隨后的Post-training（后訓(xùn)練）包含了所有的微調(diào)、監(jiān)督微調(diào)以及帶有可驗(yàn)證獎(jiǎng)勵(lì)的DPO強(qiáng)化學(xué)習(xí)。

通過(guò)人類反饋等方式進(jìn)行的微調(diào)階段非常有趣，這也涉及到成本問(wèn)題。我們?cè)陬A(yù)訓(xùn)練上投入了巨資，相比之下強(qiáng)化學(xué)習(xí)（RL）的作用稍小一些。我認(rèn)為RL并不真正教給模型知識(shí)，它更像是解鎖知識(shí)，是一種技能學(xué)習(xí)，教模型如何利用預(yù)訓(xùn)練中獲得的知識(shí)來(lái)解決問(wèn)題。雖然去年有幾篇關(guān)于將RL用于預(yù)訓(xùn)練的論文，但這目前還停留在玩具級(jí)示例階段，沒(méi)有人在生產(chǎn)環(huán)境中使用。泛化RL后訓(xùn)練更像是技能解鎖，而預(yù)訓(xùn)練本質(zhì)上是吸收知識(shí)。

Nathan Lambert：關(guān)于合成數(shù)據(jù)，很多人誤以為它對(duì)模型訓(xùn)練不利。實(shí)際上，像DeepSeek和AI2等實(shí)驗(yàn)室都在做這方面的工作。比如OCR（光學(xué)字符識(shí)別）技術(shù)，因?yàn)榫W(wǎng)絡(luò)上存在大量PDF和數(shù)字文檔，其格式難以進(jìn)行文本編碼。DeepSeek通過(guò)OCR提取了數(shù)萬(wàn)億用于預(yù)訓(xùn)練的候選數(shù)據(jù)Token。預(yù)訓(xùn)練數(shù)據(jù)集的規(guī)模通常以萬(wàn)億級(jí)Token衡量，研究人員的小模型大約在5到10萬(wàn)億，Qwen達(dá)到了50萬(wàn)億，有傳言稱閉源實(shí)驗(yàn)室甚至達(dá)到100萬(wàn)億。我們通過(guò)巨大的漏斗篩選出極小部分的數(shù)據(jù)用于實(shí)際訓(xùn)練。此外，利用像ChatGPT生成的高質(zhì)量回答進(jìn)行訓(xùn)練，也屬于合成數(shù)據(jù)的一種，這與早期模型產(chǎn)生幻覺(jué)的數(shù)據(jù)截然不同。

以O(shè)LMo-3為例，盡管其訓(xùn)練數(shù)據(jù)量少于一些開(kāi)放權(quán)重模型，甚至可能少于OLMo-2，但性能卻更優(yōu)，這主要?dú)w功于數(shù)據(jù)質(zhì)量。當(dāng)然，如果我們有更多算力，肯定會(huì)訓(xùn)練更長(zhǎng)時(shí)間。對(duì)于大模型而言，增加參數(shù)量和吸收更多數(shù)據(jù)是必然趨勢(shì)。目前的對(duì)數(shù)圖表顯示，小模型會(huì)更早進(jìn)入瓶頸期，而大模型能從海量數(shù)據(jù)中獲益更多。但在目前的模型規(guī)模下，獲取最高質(zhì)量數(shù)據(jù)是我們的自然起點(diǎn)。

Lex Fridman：關(guān)于數(shù)據(jù)質(zhì)量，是否還有一些唾手可得的機(jī)會(huì)可以進(jìn)一步提升它？

Nathan Lambert：這需要按部就班地推進(jìn)。開(kāi)源界一直有公認(rèn)的最佳預(yù)訓(xùn)練數(shù)據(jù)集，但隨著新數(shù)據(jù)集發(fā)布，這個(gè)地位會(huì)不斷更迭。比如AI2的Dolmo、Hugging Face的FineWeb以及DCLM項(xiàng)目。以前語(yǔ)言模型主要測(cè)試知識(shí)和對(duì)話能力，現(xiàn)在則要求處理數(shù)學(xué)和代碼。因此，訓(xùn)練推理模型需要重新混合整個(gè)數(shù)據(jù)集。這涉及精妙的科學(xué)方法：從GitHub、Stack Exchange、Reddit、維基百科等來(lái)源提取小樣本，針對(duì)不同配比訓(xùn)練小模型并評(píng)估，最后通過(guò)線性回歸得出最優(yōu)數(shù)據(jù)集配比。OLMo-3正是引入了新數(shù)據(jù)源來(lái)提升推理能力。隨著編程環(huán)境或網(wǎng)頁(yè)導(dǎo)航等新熱門領(lǐng)域的出現(xiàn)，你需要不斷引入新數(shù)據(jù)并更改預(yù)訓(xùn)練過(guò)程。

Lex Fridman：有什么出乎意料的高質(zhì)量數(shù)據(jù)源嗎？你提到過(guò)Reddit。

Nathan Lambert：Reddit確實(shí)非常有用。此外PDF也是重要來(lái)源，特別是arXiv。AI2運(yùn)營(yíng)Semantic Scholar很久了，它是Google Scholar的強(qiáng)力競(jìng)品。我們抓取了大量公開(kāi)訪問(wèn)的論文PDF，這些是真正的開(kāi)放科學(xué)資源。前沿實(shí)驗(yàn)室在數(shù)據(jù)清洗和處理上早就投入了大量工作�，F(xiàn)在的趨勢(shì)是，如果你想在AI領(lǐng)域產(chǎn)生影響力，與其研究花哨的算法（如O1或擴(kuò)展RL），不如致力于挖掘新數(shù)據(jù)或優(yōu)化基礎(chǔ)設(shè)施。

與此同時(shí)，出于法律原因，訓(xùn)練數(shù)據(jù)的具體構(gòu)成是目前守得最嚴(yán)的秘密之一，各方都在試圖隱藏?cái)?shù)據(jù)來(lái)源以防止泄露。有些人嘗試僅使用授權(quán)數(shù)據(jù)訓(xùn)練，以符合歐盟的合規(guī)性要求。而像Common Crawl這種對(duì)整個(gè)互聯(lián)網(wǎng)的抓取，很大程度上是未經(jīng)明確授權(quán)的。

Sebastian Raschka：這里存在許可方面的區(qū)別。正如你所說(shuō)，有些公司購(gòu)買了Amazon Kindle或Manning出版社的電子書(shū)用于訓(xùn)練，但這處于灰色地帶，因?yàn)榧幢愀顿M(fèi)購(gòu)買，用于訓(xùn)練可能仍受限制。OpenAI等巨頭也開(kāi)始接觸私營(yíng)企業(yè)獲取專有數(shù)據(jù)，而企業(yè)為了建立護(hù)城河也更加注重保護(hù)數(shù)據(jù)。未來(lái)，制藥、法律、金融等行業(yè)可能會(huì)利用專有數(shù)據(jù)構(gòu)建內(nèi)部模型，實(shí)現(xiàn)目前無(wú)法達(dá)到的預(yù)訓(xùn)練突破。目前的通用LLM還沒(méi)觸及針對(duì)特定任務(wù)訓(xùn)練后所能發(fā)揮潛力的皮毛。

Nathan Lambert：提到數(shù)據(jù)版權(quán)，Anthropic在2025年輸?shù)袅艘粓?chǎng)官司，欠了作者15億美元。他們雖然購(gòu)買了數(shù)千本書(shū)進(jìn)行掃描（這是合法的），但也通過(guò)種子下載了書(shū)籍，正是這種下載行為導(dǎo)致法院判決巨額賠償。

Lex Fridman：這些法庭案件將定義人類文明的未來(lái)。你們兩位都是作家，當(dāng)傾注心血的作品被不加署名地用于訓(xùn)練時(shí)，感覺(jué)就像是偷竊。

Sebastian Raschka：正如Nathan所說(shuō)，這包含兩個(gè)層面。一種是購(gòu)買書(shū)籍后訓(xùn)練的公平性爭(zhēng)議，另一種是三家大公司直接使用盜版書(shū)籍且不給補(bǔ)償，后者正是讓人憤怒的癥結(jié)所在。我們需要建立某種類似Spotify流媒體模式的補(bǔ)償機(jī)制。

Lex Fridman：還有一件事，隨著LLM應(yīng)用越來(lái)越廣泛，GitHub上越來(lái)越多的代碼是由LLM生成的。這種情況有多嚴(yán)重？

Nathan Lambert：這是不可避免的。這基本上是由人類進(jìn)行篩選的LLM生成數(shù)據(jù)。

Sebastian Raschka：我有一個(gè)名為mlxtend的倉(cāng)庫(kù)，是學(xué)生時(shí)代開(kāi)發(fā)的，主要用于頻繁項(xiàng)集數(shù)據(jù)挖掘。最近有人在極短時(shí)間內(nèi)提交了大量PR（拉取請(qǐng)求），我確信這是LLM生成的。作為維護(hù)者，我感到有些應(yīng)接不暇，因?yàn)闆](méi)時(shí)間仔細(xì)審核。但同時(shí)我也表示贊賞，因?yàn)檫@畢竟經(jīng)過(guò)了人類的驗(yàn)證，類似于RLHF中的數(shù)據(jù)標(biāo)注過(guò)程。

Lex Fridman：感覺(jué)原始的LLM生成數(shù)據(jù)與有人類參與（human in the loop）驗(yàn)證的數(shù)據(jù)之間存在本質(zhì)區(qū)別。

Sebastian Raschka：是的，即便只有一小部分經(jīng)過(guò)驗(yàn)證，也是有價(jià)值的。這就像專家使用LLM編寫代碼并剔除糟糕部分，這種經(jīng)過(guò)“預(yù)消化”的信息能節(jié)省大家的時(shí)間。與其我自己花幾個(gè)小時(shí)去閱讀并可能產(chǎn)生誤解，不如獲取一份經(jīng)過(guò)專家篩選的執(zhí)行摘要。

Lex Fridman：這就很有意思了。我觀察到基于LLM的摘要往往會(huì)磨平原始內(nèi)容的棱角，這是否意味著信號(hào)的丟失？

Nathan Lambert：這就是我常說(shuō)的“聲音（Voice）”。我在寫作時(shí)嘗試將研究者認(rèn)知的感性直覺(jué)轉(zhuǎn)化為文字，這種粗放但高信息量的風(fēng)格正是研究的本質(zhì)。然而，經(jīng)過(guò)RLHF訓(xùn)練的模型旨在收集大量人類反饋并取平均值，這種過(guò)濾器導(dǎo)致模型難以表現(xiàn)得犀利，無(wú)法提取核心洞察。這已成為RLHF研究中的基礎(chǔ)性難題：它雖然提升了性能，但也扼殺了深層表達(dá)。

這也是非�？膳碌�，因?yàn)橛袛?shù)百萬(wàn)人正在使用這些產(chǎn)品。去年GPT-4o發(fā)布時(shí)，用戶甚至因?yàn)椴煊X(jué)到模型微小的變化而發(fā)郵件投訴，就像電影《Her》一樣，人們對(duì)模型產(chǎn)生了情感依賴。

Lex Fridman：但這同時(shí)也帶來(lái)了風(fēng)險(xiǎn)。如果人們因抑郁或有自殺傾向而向LLM傾訴，記者可能會(huì)報(bào)道將自殺事件與LLM聯(lián)系起來(lái)。這會(huì)導(dǎo)致公司出于法律考量進(jìn)一步削弱模型的鋒芒，使其變得盡可能平庸。

Nathan Lambert：確實(shí)如此。你既不希望LLM對(duì)人類造成傷害，又希望它能進(jìn)行豐富、有挑戰(zhàn)性的對(duì)話，這對(duì)于RLHF研究人員來(lái)說(shuō)是極難平衡的。Anthropic和OpenAI的研究人員在文化上都希望通過(guò)技術(shù)造福世界。但這確實(shí)是一種心理煎熬：一方面，這項(xiàng)技術(shù)可能成為推向極端、導(dǎo)致某人崩潰的誘因；另一方面，它也可能挽救其他人的生命。這需要極強(qiáng)的信念感，將其視為一個(gè)必須解決的艱巨難題來(lái)對(duì)待。

Lex Fridman：我們作為一個(gè)社會(huì)，作為技術(shù)用戶，必須確保關(guān)于AI的對(duì)話深入且復(fù)雜，而不是僅僅散布恐懼。比如指責(zé)科技巨頭正在傷害人類或竊取數(shù)據(jù)，情況其實(shí)要比這復(fù)雜得多。這些公司內(nèi)部有很多好人，其中很多你也認(rèn)識(shí)，他們真誠(chéng)地想幫助他人。他們不僅考慮硅谷，也在考慮全世界不同背景人們的需求。要設(shè)計(jì)一個(gè)能服務(wù)所有年齡層、文化背景和心理狀態(tài)的人的單一系統(tǒng)，確實(shí)非常困難。

Nathan Lambert：我希望AI出現(xiàn)的時(shí)機(jī)能有所不同，避開(kāi)目前科技巨頭與普通人之間的這種緊張關(guān)系�，F(xiàn)在看來(lái)，AI不可避免地成了大公司的游戲，因?yàn)橥度雽?shí)在太昂貴了。人們常說(shuō)美國(guó)正將經(jīng)濟(jì)押注在AI上，這使得溝通環(huán)境變得異常艱難。但我很喜歡你提到的“自主性”。與其因?yàn)橛憛捒萍季揞^而拒絕AI，甚至被動(dòng)消費(fèi)互聯(lián)網(wǎng)上泛濫的AI垃圾內(nèi)容，不如通過(guò)使用AI進(jìn)行構(gòu)建來(lái)獲得主動(dòng)權(quán)。建立直覺(jué)，理解它的運(yùn)作機(jī)制和弱點(diǎn)，這是一種賦能。這樣你就能更有底氣地評(píng)價(jià)：“這是對(duì)技術(shù)的錯(cuò)誤使用”或“這是良好的應(yīng)用”。作為深度融入系統(tǒng)的一員，你能比普通消費(fèi)者更好地引導(dǎo)它。

Sebastian Raschka：我覺(jué)得你提到的“自主性”這一點(diǎn)很好。與其忽視它，不如思考如何利用它提升自我。不過(guò)我也擔(dān)心，如果你完全用AI做你熱愛(ài)的事情，那份熱愛(ài)會(huì)不會(huì)消失？這可能會(huì)導(dǎo)致職業(yè)倦怠。舉個(gè)例子，如果我用LLM幫我完成所有的編碼工作，編碼過(guò)程本身就不存在了。我只是在管理一個(gè)幫我寫代碼的東西。假設(shè)兩年后，我每天八小時(shí)都只是在指揮AI編碼，我還會(huì)感到充實(shí)嗎？這是否會(huì)削弱我對(duì)工作的熱情，以及親手構(gòu)建事物的自豪感？

Lex Fridman：關(guān)于享受工作這點(diǎn)很有趣。最近有一項(xiàng)針對(duì)791名專業(yè)開(kāi)發(fā)者的調(diào)查，“專業(yè)”指的是擁有10年以上經(jīng)驗(yàn)的人。結(jié)果顯示，無(wú)論是初級(jí)還是高級(jí)開(kāi)發(fā)者，都在交付的代碼中使用了AI生成的內(nèi)容。更有趣的是，在那些超過(guò)50%代碼由AI生成的案例中，高級(jí)開(kāi)發(fā)者占比更高。至于這是否會(huì)奪走熱愛(ài)，大約80%的人表示，將AI作為工作的一部分讓他們感到更有趣，甚至樂(lè)趣顯著增加。

Sebastian Raschka：我認(rèn)為這取決于具體任務(wù)。比如調(diào)整網(wǎng)站細(xì)節(jié)這種瑣事我并不喜歡，如果AI能代勞，我完全支持。但在解決復(fù)雜問(wèn)題、追蹤并修復(fù)Bug時(shí)，那種成就感是無(wú)與倫比的。如果直接問(wèn)LLM，你就失去了這種樂(lè)趣。或許折中方案是先自己嘗試，卡住后再用LLM。正如你提到的例子，處理那種需要修復(fù)幾百個(gè)鏈接的枯燥工作，AI能消除挫敗感，表現(xiàn)非常出色。

Lex Fridman：對(duì)我來(lái)說(shuō)，編程的樂(lè)趣很大一部分在于代碼本身。你說(shuō)調(diào)試是一種樂(lè)趣，我會(huì)說(shuō)調(diào)試就像在沙漠跋涉數(shù)日后終于喝到一口水。你是跳過(guò)了在沙漠受苦的部分。如果有結(jié)對(duì)編程的伙伴，即便他不能直接找到Bug，但他提供的直覺(jué)能陪你一起走出沙漠。這也反映了編程過(guò)程中的孤獨(dú)感，而AI能扮演這個(gè)伙伴的角色。

Sebastian Raschka：這可能也與延遲滿足有關(guān)。就像小時(shí)候期待圣誕禮物往往比真正收到時(shí)更快樂(lè)，或者餓的時(shí)候吃飯更香。調(diào)試雖然令人沮喪，但解決后的感覺(jué)很棒。這里存在一個(gè)“金發(fā)姑娘原則”般的適度區(qū)間：太難是浪費(fèi)時(shí)間，太容易則學(xué)不到東西。資深開(kāi)發(fā)者使用AI生成的代碼更多，可能是因?yàn)樗麄冎廊绾胃咝褂貌彶榇a。未來(lái)的問(wèn)題是，如果從未親手從頭做起，初學(xué)者如何成為專家？如果不經(jīng)歷掙扎，就難以建立深刻的思維框架。也許我們需要每天專門抽出時(shí)間進(jìn)行不依賴AI的深度學(xué)習(xí)，而不是把所有事情都交給LLM。

8、Post-training 詳解：LLMs領(lǐng)域令人興奮的新研究方向

Lex Fridman：這確實(shí)是我們需要尋找的平衡點(diǎn)�，F(xiàn)在讓我們回到編程語(yǔ)境。剛才我們聊了預(yù)訓(xùn)練和中期訓(xùn)練，現(xiàn)在談?wù)労笥?xùn)練（post-training）。在這個(gè)階段有哪些有趣的思路？

Nathan Lambert：2025年最大的突破是學(xué)習(xí)帶有可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)（RLVR）。通過(guò)大量擴(kuò)展“生成-評(píng)分”的迭代循環(huán)，模型能學(xué)習(xí)工具調(diào)用和復(fù)雜的軟件行為。這種訓(xùn)練方式完美結(jié)合了推理時(shí)擴(kuò)展（inference time scaling），徹底改變了人們處理后訓(xùn)練的方式。

Lex Fridman：你能解釋一下由DeepSeek R1推廣的RLVR的工作原理嗎？

Nathan Lambert：有趣的是，RLVR這個(gè)術(shù)語(yǔ)源自我們?cè)贒eepSeek之前的Tulu 3研究。學(xué)術(shù)界往往擁有定義術(shù)語(yǔ)的話語(yǔ)權(quán)，因?yàn)榉忾]實(shí)驗(yàn)室透露的信息有限。DeepSeek實(shí)現(xiàn)了訓(xùn)練突破，擴(kuò)展了強(qiáng)化學(xué)習(xí)的應(yīng)用：讓模型生成答案，根據(jù)正確率評(píng)分，這個(gè)準(zhǔn)確率就是獎(jiǎng)勵(lì)。傳統(tǒng)RL是在環(huán)境中最大化獎(jiǎng)勵(lì)，而在語(yǔ)言模型中，獎(jiǎng)勵(lì)通常是數(shù)學(xué)或編程任務(wù)的準(zhǔn)確率�，F(xiàn)在這種可驗(yàn)證的邊界正擴(kuò)展到事實(shí)核查或特定格式約束。其核心是找到更多可驗(yàn)證的問(wèn)題讓模型嘗試�；A(chǔ)設(shè)施已從基于人類偏好的RLHF演變?yōu)獒槍?duì)客觀結(jié)果的優(yōu)化，這開(kāi)啟了模型能力的重大變革。

Lex Fridman：RLVR適用于哪些領(lǐng)域？

Nathan Lambert：最著名的是數(shù)學(xué)和代碼。此外還有基于“評(píng)分細(xì)則”（rubrics）的方法，即“LLM作為裁判”：用另一個(gè)模型根據(jù)準(zhǔn)則給生成的回答打分。雖然不如數(shù)學(xué)那樣絕對(duì)可驗(yàn)證，但這種思路正被推向更開(kāi)放的科學(xué)問(wèn)題領(lǐng)域。

Sebastian Raschka：回到RLVR，我覺(jué)得美妙之處在于，當(dāng)你給LLM一個(gè)已知答案的數(shù)學(xué)題并讓它求解時(shí)，即便不加太多約束，它也會(huì)像學(xué)生或數(shù)學(xué)家一樣展示推導(dǎo)步驟。這些步驟不僅提高了準(zhǔn)確性，還體現(xiàn)了“推理擴(kuò)展”，即通過(guò)消耗更多Token（思考更久）來(lái)?yè)Q取更好的結(jié)果。R1論文中提到了“頓悟時(shí)刻”，即模型意識(shí)到錯(cuò)誤并自我修正，表現(xiàn)得就像人類一樣，這非常有意思，也能建立用戶對(duì)模型的信任。

今年關(guān)于“頓悟時(shí)刻”有很多爭(zhēng)論。我認(rèn)為這在某種程度上是虛假的，因?yàn)轭A(yù)訓(xùn)練數(shù)據(jù)包含了整個(gè)互聯(lián)網(wǎng)，模型見(jiàn)過(guò)人類自我修正的文本。RLVR實(shí)際上是在放大這種有助于“思考”的行為。舉個(gè)實(shí)際例子，我在Math 500數(shù)據(jù)集上訓(xùn)練Qwen 3基座模型，僅用了50個(gè)步數(shù)，幾分鐘內(nèi)準(zhǔn)確率就從15%飆升到50%。這說(shuō)明模型并不是在幾分鐘內(nèi)學(xué)會(huì)了數(shù)學(xué)，而是RL解鎖了預(yù)訓(xùn)練中已有的知識(shí)。

Nathan Lambert：關(guān)于Qwen存在數(shù)據(jù)污染的爭(zhēng)議很大。比如把題目中的數(shù)字改掉但保留文字描述，在不使用工具的情況下，它依然能給出極高精度的答案，這暗示它在訓(xùn)練時(shí)見(jiàn)過(guò)測(cè)試題。因此，RLVR帶來(lái)的迅速提升可能部分歸因于格式化或記憶，而非真正的智力提升。除非我們?cè)谀Ｐ筒渴鸾刂谷掌诤蠼⑷碌幕鶞?zhǔn)測(cè)試，否則很難公平評(píng)估。

Lex Fridman：我們能否總結(jié)一下后訓(xùn)練（post-training）的“配方”？除了RLVR，RLHF還有什么作用？

Nathan Lambert：這可以看作是一個(gè)序列。首先是中期訓(xùn)練（mid-training），這是O1等推理模型的核心，需要極高質(zhì)量的“推理鏈”數(shù)據(jù)（將問(wèn)題分解為中間步驟），讓模型學(xué)會(huì)如何思考。

接下來(lái)是針對(duì)可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)（RL with Verifiable Rewards）。隨著模型變強(qiáng)，簡(jiǎn)單問(wèn)題已無(wú)法提供足夠的訓(xùn)練信號(hào)（比如GRPO算法在所有答案一致時(shí)就沒(méi)有信號(hào)），所以前沿模型正向科學(xué)或復(fù)雜軟件等更難的領(lǐng)域進(jìn)軍，通過(guò)大量試錯(cuò)來(lái)提升技能。

最后是人類反饋強(qiáng)化學(xué)習(xí)（RLHF）。這依然是必不可少的“點(diǎn)睛之筆”，用于調(diào)整模型的語(yǔ)氣、風(fēng)格和格式（比如生成易讀的Markdown列表），使其更實(shí)用、更符合人類交互習(xí)慣。雖然RLHF也能提升數(shù)學(xué)表現(xiàn)，但在可驗(yàn)證領(lǐng)域，RLVR是更直接的路徑。簡(jiǎn)而言之：中期訓(xùn)練賦予技能，RLVR通過(guò)試錯(cuò)深化能力，RLHF負(fù)責(zé)最后的潤(rùn)色與交互體驗(yàn)。

關(guān)于RLVR（基于驗(yàn)證的強(qiáng)化學(xué)習(xí)）所需的算力消耗，其熱度確實(shí)在持續(xù)攀升。OpenAI的Greg Brockman曾有一句名言，提到他們?cè)陬A(yù)訓(xùn)練（Pre-training）和后訓(xùn)練（Post-training）階段使用了數(shù)量相近的算力。但回到關(guān)于擴(kuò)展（Scaling）的討論，這兩個(gè)階段涉及非常不同的硬件擴(kuò)展方式。預(yù)訓(xùn)練是受限于計(jì)算能力的（Compute-bound），也就是我們常說(shuō)的FLOPS（每秒浮點(diǎn)運(yùn)算次數(shù)），即單位時(shí)間內(nèi)能完成多少次矩陣乘法運(yùn)算。

而在強(qiáng)化學(xué)習(xí)（RL）階段，你是在生成答案并在真實(shí)世界環(huán)境中嘗試模型，它最終會(huì)變得更加受限于內(nèi)存（Memory-bound）。因?yàn)槟阍谏砷L(zhǎng)序列，而注意力機(jī)制的特性導(dǎo)致內(nèi)存占用會(huì)隨著序列變長(zhǎng)呈二次方增長(zhǎng)。因此，計(jì)算方式變得非常不同。如果在后訓(xùn)練階段使用FLOPS這個(gè)指標(biāo)，情況會(huì)變得很奇怪，現(xiàn)實(shí)情況更應(yīng)該看你分配了多少GPU小時(shí)。

我認(rèn)為RL的運(yùn)行天數(shù)正在接近預(yù)訓(xùn)練的天數(shù)，但可能沒(méi)有同時(shí)使用那么多GPU。預(yù)訓(xùn)練的計(jì)算密度極高，所有GPU都在高效通信；而RL包含各種動(dòng)態(tài)環(huán)節(jié)，生成一個(gè)10萬(wàn)Token的序列可能需要很長(zhǎng)時(shí)間。比如考慮到GPT-5級(jí)別模型的推理可能需要運(yùn)行一個(gè)小時(shí)，如果你有一個(gè)小時(shí)長(zhǎng)的訓(xùn)練樣本，必須設(shè)法高效處理它。所以從GPU小時(shí)數(shù)或?qū)嶋H時(shí)長(zhǎng)來(lái)看，RL的規(guī)模正在趕上，但人們不想像GPT-4那樣把所有雞蛋放在同一個(gè)籃子里進(jìn)行一次性的超大規(guī)模訓(xùn)練，現(xiàn)在的開(kāi)發(fā)更傾向于漸進(jìn)式。

Sebastian Raschka：RLVR在訓(xùn)練時(shí)長(zhǎng)或收益獲取方面更具無(wú)限潛力，而RLHF（基于人類反饋的強(qiáng)化學(xué)習(xí)）本質(zhì)上是一種偏好微調(diào)，達(dá)到某個(gè)點(diǎn)后，再投入更多資源意義不大。對(duì)于同一個(gè)問(wèn)題，不同人有不同的偏好（比如有人買電腦看重電池，有人看重算力），RLHF試圖找到一種“平均”的風(fēng)格。一旦模型學(xué)會(huì)了這種風(fēng)格，繼續(xù)訓(xùn)練就沒(méi)有意義了。而RLVR是讓模型解決越來(lái)越復(fù)雜的問(wèn)題，因此長(zhǎng)期來(lái)看，將更多預(yù)算分配給RL更為合理。

Nathan Lambert：目前我們正處于RL 1.0階段，即只關(guān)注“問(wèn)題”和“答案”，沒(méi)有處理中間過(guò)程。未來(lái)的重點(diǎn)將是過(guò)程獎(jiǎng)勵(lì)模型（Process Reward Models），即對(duì)推理過(guò)程中的每一個(gè)中間步驟進(jìn)行評(píng)分，這可以稱為RLVR 2.0。Google的相關(guān)論文和DeepSeek Math V2都展示了能夠自我評(píng)分的模型，這將是推理擴(kuò)展（Inference Scaling）的重要方向。過(guò)去在推理模型出現(xiàn)之前，人們嘗試過(guò)過(guò)程獎(jiǎng)勵(lì)模型但并未完全證實(shí)其有效性，現(xiàn)在隨著o1等推理模型的出現(xiàn)，人們對(duì)價(jià)值函數(shù)（Value Functions）再次感到樂(lè)觀。

9、給初學(xué)者進(jìn)入AI開(kāi)發(fā)與研究領(lǐng)域的建議

Lex Fridman：現(xiàn)在我想稍微偏離一下主題，談?wù)劷逃�。如果�?tīng)眾是聰明的、對(duì)編程和AI感興趣的人，想從零開(kāi)始構(gòu)建一些東西，你建議該怎么做？

Sebastian Raschka：我建議先從頭開(kāi)始實(shí)現(xiàn)一個(gè)可以在單機(jī)上運(yùn)行的簡(jiǎn)單模型。這么做的目的不是為了用它取代ChatGPT或開(kāi)源權(quán)重模型作為日常助手，而是為了確切了解LLM的輸入輸出以及預(yù)訓(xùn)練的運(yùn)作機(jī)制。在自己的電腦上從零構(gòu)建，能讓你深入理解預(yù)訓(xùn)練、監(jiān)督微調(diào)（SFT）和注意力機(jī)制。

隨著模型規(guī)模擴(kuò)大，復(fù)雜性會(huì)呈指數(shù)級(jí)增長(zhǎng)，比如需要考慮參數(shù)分片到多GPU、KV緩存（KV-cache）的各種實(shí)現(xiàn)方式。為了理解原理，你不需要一開(kāi)始就寫最優(yōu)化的代碼（比如預(yù)分配Tensor），雖然這會(huì)增加代碼量。這本書(shū)（指Sebastian的書(shū)）的訣竅在于讓你理解LLM是如何工作的，一旦掌握了這些，你就能理解生產(chǎn)級(jí)的LLM。我構(gòu)建的大多數(shù)模型，包括混合專家模型（MoE），目標(biāo)都是能在單張GPU上運(yùn)行。

這幾乎就像RLVR一樣，你可以進(jìn)行自我驗(yàn)證。當(dāng)你從零編寫代碼時(shí)，可以參考Hugging Face的Transformers庫(kù)，但我認(rèn)為那里不是學(xué)習(xí)LLM原理的最佳起點(diǎn)。Transformers庫(kù)為了兼容成百上千種模型和生產(chǎn)環(huán)境，代碼極其復(fù)雜且交織在一起，閱讀體驗(yàn)不是線性的。我的建議是“逆向工程”：去查看模型倉(cāng)庫(kù)中的配置文件（Config），了解它用了多少層、是分組查詢注意力（GQA）還是多頭注意力。然后嘗試從你的基礎(chǔ)模型（比如GPT-2）開(kāi)始，把這些組件加進(jìn)去，加載預(yù)訓(xùn)練權(quán)重，看看能否得到相同的輸出。這能作為一種可驗(yàn)證的獎(jiǎng)勵(lì)，確保你的架構(gòu)正確。比如我曾花了一天時(shí)間處理Llama 3，挑戰(zhàn)在于位置嵌入的RoPE和YaRN擴(kuò)展，在這個(gè)掙扎的過(guò)程中你會(huì)逐漸真正理解它。

Nathan Lambert：我非常贊同。每一位對(duì)當(dāng)今AI領(lǐng)域感興趣的人都應(yīng)該這樣做。我是從強(qiáng)化學(xué)習(xí)和機(jī)器人領(lǐng)域轉(zhuǎn)到語(yǔ)言模型的，我必須花時(shí)間補(bǔ)習(xí)Transformer架構(gòu)這些極其基礎(chǔ)的東西。掌握基礎(chǔ)后，很多人會(huì)感到迷茫，不知道如何產(chǎn)生影響力或找到職業(yè)路徑。因?yàn)锳I語(yǔ)言模型讓基礎(chǔ)知識(shí)變得易于獲取，問(wèn)題變成了“我該如何獲得參與研究的機(jī)會(huì)？”

對(duì)此我相當(dāng)樂(lè)觀。這個(gè)領(lǐng)域發(fā)展太快，很多頂尖人才會(huì)轉(zhuǎn)向解決更大、更唾手可得的難題，從而留下許多細(xì)分領(lǐng)域。我的建議是，在掌握基礎(chǔ)后，深入研究一個(gè)細(xì)分領(lǐng)域。比如我最近對(duì)“性格訓(xùn)練”產(chǎn)生了濃厚興趣，如何通過(guò)調(diào)整數(shù)據(jù)讓模型變得幽默、諷刺或嚴(yán)肅。曾有一位牛津大學(xué)的博士生聯(lián)系我，我對(duì)他說(shuō)這很有趣，現(xiàn)在他已經(jīng)發(fā)布了相關(guān)論文。在這個(gè)充滿噪音的領(lǐng)域，如果你能深耕某個(gè)看似冷門或無(wú)人解答的細(xì)分問(wèn)題（比如閱讀三篇論文并深入理解），你會(huì)發(fā)現(xiàn)很多有趣的東西值得學(xué)習(xí)。

Sebastian Raschka：是的，試圖面面俱到會(huì)讓人精疲力竭。說(shuō)回你的書(shū)（指Nathan正在編寫的RLHF相關(guān)書(shū)籍），我認(rèn)為它性價(jià)比極高。如果想學(xué)RLHF，直接讀論文可能會(huì)浪費(fèi)兩年時(shí)間，因?yàn)楹芏嘤^點(diǎn)相互矛盾。

Nathan Lambert：沒(méi)錯(cuò)，我剛編輯完那本書(shū)。書(shū)中的章節(jié)涵蓋了后訓(xùn)練的大局觀：從偏好數(shù)據(jù)、獎(jiǎng)勵(lì)建模、正則化、指令微調(diào)、拒絕采樣到強(qiáng)化學(xué)習(xí)、憲法AI（Constitutional AI）、合成數(shù)據(jù)等。RLHF的核心難點(diǎn)在于“偏好”是多么的雜亂。我們?cè)跁?shū)中有一章專門討論了為什么RLHF永遠(yuǎn)無(wú)法被完全解決，因?yàn)閺母旧现v，它試圖將多維度的偏好（如準(zhǔn)確性與風(fēng)格）壓縮為單一數(shù)值，這涉及經(jīng)濟(jì)學(xué)中的馮·諾依曼-摩根斯坦效用定理和社會(huì)選擇理論。

我認(rèn)為對(duì)數(shù)學(xué)感興趣的人會(huì)在這里發(fā)現(xiàn)很多樂(lè)趣。比如在第14章，我列出了所有我喜歡的推理模型技術(shù)報(bào)告�，F(xiàn)在的語(yǔ)言模型非常擅長(zhǎng)數(shù)學(xué)，比如DPO（直接偏好優(yōu)化）這篇著名論文，它的推導(dǎo)過(guò)程省略了一些數(shù)學(xué)步驟。我為了寫書(shū)嘗試重新推導(dǎo)時(shí)非常痛苦，心想“這個(gè)對(duì)數(shù)技巧（log trick）到底是什么鬼？”雖然現(xiàn)在的模型可以直接告訴你答案，但我認(rèn)為經(jīng)歷這種推導(dǎo)的掙扎對(duì)學(xué)習(xí)是有好處的。

Lex Fridman：你們都提到了“掙扎”這一點(diǎn)。這非常有價(jià)值，如果學(xué)習(xí)過(guò)程中沒(méi)有感到掙扎，說(shuō)明你沒(méi)有遵循正確的學(xué)習(xí)流程。

Nathan Lambert：現(xiàn)在一些提供商開(kāi)始研發(fā)教育專用模型，設(shè)計(jì)初衷就是不直接給出所有信息，而是讓人們?yōu)榇烁冻雠�。這就像玩解謎游戲（如塞爾達(dá)傳說(shuō)）卡關(guān)時(shí)，你只想要一個(gè)提示而不是劇透。你可以對(duì)模型說(shuō)：“我算到這一步卡住了，不要直接給我答案，告訴我下一步該嘗試什么思路�！边@需要自律，但也正是培養(yǎng)研究品味和長(zhǎng)期眼光的方式。我們需要知道在哪些事情上磨煉，在哪些事情上不必糾結(jié)，這很難判斷，但必須培養(yǎng)這種品味。

我之前可能在和未婚妻或朋友聊這事，感覺(jué)就像存在一個(gè)短暫的10年窗口期，期間所有的作業(yè)和考試都實(shí)現(xiàn)了數(shù)字化。但在那之前，每個(gè)人都必須在答題本上完成所有考試，因?yàn)楫?dāng)時(shí)別無(wú)他法。而現(xiàn)在有了AI，每個(gè)人似乎又要回歸紙筆考試和口試了，因?yàn)樽鞅鬃兊锰菀住８杏X(jué)這短暫的一代人經(jīng)歷了一個(gè)完全不同的教育系統(tǒng)，一切雖已數(shù)字化卻依然能防止作弊，但現(xiàn)在一切又要倒退回去了，這真的很有趣。

Lex Fridman：你剛才提到了角色訓(xùn)練，讓我們放大到更宏觀的話題。就這個(gè)領(lǐng)域而言，需要多少算力支持？總的來(lái)說(shuō)，作為一名研究人員，是否有一些不需要太多算力，且個(gè)人也能真正做出貢獻(xiàn)的領(lǐng)域？

Nathan Lambert：僅就字符訓(xùn)練而言，這項(xiàng)研究通常是基于微調(diào)（fine-tuning）的。比如在7B參數(shù)模型上使用LoRA技術(shù)，本質(zhì)上你只微調(diào)了模型權(quán)重的一個(gè)很小的子集。雖然我不確定具體需要消耗多少GPU小時(shí)，但這種做法是完全可行的。

但這并非對(duì)所有學(xué)者都可行。有些學(xué)者的處境非常艱難，唯一能做的就是進(jìn)行推理工作，無(wú)論是使用閉源模型還是開(kāi)放權(quán)重模型。你可以獲取它們的補(bǔ)全結(jié)果，通過(guò)觀察這些結(jié)果來(lái)進(jìn)行研究和理解模型。這非常適合評(píng)估工作。如果你渴望成為那個(gè)最擅長(zhǎng)設(shè)計(jì)題目、能展示模型在何處失敗或具備何種能力的人，我認(rèn)為你可以通過(guò)這種方式取得突破。

對(duì)于從事評(píng)估工作的研究人員來(lái)說(shuō)，最高目標(biāo)可能就是去Frontier Labs（前沿實(shí)驗(yàn)室）。你不需要讓每個(gè)項(xiàng)目都達(dá)到那個(gè)高度，但如果你來(lái)自一所沒(méi)有算力的小型大學(xué)，卻發(fā)現(xiàn)了一些Claude難以處理的問(wèn)題，而下一代Claude模型在博客文章中專門提到了這點(diǎn)，那就是你職業(yè)生涯的“火箭時(shí)刻”。這很難，但如果你想用最小的算力實(shí)現(xiàn)最大可能的影響力，就需要變得非常專注，并了解模型的發(fā)展方向。比如，構(gòu)建一個(gè)工具來(lái)測(cè)試Claude 4.5不會(huì)失敗的地方。如果要啟動(dòng)一個(gè)研究項(xiàng)目，我需要思考八個(gè)月后的模型會(huì)在哪些方面遇到困難。

Lex Fridman：但是開(kāi)發(fā)完全新穎的想法呢？

Nathan Lambert：這是一個(gè)權(quán)衡。如果你在讀博士，你也可以認(rèn)為研究語(yǔ)言模型的風(fēng)險(xiǎn)太大了，從而決定關(guān)注更長(zhǎng)遠(yuǎn)的東西，思考什么將在10年后定義語(yǔ)言模型的發(fā)展。

我認(rèn)為我最終成為了一個(gè)相當(dāng)務(wù)實(shí)的人。當(dāng)年我去讀博士時(shí)心想：“我考進(jìn)了Berkeley，最壞的情況也就是拿個(gè)碩士學(xué)位，然后去科技行業(yè)工作�！比缃窕乜矗谶@些AI公司工作給人們帶來(lái)的生活變化是巨大的。比如OpenAI員工的平均薪酬僅股票部分每年就超過(guò)100萬(wàn)美元。在美國(guó)，任何普通人只要能進(jìn)入這類AI實(shí)驗(yàn)室，人生都會(huì)發(fā)生翻天覆地的變化。

所以我非常務(wù)實(shí)地認(rèn)為，如果你足夠?qū)Ｗ�，在語(yǔ)言模型領(lǐng)域工作仍然有很大的上升空間，看看這些職位的產(chǎn)出就知道了。但從研究角度來(lái)看，如果你的目標(biāo)是獲得學(xué)術(shù)獎(jiǎng)項(xiàng)，想成為下一個(gè)Yann LeCun，那就不應(yīng)該太在意語(yǔ)言模型當(dāng)前的具體發(fā)展，因?yàn)檫@在經(jīng)濟(jì)上是一個(gè)巨大的犧牲。

我有機(jī)會(huì)和一些非常優(yōu)秀的學(xué)生一起工作，他們會(huì)問(wèn)：“我應(yīng)該去AI實(shí)驗(yàn)室工作嗎？”我會(huì)說(shuō)：“你正在頂尖學(xué)府攻讀博士學(xué)位，你打算離開(kāi)去實(shí)驗(yàn)室嗎？”我的反應(yīng)通常是“我不知道”。如果你是去頂尖實(shí)驗(yàn)室工作，我不怪你；別去那些可能歸零的隨機(jī)創(chuàng)業(yè)公司。但如果你是去OpenAI，我覺(jué)得那確實(shí)值得為了它放棄博士學(xué)位。

Lex Fridman：讓我們更嚴(yán)謹(jǐn)?shù)厮伎家幌拢銜?huì)建議人們?cè)谀睦镒龀鲅芯控暙I(xiàn)？選項(xiàng)包括：留在學(xué)術(shù)界花五年時(shí)間讀博士發(fā)論文；去那些計(jì)算資源受限但專注于開(kāi)放權(quán)重模型的研究實(shí)驗(yàn)室；或者是去閉源的前沿實(shí)驗(yàn)室，比如OpenAI、Anthropic、xAI等等。

Nathan Lambert：這兩個(gè)方向的梯度是：環(huán)境越封閉，你往往能拿到的錢越多，但獲得的個(gè)人認(rèn)可越少。作為一名學(xué)者，建立個(gè)人作品集是非常清晰的，你完成了什么一目了然。而去企業(yè)就像達(dá)成了一項(xiàng)合理的交易，你在這個(gè)進(jìn)階過(guò)程中成為大機(jī)器中的一顆螺絲釘，但這也可以非常有趣。這是非常不同的職業(yè)路徑。

成為一名研究員的機(jī)會(huì)成本非常高，因?yàn)椴┦可男剿⒑跗湮ⅰＮ艺J(rèn)為這最終會(huì)獎(jiǎng)勵(lì)那些擁有穩(wěn)定安全網(wǎng)的人，他們意識(shí)到自己可以在長(zhǎng)期內(nèi)運(yùn)作，想要從事有趣的工作。處于這種位置是相當(dāng)優(yōu)越的，可以說(shuō)“我要讀完P(guān)hD再去解決之后的事情”。與此同時(shí)，學(xué)術(shù)生態(tài)系統(tǒng)正遭受資金方面的沉重打擊，撥款被削減。這里存在太多的權(quán)衡取舍，我能理解很多人因?yàn)闊o(wú)法應(yīng)對(duì)資金搜尋的壓力或未來(lái)的不確定性，而傾向于選擇那份薪水豐厚且具有重大影響力的工作。在OpenAI并不是拿薪水閑坐，你正在構(gòu)建最前沿的東西，這些東西正在改變數(shù)以百萬(wàn)計(jì)的人與技術(shù)的關(guān)系。

Lex Fridman：但在論文發(fā)表方面，這些公司變得越來(lái)越保守，趨勢(shì)日益明顯。所以你發(fā)表的東西越來(lái)越少，雖然在大范圍內(nèi)產(chǎn)生積極影響，但你只是機(jī)器上的一個(gè)齒輪。

Sebastian Raschka：老實(shí)說(shuō)，我覺(jué)得情況并沒(méi)有改變那么多。我曾在學(xué)術(shù)界工作，當(dāng)時(shí)我與合作者將機(jī)器學(xué)習(xí)方法應(yīng)用于計(jì)算生物學(xué)領(lǐng)域，很多人也是直接從學(xué)術(shù)界去了Google。那時(shí)教授們會(huì)對(duì)學(xué)生進(jìn)入工業(yè)界感到難過(guò)，因?yàn)閷W(xué)生無(wú)法繼承他們的衣缽�，F(xiàn)在唯一的區(qū)別在于規(guī)模。以前這是一個(gè)封閉的行業(yè)，你無(wú)法談?wù)撍，F(xiàn)在的區(qū)別在于你的偏好：你是喜歡談?wù)撃愕墓ぷ�、發(fā)表成果，還是更傾向于待在一個(gè)封閉的實(shí)驗(yàn)室里？當(dāng)然還有薪酬的差別。

目前唯一不同的是有了第三種選擇：創(chuàng)辦初創(chuàng)公司。這是非常冒險(xiǎn)的舉動(dòng)，屬于高風(fēng)險(xiǎn)高回報(bào)。而加入工業(yè)界實(shí)驗(yàn)室則相當(dāng)穩(wěn)妥，且有晉升空間，一旦有過(guò)這種經(jīng)歷，未來(lái)找工作也會(huì)更容易。這取決于你有多享受團(tuán)隊(duì)合作以及開(kāi)發(fā)專有技術(shù)，相比之下你有多喜歡發(fā)表論文。發(fā)表論文壓力很大，會(huì)議錄用率具有隨機(jī)性，可能讓人沮喪，但如果發(fā)表了，那種署名的成就感是很高的。

Nathan Lambert：我覺(jué)得我那些當(dāng)教授的朋友平均來(lái)看似乎比在公司工作的朋友更快樂(lè)。前沿實(shí)驗(yàn)室絕對(duì)在實(shí)行“996”工作制，這基本上就是“一直工作”的代名詞。

10、AI行業(yè)的職場(chǎng)文化

Lex Fridman：你能描述一下996這種文化嗎？

Sebastian Raschka：就是早上9點(diǎn)工作到晚上9點(diǎn)，每周六天，總共72小時(shí)。這種拼命工作的心態(tài)在硅谷AI公司里越來(lái)越普遍。

也許不完全是那樣，但確實(shí)有這種趨勢(shì)。這很有趣，我覺(jué)得情況幾乎反轉(zhuǎn)了。當(dāng)我在學(xué)術(shù)界時(shí)，作為教授必須寫撥款申請(qǐng)、教課、做研究，這簡(jiǎn)直是三份工作合而為一，想成功就絕不僅是一份全職工作。相比之下，教授們現(xiàn)在的壓力或工作量甚至可能比前沿實(shí)驗(yàn)室還要小。

我覺(jué)得教授們工作非常努力，只是感到非常充實(shí)。通過(guò)與學(xué)生一起工作，擁有持續(xù)的導(dǎo)師制路徑和以人為本的使命，在一個(gè)發(fā)展極快且混亂的時(shí)代，這種成就感很重要。而在初創(chuàng)公司，壓力在于必須成功。大家投入時(shí)間確實(shí)非常重要，雖然辛苦，但必須不斷交付成果。我待過(guò)初創(chuàng)公司，雖然愉快，但那種節(jié)奏我不確定是否還能再經(jīng)歷一次。正如我們一開(kāi)始討論的，模型正在互相超越，競(jìng)爭(zhēng)非常殘酷。

Nathan Lambert：這種互相超越的特性以及多方參與，實(shí)際上是語(yǔ)言建模進(jìn)程中一個(gè)被低估的驅(qū)動(dòng)因素。競(jìng)爭(zhēng)深深植根于人心，這些公司有意創(chuàng)造了強(qiáng)勢(shì)的企業(yè)文化。比如Anthropic以其高度專注和嚴(yán)密組織的文化聞名，大家非常齊心協(xié)力。置身于這種凝聚力極強(qiáng)的競(jìng)爭(zhēng)態(tài)勢(shì)中，絕對(duì)會(huì)讓你努力工作并創(chuàng)造出更好的東西。但這以人力資本為代價(jià)，人們肯定會(huì)感到職業(yè)倦怠。我自己也曾深陷其中，尤其是嘗試在擔(dān)任管理者的同時(shí)還要全身心投入模型訓(xùn)練。

Sebastian Raschka：我作為學(xué)者或獨(dú)立工作者時(shí)也會(huì)過(guò)度工作，這很不健康，我曾因此有過(guò)背部和頸部問(wèn)題，但這并不是因?yàn)橛腥藦?qiáng)迫我，而是因?yàn)槭虑樘钊伺d奮了。OpenAI和Anthropic的氛圍也是這樣，他們渴望做這些工作。

11、硅谷泡沫

Lex Fridman：是的，但同時(shí)也有一種正在積聚的狂熱感，特別是在硅谷。這種狂熱與“規(guī)模定律”（Scaling Laws）的理念相契合，認(rèn)為世界將在幾周內(nèi)發(fā)生翻天覆地的變化，大家都希望處于變革的中心。我有幸能觀察到各處存在的泡沫和信息繭房。硅谷某種程度上就是一個(gè)回音壁和孤島。這種泡沫實(shí)際上非常有用且有效，因?yàn)樗軒?lái)極高的效率，類似于史蒂夫·喬布斯的“現(xiàn)實(shí)扭曲場(chǎng)”，通過(guò)互相說(shuō)服突破近在咫尺，從而讓突破真的發(fā)生。

Burn Hobart寫過(guò)一本對(duì)泡沫分類的書(shū)，提到一種是金融泡沫（投機(jī)），另一種則是建設(shè)性泡沫。AI正處于建設(shè)性階段，但我擔(dān)心它會(huì)轉(zhuǎn)變?yōu)榻鹑谂菽６胰绻阍谄x現(xiàn)實(shí)的同時(shí)進(jìn)行996工作，可能會(huì)錯(cuò)過(guò)人類體驗(yàn)中最基本的方面。這是硅谷的一個(gè)普遍問(wèn)題，作為一個(gè)特定地理區(qū)域，可能無(wú)法理解中西部地區(qū)乃至全世界其他人類的完整體驗(yàn)。這種與現(xiàn)實(shí)脫節(jié)可能會(huì)讓你陷入麻煩。

Lex Fridman：我甚至不太理解，但舊金山的AI圈已經(jīng)演變出了“永久底層階級(jí)”這種梗。其中一個(gè)觀點(diǎn)是，2025年的最后六個(gè)月是建立具有持久價(jià)值的AI初創(chuàng)公司或模型的唯一時(shí)機(jī)，否則所有價(jià)值都將被現(xiàn)有公司攫取，你將因此陷入貧困。

Nathan Lambert：這就是舊金山那種走極端的例子。我仍然認(rèn)為，對(duì)于能接觸到資源的年輕人，如果你熱衷于在AI領(lǐng)域產(chǎn)生影響力，舊金山是最可能實(shí)現(xiàn)目標(biāo)的地方，但也有權(quán)衡。

Lex Fridman：舊金山是一個(gè)不可思議的地方，但確實(shí)存在泡沫。進(jìn)入泡沫固然有價(jià)值，但也請(qǐng)記得走出來(lái)。去讀讀歷史書(shū)、文學(xué)作品，去世界其他地方看看。Twitter和Substack并不是整個(gè)世界。

Nathan Lambert：我的一位同事準(zhǔn)備搬到舊金山，我得送他一本《Season of the Witch》，這是一本講述舊金山1960年到1985年歷史的書(shū)。書(shū)中詳細(xì)描述了嬉皮士革命、同性戀群體如何接管城市及文化的興起，還有后來(lái)的HIV/AIDS危機(jī)。舊金山經(jīng)歷了如此多的動(dòng)蕩和傷痛，同時(shí)也充滿了愛(ài)。這感覺(jué)就像發(fā)生在不久前，那是一本很棒的書(shū)。

12、文本擴(kuò)散模型（Text diffusion models）及其他新研究方向

Lex Fridman：好的，我們談了很多過(guò)去一年的事。但在今年，你們提到的一個(gè)令人興奮點(diǎn)是文本擴(kuò)散模型（Text Diffusion Models）的規(guī)�；约皩�(duì)文本擴(kuò)散的不同探索。能談?wù)勀鞘鞘裁矗约八N(yùn)含著怎樣的可能性嗎？是與目前的語(yǔ)言模型（LM）不同的方法嗎？

Sebastian Raschka：是的。我們討論了很多關(guān)于Transformer架構(gòu)和自回歸Transformer的內(nèi)容（如GPT）。這并不意味著沒(méi)人在研究其他東西，不把雞蛋放在同一個(gè)籃子里總是個(gè)好主意。目前Transformer架構(gòu)是主流且效果最好，但人們正在開(kāi)發(fā)自回歸Transformer的替代方案，其中之一就是文本擴(kuò)散模型。

聽(tīng)眾可能通過(guò)Stable Diffusion了解了圖像生成中的擴(kuò)散模型。在生成圖像領(lǐng)域，人們?cè)褂肎AN（生成對(duì)抗網(wǎng)絡(luò)），后來(lái)出現(xiàn)了擴(kuò)散過(guò)程，通過(guò)隨時(shí)間迭代地對(duì)圖像進(jìn)行去噪，產(chǎn)生了高質(zhì)量圖像�，F(xiàn)在人們想：“能不能把這種方法用于文本？”

這在直覺(jué)上不太好理解，因?yàn)槲谋臼请x散的，不像像素那樣是可微分的連續(xù)事物。這有點(diǎn)類似于Google的BERT模型。在原始Transformer中，有編碼器（Encoder）和解碼器（Decoder）。GPT使用的是解碼器，采用自回歸方式一次生成一個(gè)Token來(lái)完成句子。而在BERT（編碼器）中，你有一段帶有缺口（Mask）的文本，通過(guò)一次迭代來(lái)填補(bǔ)這些缺口。

文本擴(kuò)散與之類似，你從一段隨機(jī)文本開(kāi)始，通過(guò)多次迭代不斷填補(bǔ)和完善缺失部分。最酷的一點(diǎn)是，它可以同時(shí)處理多個(gè)Token，實(shí)現(xiàn)了并行化，從而帶來(lái)更高效率的承諾。當(dāng)然權(quán)衡在于質(zhì)量。現(xiàn)在有了“去噪過(guò)程”這個(gè)維度，執(zhí)行步驟越多，文本質(zhì)量越好。

目前有一些論文表明，如果想獲得與自回歸模型相同的質(zhì)量，必須增加去噪步數(shù)，最終消耗的算力可能是一樣的。另一個(gè)缺點(diǎn)是，有些任務(wù)如推理或工具調(diào)用并不是并行的，這對(duì)于擴(kuò)散模型來(lái)說(shuō)有點(diǎn)棘手。Google提到正在推出Gemini Diffusion并整合到Nano2環(huán)境中，聲稱在大多數(shù)基準(zhǔn)測(cè)試中，以相同質(zhì)量可以更快地生成內(nèi)容。我不認(rèn)為文本擴(kuò)散模型會(huì)取代自回歸大語(yǔ)言模型，但它可能用于快速、廉價(jià)且大規(guī)模的任務(wù)。

Nathan Lambert：我覺(jué)得有幾個(gè)例子表明它已經(jīng)開(kāi)始被投入使用了。舉個(gè)例子，GPT-5可能需要30分鐘才能做出響應(yīng)，因?yàn)樗且淮紊梢粋€(gè)Token。而擴(kuò)散思路本質(zhì)上是在一個(gè)批次中生成所有補(bǔ)全內(nèi)容，所以快得多。

我聽(tīng)說(shuō)的初創(chuàng)公司，比如做代碼的，有人在進(jìn)行所謂的“氛圍編程”（vibe coding），他們對(duì)模型說(shuō)“做這個(gè)修改”。代碼差異（code diff）本質(zhì)上不需要模型給出包含大量外部上下文的詳盡回復(fù)。通過(guò)使用擴(kuò)散模型，可以非�？焖俚孬@取結(jié)果。對(duì)于面向用戶的產(chǎn)品，如果使用自回歸模型生成非常長(zhǎng)的代碼差異可能需要幾分鐘，這會(huì)導(dǎo)致用戶流失。

所以它會(huì)不斷成長(zhǎng)并產(chǎn)生應(yīng)用。但我原以為不同類型的模型會(huì)比現(xiàn)在更早被用于不同場(chǎng)景。目前的阻礙在于“工具調(diào)用”（tool use）。例如ChatGPT在使用Cloud Code時(shí)，自回歸鏈會(huì)被外部工具中斷，我不知道在擴(kuò)散模型設(shè)置下該如何實(shí)現(xiàn)這一點(diǎn)。

13、工具調(diào)用

Lex Fridman：今年以及未來(lái)幾年，工具調(diào)用（tool use）的前景如何？你認(rèn)為這方面會(huì)有怎樣的發(fā)展，以及它是如何集成到整個(gè)技術(shù)棧中的？

Sebastian Raschka：我認(rèn)為這方面會(huì)有巨大的發(fā)展。目前主要集中在閉源的專有LLM上，但我認(rèn)為我們會(huì)看到更多開(kāi)源工具的涌現(xiàn)。這是一個(gè)巨大的突破，因?yàn)檫@意味著你可以將某些單純依靠記憶的任務(wù)外包給工具。這就像如果你要算23加5，不需要讓LLM去死記硬背，直接調(diào)用計(jì)算器即可。

Lex Fridman：你認(rèn)為這能幫助減少幻覺(jué)問(wèn)題嗎？

Sebastian Raschka：不是徹底解決，但能減少。LLM仍然需要判斷何時(shí)調(diào)用工具。但這并不意味著互聯(lián)網(wǎng)上的信息總是正確的。比如我問(wèn)誰(shuí)贏得了1998年世界杯，模型仍然需要找到正確的網(wǎng)站并獲取正確的信息。如果訪問(wèn)了錯(cuò)誤的網(wǎng)站，依然會(huì)給出錯(cuò)誤信息。所以它不會(huì)完全解決那個(gè)問(wèn)題，但確實(shí)有所改進(jìn)。

今年早些時(shí)候，或者說(shuō)是去年年底，有一篇關(guān)于遞歸語(yǔ)言模型（recursive language model）的論文提出了很有趣的觀點(diǎn)。正如Nathan剛才提到的，學(xué)術(shù)界受限于算力預(yù)算，做前沿研究很難。那篇論文的作者甚至沒(méi)有使用本地模型，而是全部用GPT-5（注：此處可能指代當(dāng)時(shí)的SOTA模型如GPT-4等）完成的。其核心理念是：對(duì)于非長(zhǎng)上下文任務(wù)，與其讓LLM試圖一站式解決所有問(wèn)題，不如將其分解為子任務(wù)。由LLM決定什么是合適的子任務(wù)，然后遞歸地調(diào)用自身來(lái)解決。這種方式配合工具調(diào)用，比如在一個(gè)龐大的問(wèn)答任務(wù)中，針對(duì)每個(gè)子問(wèn)題去網(wǎng)上搜集信息，最后再匯總縫合。這種在不改變LLM本身的情況下改進(jìn)其使用方式和資源調(diào)用能力的模式，會(huì)帶來(lái)很多突破。

目前工具調(diào)用的一個(gè)缺點(diǎn)是必須賦予LLM權(quán)限，這需要極大的信任。如果要解鎖讓LLM回復(fù)郵件，或者僅僅是分類篩選郵件的功能，這都伴隨著巨大的風(fēng)險(xiǎn)。我不知道今天我是否敢給LLM訪問(wèn)我郵件的權(quán)限。

Nathan Lambert：關(guān)于工具調(diào)用還有一點(diǎn)很有趣，那就是開(kāi)源模型與閉源模型在使用工具的方式上截然不同。對(duì)于開(kāi)源模型，用戶從Hugging Face下載模型后，會(huì)根據(jù)自己的偏好選擇工具，比如有人喜歡Xa作為搜索提供商，有人喜歡另一家初創(chuàng)公司。這就要求發(fā)布模型時(shí)，必須將其打造為通用的推理引擎，使其能適應(yīng)多種工具和用例，這正是GPT-OSS擅長(zhǎng)的地方。

相比之下，閉源模型是將特定的工具深度集成到體驗(yàn)中。我很難用閉源模型復(fù)制一些我喜歡的操作，比如嘗試通過(guò)提示詞讓模型像使用Codex那樣直接更新我的GitHub倉(cāng)庫(kù)。那種安全的云環(huán)境非常適合將任務(wù)發(fā)送出去執(zhí)行并返回結(jié)果。最初因?yàn)榇蠹壹庇趯?shí)現(xiàn)工具調(diào)用功能，導(dǎo)致開(kāi)源模型處于劣勢(shì)，這在某種程度上是不可避免的。前沿實(shí)驗(yàn)室擁有海量資源，但當(dāng)開(kāi)源模型解決這個(gè)問(wèn)題時(shí)，情況會(huì)變得很有趣，因?yàn)檫@將需要一種更靈活的模型來(lái)配合這種遞歸模式工作，充當(dāng)編排器和工具調(diào)用者的角色。

14、持續(xù)學(xué)習(xí)

Lex Fridman：持續(xù)學(xué)習(xí)（continual learning）是一個(gè)長(zhǎng)期存在的課題，隨著模型訓(xùn)練成本的上升，其重要性也在增加。你能解釋一下什么是持續(xù)學(xué)習(xí)，以及在未來(lái)幾年中，它對(duì)于技術(shù)進(jìn)步有多重要嗎？

Nathan Lambert：這很大程度上與舊金山關(guān)于AGI（通用人工智能）和ASI（人工超智能）的時(shí)代精神有關(guān)。現(xiàn)在的語(yǔ)言模型雖然能解決很多任務(wù)，但在AI社區(qū)看來(lái)，關(guān)鍵的里程碑是AI能夠像遠(yuǎn)程員工一樣，接收信息、執(zhí)行數(shù)字化任務(wù)。目前的局限性在于，語(yǔ)言模型無(wú)法像員工那樣從反饋中學(xué)習(xí)。如果你雇傭一名編輯，他犯錯(cuò)后你會(huì)指正，優(yōu)秀的編輯不會(huì)再犯同樣的錯(cuò)誤。但語(yǔ)言模型不具備這種自我修正和快速學(xué)習(xí)的能力。如果我們想實(shí)現(xiàn)真正的、通用的、適應(yīng)性強(qiáng)的智能，它必須能夠從反饋和在職學(xué)習(xí)中快速提升。

我個(gè)人更看好通過(guò)提供極佳的Context（上下文）來(lái)解決問(wèn)題。你可以向模型提供海量文檔，告訴它這是你所有的博客文章、寫作風(fēng)格和語(yǔ)調(diào)。雖然以前的模型不支持這么大的上下文，但現(xiàn)在智能體模型（agentic models）才剛剛起步。這就帶來(lái)了一個(gè)權(quán)衡：我們是否真的需要通過(guò)持續(xù)學(xué)習(xí)來(lái)更新模型的權(quán)重？還是只需要提供更多的上下文信息，讓它們憑借高智能和豐富的信息表現(xiàn)出類似快速學(xué)習(xí)的效果？

Sebastian Raschka：我們需要厘清這里的術(shù)語(yǔ)。持續(xù)學(xué)習(xí)（continual learning）是指持續(xù)、快速且頻繁地改變權(quán)重，以便模型能夠根據(jù)新傳入的信息進(jìn)行適配。而另一面通常被稱為上下文學(xué)習(xí)（in-context learning），即利用巨大的上下文窗口，每次提示系統(tǒng)時(shí)不斷加載額外信息。這兩者都可以被視為學(xué)習(xí)，只是發(fā)生的場(chǎng)所不同。

老實(shí)說(shuō)，我認(rèn)為不同形式的持續(xù)學(xué)習(xí)（即權(quán)重更新）已經(jīng)存在了。如果是指全球范圍內(nèi)的模型更新，比如從GPT-5演進(jìn)到5.1、5.2，這本質(zhì)上就是一種包含反饋（針對(duì)失敗任務(wù)或社區(qū)反饋）的精選更新。更細(xì)粒度的例子像RLVR，運(yùn)行后會(huì)更新。

真正的問(wèn)題在于個(gè)性化定制。為每個(gè)人更新權(quán)重的成本太高了，即使以O(shè)penAI的規(guī)模也無(wú)法負(fù)擔(dān)這種數(shù)據(jù)中心級(jí)別的開(kāi)銷。我認(rèn)為只有當(dāng)這種運(yùn)算在設(shè)備端運(yùn)行且成本由消費(fèi)者承擔(dān)時(shí)才可行，就像Apple嘗試將基礎(chǔ)模型放在手機(jī)上并從經(jīng)驗(yàn)中學(xué)習(xí)那樣。

Lex Fridman：這引出了另一個(gè)相關(guān)話題——“記憶”，這可能是一個(gè)擬人化的術(shù)語(yǔ)。隨著系統(tǒng)閱歷的增加，關(guān)于如何為這些系統(tǒng)增加記憶機(jī)制，尤其是個(gè)性化記憶，有哪些不同的想法？

Sebastian Raschka：目前主流的做法還是“上下文填充”，即把東西塞進(jìn)上下文里然后通過(guò)檢索召回。但這非常昂貴，因?yàn)樾枰腡oken，且能力有限。這更多像是一種風(fēng)格偏好，比如告訴模型“按照我上次喜歡的去做”，但并不能解鎖新能力。

另一種方法是使用LoRA適配器。這種方式不更新整個(gè)權(quán)重矩陣，而是并行或疊加兩個(gè)較小的權(quán)重矩陣。但這歸根結(jié)底是經(jīng)濟(jì)學(xué)問(wèn)題。有論文指出，LoRA學(xué)到的東西較少，但遺忘的也較少。天下沒(méi)有免費(fèi)的午餐，如果你想學(xué)得更多，就需要?jiǎng)佑酶鄼?quán)重，成本也會(huì)隨之升高。而且學(xué)得越多，遺忘的也越多，必須找到那個(gè)適中的平衡點(diǎn)。

15、長(zhǎng)上下文

Lex Fridman：雖然我們沒(méi)明說(shuō)，但討論中隱含了上下文長(zhǎng)度（context length）這一因素。這方面是否還有很多創(chuàng)新的空間？

Nathan Lambert：目前的共識(shí)是這主要取決于算力和數(shù)據(jù)。架構(gòu)上的一些微調(diào)，比如混合注意力模型（hybrid attention models），本質(zhì)上是在Transformer中加入類似狀態(tài)空間模型（SSM）的結(jié)構(gòu)，在建模時(shí)消耗的算力更少。但這也需要大量算力和正確的數(shù)據(jù)支持。世界上并沒(méi)有那么多高質(zhì)量的10萬(wàn)Token序列數(shù)據(jù)。

我認(rèn)為擴(kuò)展規(guī)模最終會(huì)變得非常昂貴。雖然我們已經(jīng)很快達(dá)到了100萬(wàn)Token的水平，預(yù)計(jì)今年可能會(huì)達(dá)到200萬(wàn)或500萬(wàn)，但我不認(rèn)為會(huì)很快達(dá)到1億級(jí)別，那將是真正的突破。遞歸語(yǔ)言模型那篇論文就是試圖解決長(zhǎng)上下文問(wèn)題的嘗試之一。與其將所有內(nèi)容塞進(jìn)長(zhǎng)上下文，不如將其分解為多個(gè)更小的任務(wù)，這樣不僅節(jié)省內(nèi)存，甚至能獲得比一次性處理更高的準(zhǔn)確率。

關(guān)于預(yù)訓(xùn)練有一些經(jīng)驗(yàn)法則。以O(shè)LMo為例，我們?cè)诖蠹s8K的上下文長(zhǎng)度下預(yù)訓(xùn)練，然后擴(kuò)展到32K。通常當(dāng)你將訓(xùn)練上下文長(zhǎng)度翻倍時(shí)，會(huì)消耗大約2倍的算力。這在很大程度上受限于預(yù)訓(xùn)練階段的算力瓶頸。

但在后訓(xùn)練（post-training）方面，隨著智能體（agents）的發(fā)展，情況會(huì)更有趣。智能體將自行管理上下文�，F(xiàn)在很多用Claude寫代碼的人擔(dān)心“壓縮”（compaction）問(wèn)題，即模型將10萬(wàn)Token的內(nèi)容壓縮成要點(diǎn)列表會(huì)丟失細(xì)節(jié)。但我確信下一代模型將能夠控制何時(shí)以及如何進(jìn)行壓縮。你可以訓(xùn)練RL算法，將壓縮視為一種動(dòng)作，目標(biāo)是在將歷史記錄壓縮到最短的同時(shí)，保持最高的任務(wù)評(píng)估分?jǐn)?shù)。這意味著模型學(xué)會(huì)了以一種不同于以往只會(huì)“一路向前”的方式來(lái)利用上下文。

Sebastian Raschka：最近DeepSeek V3（或類似版本）采用的稀疏注意力機(jī)制（sparse attention mechanism）也是一個(gè)有趣的例子。它擁有高效輕量的索引器，不再關(guān)注所有Token，而是只選擇需要的Token。這幾乎回到了Attention最初的理念——具有選擇性，甚至直接掩蓋掉不需要處理的部分。OLMo的滑動(dòng)窗口注意力也是這類思路。

如果使用全部信息，確實(shí)最安全且性價(jià)比最高，因?yàn)椴粫?huì)遺漏信息。但今年將是探索如何變得更“聰明”的一年。大家先通過(guò)暴力計(jì)算堆出SOTA（最先進(jìn)水平），一旦達(dá)到那個(gè)準(zhǔn)確度，就開(kāi)始研究如何通過(guò)技巧以更低的成本實(shí)現(xiàn)它。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.