国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Lex Fridman硬核訪談:5萬(wàn)字2026 AI全景報(bào)告

0
分享至



作者|林易

編輯|重點(diǎn)君

2月1日,知名科技播客博主Lex Fridman與兩位機(jī)器學(xué)習(xí)領(lǐng)域的重量級(jí)嘉賓開(kāi)展了一場(chǎng)深度對(duì)話。Sebastian Raschka是知名機(jī)器學(xué)習(xí)研究員與教育家,Nathan Lambert是艾倫人工智能研究所(AI2)的后訓(xùn)練負(fù)責(zé)人,同時(shí)也是RLHF領(lǐng)域的權(quán)威專家。兩位嘉賓恰好代表了當(dāng)前AI領(lǐng)域的兩大核心關(guān)切:原理與技術(shù)路線。

這場(chǎng)長(zhǎng)達(dá)數(shù)小時(shí)的硬核訪談信息密度極高,既是對(duì)過(guò)去一年AI技術(shù)突破的復(fù)盤,更是對(duì)2026年技術(shù)風(fēng)向的深度預(yù)判。我們給你劃下重點(diǎn):

第一,關(guān)于中美AI競(jìng)爭(zhēng):2025年的最大變量是DeepSeek時(shí)刻,中國(guó)公司在開(kāi)源權(quán)重模型上已占據(jù)主導(dǎo)地位。

2025年1月發(fā)布的DeepSeek R1被視為中美AI競(jìng)爭(zhēng)的分水嶺,該模型以更低的算力成本達(dá)到了接近最先進(jìn)(SOTA)的性能,震驚了業(yè)界。Nathan Lamber說(shuō),在開(kāi)源模型方面表現(xiàn)強(qiáng)勢(shì)。DeepSeek、阿里Qwen、MiniMax、Kimi等公司發(fā)布了大量高性能開(kāi)源模型,贏得了開(kāi)源社區(qū)的青睞。

相比之下,美國(guó)曾經(jīng)的開(kāi)源標(biāo)桿Llama卻在這一年迷失了方向。Sebastian Raschka說(shuō),Meta試圖通過(guò)構(gòu)建巨大的Llama 4模型在基準(zhǔn)測(cè)試中擊敗ChatGPT,但陷入刷榜陷阱,忽略了AI領(lǐng)域真正需要的是輕量級(jí)、可用的模型。這導(dǎo)致Llama留下的生態(tài)空白正在被中國(guó)的開(kāi)源模型迅速填補(bǔ)。

第二,主要AI實(shí)驗(yàn)室與模型現(xiàn)狀:Anthropic最有序,OpenAI內(nèi)部混亂,Meta開(kāi)源策略可能動(dòng)搖。

Anthropic:Claude Opus4.5是當(dāng)前頂流,特別是在編程方面表現(xiàn)出色,深受開(kāi)發(fā)者喜愛(ài)。Anthropic組織最有序、最不混亂。

Google:Gemini 3 雖發(fā)布時(shí)營(yíng)銷聲量不如對(duì)手,但性能極其強(qiáng)大。Google的優(yōu)勢(shì)在于擁有完整的全棧垂直整合能力(TPU芯片、云計(jì)算、模型、應(yīng)用),利潤(rùn)率極高,不依賴英偉達(dá)的高價(jià)GPU芯片。

OpenAI:盡管內(nèi)部混亂,但仍具有極強(qiáng)的交付能力。GPT-5系列(包括o1/o3推理模型)通過(guò)推理時(shí)計(jì)算節(jié)省了大量成本,并定義了新范式。

Meta:LLaMA系列似乎面臨內(nèi)部政治和激勵(lì)問(wèn)題,未來(lái)是否會(huì)有開(kāi)源的LLaMA5存疑,Meta的開(kāi)源策略可能在動(dòng)搖。

第三,關(guān)于技術(shù)范式轉(zhuǎn)移:預(yù)訓(xùn)練的紅利正在消退,AI技術(shù)戰(zhàn)場(chǎng)轉(zhuǎn)向后訓(xùn)練和RLVR。

Nathan Lamber認(rèn)為,預(yù)訓(xùn)練已經(jīng)變得極其昂貴且邊際效益遞減,而現(xiàn)在的模型能力提升重點(diǎn)源自后訓(xùn)練階段的創(chuàng)新。2025年最大的技術(shù)突破是帶有可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)。這徹底改變了模型的訓(xùn)練方式。

傳統(tǒng)的基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)更多是調(diào)整模型的語(yǔ)氣和風(fēng)格,屬于微調(diào)偏好,容易觸及天花板。RLVR則是讓模型在數(shù)學(xué)、代碼等有客觀答案的領(lǐng)域進(jìn)行大規(guī)模試錯(cuò)。通過(guò)“生成-評(píng)分”的迭代循環(huán),模型能像人類學(xué)生一樣,在數(shù)萬(wàn)次的練習(xí)中自我修正,從而解鎖預(yù)訓(xùn)練中已有的知識(shí)。

預(yù)訓(xùn)練是計(jì)算密集型(算力受限),而后訓(xùn)練階段的RLVR則更像是內(nèi)存密集型(內(nèi)存受限),更看重GPU的運(yùn)行時(shí)間而非單純的算力堆疊。

第四,關(guān)于AI編程:AI催生Vibe Coding,軟件工程正從寫代碼轉(zhuǎn)向系統(tǒng)設(shè)計(jì)。

AI對(duì)編程領(lǐng)域的重塑遠(yuǎn)超預(yù)期。Vibe Coding讓開(kāi)發(fā)者不再糾結(jié)于具體的代碼細(xì)節(jié),而是通過(guò)自然語(yǔ)言描述需求,快速生成并修改代碼Diffs。在這種模式下,人類的角色從代碼編寫者轉(zhuǎn)變?yōu)橄到y(tǒng)設(shè)計(jì)師和審查者。

Nathan Lambert預(yù)測(cè),隨著AI能力的提升,軟件開(kāi)發(fā)將變得高度工業(yè)化。雖然完全自動(dòng)化的超級(jí)智能編程因數(shù)據(jù)分布的參差不齊而難以在短期內(nèi)完美實(shí)現(xiàn),但工具的門檻正在急劇降低。未來(lái),一個(gè)不懂底層代碼的人,只要擁有清晰的系統(tǒng)設(shè)計(jì)思維,利用Claude Code或Cursor等工具,就能構(gòu)建出復(fù)雜的軟件系統(tǒng)。

第五,關(guān)于Scaling Laws:規(guī)模定律并沒(méi)有失效,但維度變得更加豐富了。

針對(duì)AI發(fā)展是否遇到瓶頸的質(zhì)疑,嘉賓們給出了否定的回答。Nathan Lambert認(rèn)為,Scaling Laws依然是技術(shù)發(fā)展的基石,但現(xiàn)在的擴(kuò)展已從單一的預(yù)訓(xùn)練規(guī)模分裂為三個(gè)維度:

傳統(tǒng)規(guī)模定律:繼續(xù)堆疊模型參數(shù)和數(shù)據(jù)集。

強(qiáng)化學(xué)習(xí)規(guī)模:可以進(jìn)行多長(zhǎng)時(shí)間的試錯(cuò)學(xué)習(xí)。

推理側(cè)算力:讓模型在回答前思考更久,生成更多的思維鏈Token。

這種多維度的擴(kuò)展策略,使得科技巨頭們?cè)?026年依然敢于投入數(shù)百億美元建設(shè)吉瓦級(jí)規(guī)模的算力集群。Sebastian Raschka形象地比喻:在一個(gè)擁有無(wú)限算力的理想世界里,你會(huì)把這三個(gè)維度的旋鈕全部拉滿;但在現(xiàn)實(shí)中,這變成了一場(chǎng)關(guān)于性價(jià)比的權(quán)衡游戲,大公司需要考慮是花1億美元訓(xùn)練更大的模型,還是花200萬(wàn)美元做推理側(cè)擴(kuò)展。

第六,關(guān)于AGI的終局:?jiǎn)我煌ㄓ媚P偷膲?mèng)想已經(jīng)破滅,未來(lái)屬于多智能體與專業(yè)化模型。

對(duì)于未來(lái),嘉賓們打破了一個(gè)全能模型統(tǒng)治世界的幻想。Nathan Lambert認(rèn)為,未來(lái)的AI生態(tài)不會(huì)是贏家通吃,而是一個(gè)分工明確的系統(tǒng)。

未來(lái)不會(huì)依賴一個(gè)單一的ChatGPT去處理所有事務(wù),而是會(huì)有專門負(fù)責(zé)法律、醫(yī)療、編程的垂直模型,F(xiàn)實(shí)正在演變?yōu)槿藗冡槍?duì)不同任務(wù)調(diào)用不同的Agent。未來(lái)的數(shù)據(jù)中心里,將是許多專門的AGI在相互交流、管理和執(zhí)行任務(wù)。



以下為L(zhǎng)ex Fridman播客訪談實(shí)錄:

1、中國(guó) vs 美國(guó):誰(shuí)將贏得 AI 競(jìng)賽?

Lex Fridman:以下是一場(chǎng)關(guān)于人工智能前沿動(dòng)態(tài)的對(duì)話,涵蓋了過(guò)去一年AI領(lǐng)域激動(dòng)人心的突破,以及我們對(duì)未來(lái)一年的展望。雖然內(nèi)容有時(shí)會(huì)涉及深度的專業(yè)技術(shù),但我們力求讓非專業(yè)人士也能聽(tīng)懂,同時(shí)絕不降低內(nèi)容的專業(yè)深度。我很榮幸能邀請(qǐng)到AI社區(qū)中我最喜歡的兩位嘉賓:Sebastian Raschka 和 Nathan Lambert。他們都是備受尊敬的機(jī)器學(xué)習(xí)研究員、工程師,同時(shí)也是優(yōu)秀的傳播者、教育者和作家。Sebastian著有兩本我強(qiáng)烈推薦給初學(xué)者和專家的書(shū):第一本是《從零開(kāi)始構(gòu)建大語(yǔ)言模型》(Build a Large Language Model From Scratch),另一本是《從零開(kāi)始構(gòu)建推理模型》(Build a Reasoning Model From Scratch)。我堅(jiān)信在機(jī)器學(xué)習(xí)和計(jì)算機(jī)科學(xué)領(lǐng)域,學(xué)習(xí)并理解某項(xiàng)事物的最佳方式就是親手從零開(kāi)始構(gòu)建它。Nathan是艾倫人工智能研究所的后訓(xùn)練負(fù)責(zé)人,也是關(guān)于人類反饋強(qiáng)化學(xué)習(xí)(RLHF)權(quán)威著作的作者。

Lex Fridman:讓我們從“DeepSeek時(shí)刻”這個(gè)視角切入。這大約發(fā)生在一年前的2025年1月,當(dāng)時(shí)中國(guó)公司DeepSeek發(fā)布了開(kāi)放權(quán)重的DeepSeek R1。我認(rèn)為可以公平地說(shuō),它以更少的算力和更低廉的價(jià)格,達(dá)到了接近或持平SOTA(最先進(jìn))的性能,驚艷了所有人。從那時(shí)起到今天,AI領(lǐng)域的競(jìng)爭(zhēng)在研究和產(chǎn)品層面都變得異常激烈,這種趨勢(shì)一直在加速。讓我們今天探討所有這些話題。首先我想問(wèn)一個(gè)尖銳的問(wèn)題:在國(guó)際層面上誰(shuí)處于領(lǐng)先地位?是中國(guó)的一系列公司,還是美國(guó)的公司?Sebastian,你認(rèn)為誰(shuí)是贏家?

Sebastian Raschka:“贏”這個(gè)詞涵蓋面很廣。既然你提到了DeepSeek時(shí)刻,我確實(shí)認(rèn)為DeepSeek通過(guò)分享開(kāi)源模型,絕對(duì)贏得了那些致力于開(kāi)放權(quán)重模型(open weight models)的人們的心。我認(rèn)為“贏”包含多個(gè)時(shí)間尺度:當(dāng)下、明年,還有十年后。我唯一可以肯定的是,我不認(rèn)為到了2026年的今天,還會(huì)存在哪家公司能掌握其他公司無(wú)法觸及的獨(dú)占技術(shù)。主要原因是研究人員頻繁地更換工作和實(shí)驗(yàn)室,人才在不斷流動(dòng)。因此,我不認(rèn)為在技術(shù)獲取層面會(huì)有明顯的贏家。然而,差異化因素將體現(xiàn)在預(yù)算和硬件限制上。這些創(chuàng)意本身并非專利,實(shí)現(xiàn)這些創(chuàng)意的方式和資源才是關(guān)鍵。所以,目前我看不到一個(gè)“贏家通吃”的局面。

Lex Fridman:Nathan,你怎么看?

Nathan Lambert:你可以看到各個(gè)實(shí)驗(yàn)室在目標(biāo)投入上存在差異。為了標(biāo)記我們錄制的時(shí)間點(diǎn),目前針對(duì)Anthropic的Claude Opus 4.5模型的炒作簡(jiǎn)直瘋狂。我在過(guò)去幾周一直用它構(gòu)建東西,它的熱度甚至有點(diǎn)像個(gè)“梗”了。這很有趣,因?yàn)檫@種熱度非常自然。如果我們回到幾個(gè)月前,Google發(fā)布Gemini 3時(shí)的營(yíng)銷手段和驚艷程度都非常高。但隨后11月底Claude Opus 4.5發(fā)布,熱度一路攀升,感覺(jué)大家對(duì)Gemini 3的討論反而沒(méi)那么多了,盡管它剛推出時(shí)被視為Google奪回AI架構(gòu)優(yōu)勢(shì)的時(shí)機(jī)。Gemini 3依然是一款出色的模型,我目前仍在使用它,只是其差異化程度較低。

我同意Sebastian的觀點(diǎn),創(chuàng)意空間是非常流動(dòng)的。但在文化層面上,Anthropic以敢于在代碼能力(即Claude Code)上重注而聞名,目前效果很不錯(cuò)。所以我認(rèn)為,即使想法可以自由流動(dòng),但很大程度上仍然受限于人力投入以及組織的文化氛圍。Anthropic目前看起來(lái)是表現(xiàn)得最不混亂的,這算是一個(gè)小小的優(yōu)勢(shì)。另一方面,在技術(shù)層面,中國(guó)有很多令人驚嘆的技術(shù)。除了DeepSeek之外,還有更多的實(shí)驗(yàn)室。DeepSeek在中國(guó)引發(fā)了一場(chǎng)運(yùn)動(dòng),類似于ChatGPT在美國(guó)引發(fā)的浪潮,當(dāng)時(shí)所有產(chǎn)品都加上了聊天機(jī)器人,F(xiàn)在中國(guó)有大量科技公司正在發(fā)布實(shí)力強(qiáng)勁的前沿開(kāi)源權(quán)重模型,以至于我會(huì)說(shuō)DeepSeek在某種程度上正在失去其作為中國(guó)卓越開(kāi)源模型制作者的桂冠,像智譜AI的GLM模型、MiniMax的模型以及月之暗面(Kimi),尤其是在過(guò)去幾個(gè)月里,表現(xiàn)得更加出色。

Lex Fridman:所以像DeepSeek這樣的一些模型因?yàn)殚_(kāi)源權(quán)重而受到了大眾的喜愛(ài)。你認(rèn)為中國(guó)公司發(fā)布開(kāi)放權(quán)重模型的策略會(huì)堅(jiān)持多久?

Nathan Lambert:我認(rèn)為會(huì)持續(xù)幾年。就像在美國(guó)一樣,目前還沒(méi)有一個(gè)清晰的商業(yè)模式。我寫關(guān)于開(kāi)放模型的文章有一段時(shí)間了,中國(guó)公司也意識(shí)到了這一點(diǎn)。他們很聰明,也看到了同樣的限制:許多美國(guó)頂尖科技公司出于安全擔(dān)憂,不會(huì)購(gòu)買中國(guó)公司的API訂閱服務(wù)。這在技術(shù)領(lǐng)域是長(zhǎng)期存在的習(xí)慣。因此,這些公司的從業(yè)者將開(kāi)放權(quán)重模型視為一種能力,以此來(lái)通過(guò)這種方式參與到美國(guó)巨大且不斷增長(zhǎng)的AI支出市場(chǎng)中。他們對(duì)此有著非常務(wù)實(shí)的認(rèn)識(shí),而且這對(duì)他們很有效。但是開(kāi)發(fā)這些模型非常昂貴,所以我預(yù)計(jì)在某個(gè)時(shí)間點(diǎn)會(huì)出現(xiàn)整合,但我不認(rèn)為這會(huì)發(fā)生在2026年。2026年開(kāi)放模型構(gòu)建者的數(shù)量將比2025年更多,而且其中許多著名的構(gòu)建者將來(lái)自中國(guó)。

Lex Fridman:Sebastian,你剛才想補(bǔ)充什么嗎?

Sebastian Raschka:是的。你提到DeepSeek失去領(lǐng)先地位,我在某種程度上認(rèn)同,但也必須考慮到,我認(rèn)為他們?nèi)匀惶幱谖⑷醯念I(lǐng)先地位。其他模型的情況并非是DeepSeek變差了,而是其他模型正在借鑒DeepSeek的思路。例如你提到的Kimi,采用了相同的架構(gòu)進(jìn)行訓(xùn)練。我們?cè)俅慰吹搅诉@種“跳躍式領(lǐng)先”的情況:一個(gè)人發(fā)布了某個(gè)東西,另一個(gè)緊隨其后。最新的模型往往就是最好的模型。我認(rèn)為這又回到了那個(gè)事實(shí),不會(huì)有一個(gè)絕對(duì)的贏家。

Nathan Lambert:是的。我們還會(huì)看到中國(guó)公司有著不同的激勵(lì)機(jī)制。比如DeepSeek非常神秘,而其他一些初創(chuàng)公司則不同,像MiniMax和零一萬(wàn)物(01.AI)這類公司已經(jīng)提交了IPO文件,正努力爭(zhēng)取西方市場(chǎng)的關(guān)注,并在那里進(jìn)行了大量推廣。DeepSeek是由幻方量化(Highflyer Capital)這家對(duì)沖基金創(chuàng)立的,我們并不確切知道他們將這些模型用于什么,或者他們是否在意商業(yè)化。

Lex Fridman:他們?cè)跍贤ǚ矫婧苌衩,但在描述模型工作原理的技術(shù)報(bào)告方面并不保守,在這方面他們?nèi)匀槐3珠_(kāi)放。我們還應(yīng)該談?wù)剬?duì)Claude Opus 4.5的炒作。這其中包含了一些層面,即它作為X(原Twitter)信息繭房里的寵兒的熱度,與實(shí)際使用該模型的人數(shù)之間存在差距。我認(rèn)為可以公平地說(shuō),ChatGPT和Gemini專注于那些僅僅想使用工具解決日常問(wèn)題的廣泛用戶群體,那個(gè)群體非常龐大。所以關(guān)于編程能力的炒作可能并不能完全代表實(shí)際的大眾使用情況。

Sebastian Raschka:很多使用模式也是出于知名度和品牌,同時(shí)也形成了一種肌肉記憶。ChatGPT已經(jīng)存在很長(zhǎng)時(shí)間了,人們習(xí)慣了使用它,這像一種飛輪效應(yīng)。還有一個(gè)有趣的觀點(diǎn)是LLM的定制化。例如ChatGPT有記憶功能,你可能有一個(gè)訂閱用于處理個(gè)人事務(wù),但你不一定想在工作中使用同一個(gè)賬號(hào)。因?yàn)樗饺松詈凸ぷ髦g存在界限。我認(rèn)為這也是一個(gè)有趣的切入點(diǎn),你可能會(huì)擁有多個(gè)訂閱:一個(gè)只用于編寫純凈的代碼,不包含任何個(gè)人照片或愛(ài)好;另一個(gè)則是你個(gè)人的東西。我認(rèn)為未來(lái)會(huì)是多個(gè)并存的。

2、ChatGPT vs Claude vs Gemini vs Grok:誰(shuí)正在領(lǐng)先?

Lex Fridman:你認(rèn)為哪個(gè)模型贏得了2025年?又有哪些模型將贏得2026年?

Nathan Lambert:在消費(fèi)級(jí)聊天機(jī)器人的語(yǔ)境下,問(wèn)題在于你是否愿意押注Gemini而非ChatGPT。直覺(jué)告訴我,這似乎是一個(gè)有點(diǎn)冒險(xiǎn)的賭注,因?yàn)镺penAI一直是該領(lǐng)域的領(lǐng)先者,這在科技行業(yè)會(huì)帶來(lái)諸多優(yōu)勢(shì);仡2025年,勢(shì)頭似乎在Gemini這邊,但我認(rèn)為他們當(dāng)時(shí)的起點(diǎn)太低了。愿Bard以及那些早期的嘗試安息吧。他們能克服組織內(nèi)部的混亂并實(shí)現(xiàn)這一目標(biāo),確實(shí)值得稱贊。但與此同時(shí),也很難去賭OpenAI會(huì)輸。因?yàn)樗麄冸m然表面上顯得混亂,但非常擅長(zhǎng)讓項(xiàng)目落地。就我個(gè)人而言,我對(duì)GPT-5的評(píng)價(jià)褒貶不一,但它肯定通過(guò)高端線路功能的路由機(jī)制為他們節(jié)省了大量資金,即大多數(shù)用戶不再像以前那樣消耗昂貴的GPU資源了。

Lex Fridman:你對(duì)2026年怎么看?誰(shuí)會(huì)勝出?

Nathan Lambert:盡管有風(fēng)險(xiǎn),我還是要說(shuō),我認(rèn)為Gemini將繼續(xù)追趕ChatGPT的進(jìn)展。當(dāng)兩者都以如此極端的規(guī)模運(yùn)行時(shí),Google的規(guī)模優(yōu)勢(shì)在于它能夠更好地將研究與產(chǎn)品分開(kāi)。而OpenAI在運(yùn)營(yíng)上常被傳非;靵y,一直在追求高影響力的事物,這是典型的創(chuàng)業(yè)公司文化。在軟件和企業(yè)端,我認(rèn)為Anthropic將會(huì)延續(xù)他們的成功。Google Cloud擁有豐富的產(chǎn)品線,Gemini這個(gè)品牌對(duì)他們的建設(shè)至關(guān)重要。Google Cloud將繼續(xù)保持良好的發(fā)展勢(shì)頭,但在生態(tài)系統(tǒng)中解釋清楚這一點(diǎn)會(huì)更加復(fù)雜,因?yàn)槟鞘桥cAzure和AWS的競(jìng)爭(zhēng)。

Lex Fridman:所以在基礎(chǔ)設(shè)施方面,你認(rèn)為TPU帶來(lái)了優(yōu)勢(shì)?

Nathan Lambert:很大程度上是因?yàn)镹VIDIA芯片的利潤(rùn)率高得離譜,而Google可以從上到下開(kāi)發(fā)一切來(lái)適配他們的技術(shù)棧,不需要支付這部分利潤(rùn)空間。而且他們?cè)诮ㄔO(shè)數(shù)據(jù)中心方面擁有先發(fā)優(yōu)勢(shì)。因此,在這些既需要漫長(zhǎng)前置時(shí)間,又有著極高利潤(rùn)門檻的領(lǐng)域,Google擁有一種歷史性的優(yōu)勢(shì)。如果將出現(xiàn)新的范式,它最有可能來(lái)自O(shè)penAI,因?yàn)樗麄兊难芯坎块T一次又一次地證明了這一點(diǎn),比如Deep Research、Sora、o1推理模型。這種落地全新研究理念或產(chǎn)品的能力是OpenAI的核心特質(zhì)。很難賭他們會(huì)輸,但我認(rèn)為今年的重點(diǎn)將很大程度上圍繞規(guī);⊿caling)和優(yōu)化模型中那些“垂手可得的果實(shí)”。

Lex Fridman:顯然,在智能與速度之間存在權(quán)衡。這就是ChatGPT-5在幕后試圖解決的問(wèn)題。廣大公眾到底是想要智能,還是想要速度?

Sebastian Raschka:我覺(jué)得這實(shí)際上是一個(gè)很棒的多樣化選擇。就我個(gè)人的使用習(xí)慣而言,大多數(shù)時(shí)候當(dāng)我查閱某些內(nèi)容時(shí),我會(huì)用ChatGPT問(wèn)一個(gè)簡(jiǎn)單的問(wèn)題,快速獲取信息。對(duì)于大多數(shù)日常任務(wù),我會(huì)使用快速模型,F(xiàn)在自動(dòng)模式已經(jīng)做得相當(dāng)不錯(cuò)了。但有時(shí)我也想要Pro模式。例如當(dāng)我寫好東西后,我會(huì)把它放入ChatGPT并說(shuō):“做一個(gè)非常徹底的檢查。我的所有引用、想法、格式都正確嗎?”這種情況下我不需要立即得到答案,可以讓它運(yùn)行著,回頭再看。這就是擁有這種選項(xiàng)的重要性。如果每個(gè)查詢都要讓我等30分鐘甚至10分鐘,我一定會(huì)瘋掉的。

Nathan Lambert:那就是我。我坐在這兒簡(jiǎn)直要瘋了,你居然還在用路由模式和非思考模型(non-thinking models)。我心想:“你是怎么受得了那種東西的?”我已經(jīng)重度使用ChatGPT很長(zhǎng)時(shí)間了,從來(lái)沒(méi)碰過(guò)非思考模型。我覺(jué)得它的語(yǔ)氣和出錯(cuò)的概率似乎更高。這可以追溯到OpenAI發(fā)布o(jì)3的時(shí)候,那是第一個(gè)能夠進(jìn)行深度搜索、整合多個(gè)來(lái)源的模型。我已經(jīng)習(xí)慣了那樣。所以在處理工作信息查詢時(shí),我只會(huì)使用GPT-5.2 Thinking或Pro版本。我經(jīng)常會(huì)同時(shí)進(jìn)行五個(gè)Pro查詢,尋找特定的論文或代碼參考。

Sebastian Raschka:我有一個(gè)有趣的例子,當(dāng)時(shí)我只需要盡快得到答案。在這次旅行之前的播客中,我家里運(yùn)行著一個(gè)本地GPU,我想運(yùn)行一個(gè)長(zhǎng)時(shí)間的RL(強(qiáng)化學(xué)習(xí))實(shí)驗(yàn)。通常我會(huì)拔掉電源,但我如果不小心拔掉了GPU電源,當(dāng)時(shí)我妻子已經(jīng)在車?yán)锏戎,我心想:“噢,糟了!蔽蚁胍宰羁斓乃俣葘懗鲆粋(gè)Bash腳本,用來(lái)運(yùn)行不同的實(shí)驗(yàn)和評(píng)估。我知道怎么用Bash終端,但在那一刻我只需要大概10秒鐘把命令給我。所以我用了不帶思考過(guò)程的最快模型。它給了我Bash命令,我需要將不同的腳本串聯(lián)在一起,這就解決了問(wèn)題。

Nathan Lambert:我用Gemini處理這類需求。我會(huì)用思考模型處理所有信息類事務(wù),然后用Gemini處理追求速度的任務(wù),或者那些通過(guò)Google搜索能更好解釋的內(nèi)容。Gemini應(yīng)用也變得好多了。對(duì)于代碼和任何形式的哲學(xué)討論,我會(huì)使用Claude Opus 4.5,而且總是開(kāi)啟擴(kuò)展思考(extended thinking)。擴(kuò)展思考和推理時(shí)間擴(kuò)展(inference time scaling)只是讓模型變得稍微更聰明一點(diǎn)的方式。然后有時(shí)我會(huì)使用Grok來(lái)獲取實(shí)時(shí)信息,或者在AI Twitter上尋找內(nèi)容。Grok-4 Super Heavy發(fā)布時(shí)表現(xiàn)非常出色,但我后來(lái)因?yàn)榱?xí)慣用ChatGPT App就慢慢把它忘了。

Lex Fridman:是的,我確實(shí)也在用Grok-4 Heavy用于調(diào)試。對(duì)于那些其他模型無(wú)法解決的硬核調(diào)試問(wèn)題,我發(fā)現(xiàn)它是最擅長(zhǎng)的。這很有趣,因?yàn)槟阏f(shuō)ChatGPT是最好的界面,對(duì)我來(lái)說(shuō)Gemini是更好的界面。我想是因?yàn)槲覑?ài)上了它們最出色的“大海撈針”(needle in the haystack)能力。如果我放入包含大量上下文的內(nèi)容并尋找非常具體的信息,Gemini一直表現(xiàn)最好。這就像有一種閾值效應(yīng):你會(huì)堅(jiān)持使用一個(gè)模型,直到它做了一件蠢事,然后你就會(huì)換個(gè)工具。

Sebastian Raschka:沒(méi)錯(cuò),你會(huì)一直使用它直到它出故障。就像我們使用瀏覽器一樣,你不會(huì)在不同瀏覽器中輸入同一個(gè)網(wǎng)址對(duì)比,除非網(wǎng)頁(yè)無(wú)法渲染。關(guān)于長(zhǎng)上下文,我之前也是為了這個(gè)功能使用Gemini,但GPT-4o發(fā)布時(shí)展示了驚人的長(zhǎng)上下文評(píng)分提升,F(xiàn)在我更看好GPT-5.2的長(zhǎng)上下文。

3、最適合編程的AI

Lex Fridman:我們還沒(méi)怎么提到編程。那是另一個(gè)很多人非常關(guān)注的使用場(chǎng)景。所以我基本上是一半一半地在使用Cursor和Claude Code。你們呢?

Sebastian Raschka:我用的是VSCode的Codex插件。它非常方便,就像一個(gè)可以訪問(wèn)你代碼庫(kù)的聊天界面。我知道Claude Code似乎有點(diǎn)不同,它更具智能體(agentic)特征,能為你完成整個(gè)項(xiàng)目。我目前還沒(méi)到能完全放心使用它的程度,也許是因?yàn)槲矣锌刂朴蚁M芸吹骄唧w發(fā)生了什么。Cursor對(duì)我來(lái)說(shuō)目前處于一個(gè)恰到好處的平衡點(diǎn),它在幫助我,但沒(méi)有完全取代我的工作。

Lex Fridman:我使用Claude寫代碼的原因之一是為了培養(yǎng)用英語(yǔ)編程的能力。這種體驗(yàn)從根本上是不同的。你不再是微觀管理代碼生成的細(xì)節(jié),而是查看diff。如果你使用Cursor這種IDE,你可以看到修改和變更代碼時(shí)的差異。去觀察、閱讀并深入理解代碼,而不是僅僅停留在設(shè)計(jì)層面進(jìn)行宏觀引導(dǎo),這是思考編程過(guò)程的另一種方式。Claude Code似乎更好地利用了Claude 3.5 Opus。

Nathan Lambert:這對(duì)人們來(lái)說(shuō)是一個(gè)很好的并排對(duì)比。你可以同時(shí)打開(kāi)Claude Code、Cursor和VSCode,選擇相同的模型并提出問(wèn)題。Claude在代碼能力那個(gè)領(lǐng)域要出色得多。

Lex Fridman:好的,我們應(yīng)該說(shuō)明你們兩位在多個(gè)領(lǐng)域都是名副其實(shí)的專家,包括研究員、程序員、教育者以及作家。Nathan,希望你能很快出一本關(guān)于RLHF的書(shū)。

Nathan Lambert:已經(jīng)可以預(yù)訂了,而且有完整的數(shù)字預(yù)印本。我只是在為實(shí)體書(shū)做美化和更好的排版。

Lex Fridman:Sebastian Raschka是一位機(jī)器學(xué)習(xí)研究員和作家,出版了多本具有影響力的書(shū)籍。其中有兩本我想特別提一下:一本是我強(qiáng)烈推薦的《從零開(kāi)始構(gòu)建大語(yǔ)言模型》,以及新書(shū)《從零開(kāi)始構(gòu)建推理模型》。我感到非常興奮,因?yàn)閺念^開(kāi)始構(gòu)建東西是學(xué)習(xí)最有效的方式之一。

Sebastian Raschka:說(shuō)實(shí)話,從頭開(kāi)始構(gòu)建一個(gè)LLM非常有趣。這也是一個(gè)學(xué)習(xí)很多東西的過(guò)程。正如你所說(shuō),這可能是了解事物真實(shí)運(yùn)作機(jī)制的最佳方式。你可以看圖表,但圖表可能會(huì)有錯(cuò)誤;你可以看概念,但可能會(huì)誤解。但如果你看到代碼并且能運(yùn)行,你就知道它是正確的,它是精確的。這就是編程背后的魅力,它不會(huì)撒謊。即使是數(shù)學(xué),我認(rèn)為書(shū)里也可能存在你永遠(yuǎn)察覺(jué)不到的錯(cuò)誤。因?yàn)槟阍谧x書(shū)時(shí)并沒(méi)有實(shí)際運(yùn)行那些數(shù)學(xué)計(jì)算,所以無(wú)法去驗(yàn)證它。而代碼的優(yōu)勢(shì)就在于,你可以動(dòng)手驗(yàn)證。

Lex Fridman:沒(méi)錯(cuò),我同意你關(guān)于《LLM From Scratch》這本書(shū)的看法。屏蔽掉互聯(lián)網(wǎng)等一切干擾,全身心投入到書(shū)本中,這種感覺(jué)確實(shí)很好。但是,我也讀過(guò)一些書(shū),比如歷史書(shū)。某種程度上,讀書(shū)讓你不再感到孤獨(dú),這真的更有趣。不過(guò)在編程方面,我認(rèn)為與LLM一起編程確實(shí)更有意思。其實(shí)我認(rèn)為與LLM一起閱讀也更有趣。你說(shuō)得對(duì)。不過(guò)這種干擾應(yīng)該被降到最低。也就是說(shuō),你是利用LLM來(lái)從根本上豐富體驗(yàn),通過(guò)它增加更多的上下文。也許吧。我只是覺(jué)得,在小規(guī)模應(yīng)用上,LLM帶給我的“頓悟時(shí)刻”頻率真的很高。

Sebastian Raschka:確實(shí)如此。我也想修正一下我的觀點(diǎn),我并不是建議完全不使用LLM。我建議的是分階段進(jìn)行:先進(jìn)行一輪離線、專注模式的學(xué)習(xí),這時(shí)候雖然我會(huì)記筆記,但我會(huì)努力克制住立即查閱資料的沖動(dòng);之后我會(huì)進(jìn)行第二輪。對(duì)我來(lái)說(shuō),以這種方式組織學(xué)習(xí)更有效。有時(shí)候問(wèn)題在后續(xù)章節(jié)中自然會(huì)得到解答,而有時(shí)候,讓問(wèn)題沉淀一下、多思考一會(huì)兒也會(huì)有所幫助。當(dāng)然,每個(gè)人的偏好不同。我強(qiáng)烈建議在閱讀書(shū)籍時(shí)使用LLM,只是對(duì)我而言,它不是首選步驟,更像是第二輪的復(fù)習(xí)工具。

Lex Fridman:作為一個(gè)建議,我的做法恰恰相反。我喜歡在開(kāi)始時(shí)就使用LLM。我想先理清整個(gè)背景,比如了解我正要踏入的是一個(gè)什么樣的世界。但我會(huì)盡量避免從LLM的界面跳轉(zhuǎn)到Twitter或博客之類的網(wǎng)頁(yè),因?yàn)槟菢幽憔驼娴臅?huì)陷入無(wú)底洞。你會(huì)讀到某人的觀點(diǎn),或者看到關(guān)于某個(gè)特定話題的激烈爭(zhēng)論,突然間你就脫離了學(xué)習(xí)狀態(tài),進(jìn)入了互聯(lián)網(wǎng)和Reddit的領(lǐng)域。但如果你純粹是讓LLM為你提供“這件事為什么重要”的背景,以及大局觀是什么,這會(huì)非常有幫助。雖然有些書(shū)本身也很擅長(zhǎng)搭建背景,但并不總是如此。

Nathan Lambert:這就是為什么我喜歡ChatGPT的桌面應(yīng)用,因?yàn)樗袮I整合到了你的電腦工作中,你可以全身心投入其中,而不只是把它當(dāng)作雜亂無(wú)章的瀏覽器標(biāo)簽頁(yè)中的一個(gè)。我認(rèn)為Claude Code以及類似的特定工具在營(yíng)造這種愉悅感方面做得很好。作為一種產(chǎn)品設(shè)計(jì),它非常吸引人,充當(dāng)了一個(gè)讓你的AI走向世界的界面。Claude與OpenAI的Codex之間有一種難以言表的區(qū)別:Claude給人一種溫暖且引人入勝的感覺(jué);而Codex雖然通常也同樣出色,但總讓人覺(jué)得在細(xì)節(jié)處理上稍微有點(diǎn)粗糙。相比之下,Claude Code讓構(gòu)建東西變得很有趣,尤其是從零開(kāi)始的時(shí)候,你完全不用操心,因?yàn)槟阆嘈潘欢茏龀鰜?lái)。

這對(duì)搭建網(wǎng)站和類似的數(shù)據(jù)刷新工具非常有用。我用它來(lái)進(jìn)行數(shù)據(jù)分析。比如我的博客需要爬取Hugging Face的數(shù)據(jù),以便持續(xù)保存每個(gè)數(shù)據(jù)集和模型的下載量,F(xiàn)在我們有了這些數(shù)據(jù),Claude就像是說(shuō):“沒(méi)問(wèn)題,我已經(jīng)利用這些數(shù)據(jù)做好了分析。”我當(dāng)時(shí)心想,這原本得花掉我好幾天的時(shí)間。我有足夠的局勢(shì)感知能力去判斷它生成的趨勢(shì)是合理的,并且可以去核查。這確實(shí)是一種美妙的交互界面,你擁有了一個(gè)中間層,而不必親自去處理那些維護(hù)Web項(xiàng)目時(shí)必須面對(duì)的底層繁瑣工作。



4、開(kāi)源 vs 閉源 LLMs

Lex Fridman:好的。剛才我們討論了一系列關(guān)于閉源模型的話題。讓我們聊聊開(kāi)源模型。跟我說(shuō)說(shuō)開(kāi)源LLM的格局。哪些模型比較有趣?哪些讓你印象深刻,為什么?我們已經(jīng)提到了DeepSeek。

Nathan Lambert:你想看看我們憑記憶能說(shuō)出多少個(gè)嗎?

Lex Fridman:來(lái)吧,不用看筆記。

Nathan Lambert:DeepSeek、Kimi、MiniMax、智譜AI(Zhipu AI)、面壁智能(ModelBest)。這就已經(jīng)是不少中國(guó)模型了。然后我們把Mistral AI、Gemma也加進(jìn)來(lái)。還有GPT-OSS,也就是ChatGPT相關(guān)的開(kāi)源模型。實(shí)際上,NVIDIA也有一個(gè)非?岬哪P徒蠳emotron 3。特別是在年底這段時(shí)間,涌現(xiàn)了很多東西。Qwen(通義千問(wèn))也是一個(gè)顯而易見(jiàn)的名字。你至少可以列出10個(gè)中國(guó)的和10個(gè)西方的模型。

OpenAI實(shí)際上也發(fā)布了他們的第一個(gè)開(kāi)源模型——隔了很久,自GPT-2以來(lái)。這就是我當(dāng)時(shí)寫關(guān)于“OpenAI發(fā)布開(kāi)源模型”的文章時(shí)所指的。當(dāng)時(shí)人們都說(shuō)“別忘了GPT-2”,我覺(jué)得這很有趣,因?yàn)槟峭耆遣煌臅r(shí)代了。但GPT-OSS實(shí)際上是一個(gè)非常強(qiáng)大的模型,并且能做到其他模型做得不太好的一些事情。

出于私心,我也想推介一些西方公司。在美國(guó)和歐洲都有完全開(kāi)放的模型。我在艾倫人工智能研究所工作,我們一直在構(gòu)建OLMo,并發(fā)布了數(shù)據(jù)、代碼以及所有相關(guān)內(nèi)容。現(xiàn)在我們面臨著真正的競(jìng)爭(zhēng),人們正致力于發(fā)布所有內(nèi)容以便他人訓(xùn)練模型。例如基礎(chǔ)模型研究所(Institute for Foundation Models)推出的LM360,他們發(fā)布了K2模型。Apertus是一個(gè)瑞士的研究聯(lián)盟。Hugging Face推出了SmallLM,非常受歡迎。此外,NVIDIA的Nemotron也已經(jīng)開(kāi)始發(fā)布數(shù)據(jù)。還有斯坦福大學(xué)的Marin社區(qū)項(xiàng)目,它建立了一套流程,讓人們可以通過(guò)提交GitHub issue來(lái)實(shí)現(xiàn)新想法,并使其在穩(wěn)定的語(yǔ)言建模棧中運(yùn)行。所以在2024年,這個(gè)領(lǐng)域的名單要比以前豐富得多。我認(rèn)為這對(duì)于更多人參與進(jìn)來(lái)并理解語(yǔ)言模型是一件好事。

目前還沒(méi)有一家中國(guó)公司有類似的對(duì)應(yīng)機(jī)構(gòu)。我要指出的是,中國(guó)的開(kāi)源語(yǔ)言模型往往規(guī)模大得多,這使得它們作為混合專家模型(MoE)具有更高的峰值性能。而許多我們非常喜歡的西方模型,無(wú)論是Gemma還是Nemotron,往往是來(lái)自美國(guó)的較小模型。不過(guò)這種情況正開(kāi)始改變。Mistral Large 3在12月發(fā)布了,它是一個(gè)巨大的MoE模型,架構(gòu)與DeepSeek非常相似。還有一家名為Reka的初創(chuàng)公司。Nemotron和NVIDIA已經(jīng)預(yù)告了參數(shù)量遠(yuǎn)超1000億甚至達(dá)到4000億級(jí)別的MoE模型,將在2026年第一季度左右推出。所以我認(rèn)為,在“人們使用中國(guó)還是美國(guó)的開(kāi)源模型”這一問(wèn)題上的平衡狀態(tài),今年將會(huì)發(fā)生改變。這是我個(gè)人非常期待看到的。

Lex Fridman:首先,非常佩服你能叫出這么多名字。LLaMA是你命名的嗎?

Nathan Lambert:不是我。

Lex Fridman:好的。你能提到有哪些表現(xiàn)突出的有趣模型嗎?你剛才提到了Qwen3顯然是一個(gè)佼佼者。

Sebastian Raschka:這一年幾乎是以DeepSeek的兩個(gè)動(dòng)作作為開(kāi)端和結(jié)尾的:DeepSeek V3和R1。DeepSeek V3是在2024年12月發(fā)布的,R1緊隨其后。我喜歡它們的地方在于,它們總是在架構(gòu)上有一些有趣的微調(diào),這是其他公司所不具備的。

除此之外,如果你想選擇熟悉但性能非常出色的模型,Qwen3是個(gè)好選擇。另外我還提到了GPT-OSS。我認(rèn)為GPT-OSS的有趣之處在于,它算是第一個(gè)在訓(xùn)練時(shí)就充分考慮到“工具調(diào)用(Tool Use)”的公開(kāi)權(quán)重模型。我確實(shí)認(rèn)為這在某種程度上是一種范式轉(zhuǎn)移,之前的生態(tài)系統(tǒng)尚未完全準(zhǔn)備好。

所謂“工具調(diào)用”,是指LLM能夠進(jìn)行網(wǎng)頁(yè)搜索,或者調(diào)用Python解釋器。我認(rèn)為這是一個(gè)巨大的突破。因?yàn)殛P(guān)于LLM最常見(jiàn)的抱怨之一就是“幻覺(jué)(Hallucinations)”。在我看來(lái),解決幻覺(jué)問(wèn)題的最佳方法之一,就是不要試圖讓模型總是去記憶信息或憑空捏造。對(duì)于數(shù)學(xué)問(wèn)題,為什么不直接讓它使用計(jì)算器應(yīng)用或Python呢?如果我問(wèn)LLM“誰(shuí)贏得了1998年的世界杯?”,與其讓它去死記硬背,不如讓它完全通過(guò)搜索來(lái)回答。它會(huì)進(jìn)行工具調(diào)用來(lái)訪問(wèn)Google,也許會(huì)找到FIFA官網(wǎng),然后告訴你“哦,是法國(guó)隊(duì)”。它能可靠地為你獲取信息。

所以我認(rèn)為這是一個(gè)巨大的突破,目前尚未被開(kāi)源、開(kāi)放權(quán)重生態(tài)系統(tǒng)充分利用。很多人不使用工具調(diào)用模式,首先是因?yàn)樾湃螁?wèn)題。你不想在自己的電腦上運(yùn)行一個(gè)擁有訪問(wèn)工具權(quán)限的模型,因?yàn)樗赡軙?huì)抹掉你的硬盤。所以你可能需要將其容器化。但我確實(shí)認(rèn)為,擁有這種能力是未來(lái)幾年非常重要的一步。

Lex Fridman:有幾件事簡(jiǎn)要說(shuō)一下。首先,謝謝你定義了你所說(shuō)的“工具調(diào)用”的具體含義。在討論這些概念時(shí),這樣做非常好。即使是像MoE這樣已經(jīng)非常成熟的概念,你也得說(shuō)明那代表“混合專家模型(Mixture of Experts)”,建立起直覺(jué),讓人們理解那意味著什么,它是如何被實(shí)際應(yīng)用的,以及有哪些不同的變體。那么,開(kāi)放模型如此爆發(fā)式增長(zhǎng)意味著什么?你的直覺(jué)是怎么樣的?

Nathan Lambert:如果你發(fā)布一個(gè)開(kāi)放模型,首要目的就是希望人們?nèi)ナ褂盟。緊隨其后的是透明度和信任等因素。當(dāng)你觀察中國(guó)時(shí),最大的原因在于他們希望全球用戶都能使用這些模型。如果你觀察美國(guó)以外的地區(qū),很多人不會(huì)為軟件付費(fèi),但他們可能擁有計(jì)算資源,可以把模型部署在本地運(yùn)行。此外,還有一些數(shù)據(jù)是你不想發(fā)送到云端的。因此,首要任務(wù)是讓人們開(kāi)始使用AI,或者使用你的AI,因?yàn)槿绻麤](méi)有模型訪問(wèn)權(quán)限,他們無(wú)法做到這一點(diǎn)。

Lex Fridman:我想我們應(yīng)該明確說(shuō)明,我們一直在討論這些中國(guó)模型和權(quán)重開(kāi)放模型,通常情況下,它們的運(yùn)行方式是在本地運(yùn)行。所以這并不是說(shuō)你把數(shù)據(jù)發(fā)送到了中國(guó),或者發(fā)送給了硅谷的任何開(kāi)發(fā)者。

Nathan Lambert:沒(méi)錯(cuò)。許多美國(guó)初創(chuàng)公司通過(guò)托管這些來(lái)自中國(guó)的模型并進(jìn)行銷售來(lái)賺錢,這被稱為賣Token,意味著有人會(huì)調(diào)用該模型來(lái)完成工作。

我認(rèn)為另一個(gè)原因是,像OpenAI這樣的美國(guó)公司非常缺乏GPU。他們已經(jīng)達(dá)到了GPU的極限。每當(dāng)他們發(fā)布新產(chǎn)品時(shí),總是在說(shuō)GPU資源非常緊張。在GPT-4o的發(fā)布環(huán)節(jié)中,Sam Altman曾暗示過(guò),發(fā)布這個(gè)是因?yàn)榭梢岳糜脩舻腉PU,他們不必動(dòng)用自己的資源,卻仍然可以獲得分發(fā)渠道。這對(duì)他們來(lái)說(shuō)沒(méi)有任何成本,是一個(gè)非,F(xiàn)實(shí)的考量。

Sebastian Raschka:對(duì)于用戶來(lái)說(shuō),有些用戶只是像使用ChatGPT那樣在本地使用模型。但對(duì)于公司而言,擁有這些模型是一個(gè)巨大的突破,因?yàn)槟憧梢远ㄖ扑鼈儯梢酝ㄟ^(guò)后期訓(xùn)練添加更多數(shù)據(jù)。比如將它們專門化為法律、醫(yī)療模型等。

此外,中國(guó)權(quán)重開(kāi)放模型的吸引力在于,它們的許可協(xié)議往往更加友好,通常是無(wú)限制的開(kāi)源許可(如Apache 2.0)。而如果我們使用像LLaMA或Gemma這樣的模型,其實(shí)是附帶條件的。比如在用戶數(shù)量方面有一個(gè)上限,如果你超過(guò)了幾百萬(wàn)用戶,就必須向Meta之類的公司報(bào)告財(cái)務(wù)狀況。雖然它是免費(fèi)模型,但確實(shí)存在束縛。人們更喜歡沒(méi)有束縛的東西。除了性能之外,這也是為什么來(lái)自中國(guó)的開(kāi)源權(quán)重模型如此受歡迎的原因之一:你可以直接使用它們,沒(méi)有任何陷阱。

Nathan Lambert:在這方面,生態(tài)系統(tǒng)已經(jīng)變得更好了。當(dāng)你打開(kāi)Perplexity并看到它顯示“在美國(guó)托管的Kimi-K2 Thinking”時(shí),這真的很有趣。這正是我們所討論的現(xiàn)象。Kimi-K2是一款非常受歡迎的模型,人們?cè)u(píng)價(jià)它在創(chuàng)意寫作以及處理軟件方面表現(xiàn)出色。這些就是人們?cè)诓煌P椭邪l(fā)現(xiàn)并喜愛(ài)的細(xì)微特質(zhì)。

Lex Fridman:那么,在這些模型探索過(guò)的想法中,有哪些是你覺(jué)得特別有趣、值得聊聊的嗎?也許我們可以按時(shí)間順序來(lái)談。

Sebastian Raschka:首先當(dāng)然是DeepSeek。如果我們聚焦2025年,R1其實(shí)是基于前一年(2024年12月)發(fā)布的DeepSeek V3。

在架構(gòu)方面,令人著迷的是,你仍然可以像我在《從零開(kāi)始構(gòu)建LLM》項(xiàng)目中做的那樣,從GPT-2開(kāi)始,通過(guò)添加組件將其轉(zhuǎn)化為另一個(gè)模型。它們之間有著非常緊密的血脈聯(lián)系。DeepSeek的獨(dú)特之處在于混合專家模型(MoE)——當(dāng)然,并不是他們發(fā)明了MoE,我們稍后可以詳細(xì)聊聊MoE具體意味著什么。除了MoE,他們還采用了多頭潛在注意力(Multi-head Latent Attention, MLA),這是對(duì)注意力機(jī)制的一種改進(jìn)。

我想說(shuō),在2025年,這些權(quán)重開(kāi)放模型之間的主要區(qū)別因素在于針對(duì)推理或KV緩存(KV cache)大小所做的各種微調(diào)。其目的主要是為了讓長(zhǎng)上下文的成本更低,通過(guò)縮小KV緩存的體積來(lái)實(shí)現(xiàn)。

我們可以做哪些調(diào)整?大部分集中在注意力機(jī)制上。DeepSeek使用了多頭潛在注意力。還有一種“分組查詢注意力(Group Query Attention, GQA)”,目前仍然非常流行,這也不是新發(fā)明的。OLMo-3使用了滑動(dòng)窗口注意力(Sliding Window Attention)。這些不同的微調(diào)使得模型各不相同。但我曾把它們?nèi)糠旁谝黄恼吕镞M(jìn)行過(guò)對(duì)比,發(fā)現(xiàn)它們驚人地相似。只是在中間層有多少次Transformer塊的重復(fù)等數(shù)字上有所不同。這就像是微調(diào)了一些小旋鈕,但無(wú)論如何它都能奏效。你可以移動(dòng)歸一化層來(lái)獲得性能提升。OLMo在消融實(shí)驗(yàn)(Ablation Studies)中展示了移動(dòng)組件對(duì)模型的具體影響。

實(shí)現(xiàn)Transformer并使其保持運(yùn)行的方法有很多。目前盛行的大思路包括MoE、MLA、滑動(dòng)窗口注意力以及GQA。到了年底,研究重點(diǎn)轉(zhuǎn)向了使注意力機(jī)制能夠隨推理Token數(shù)量線性擴(kuò)展。例如Qwen2.5-1M增加了一個(gè)門控Delta網(wǎng)絡(luò)(Gated Delta Net),有點(diǎn)像受到了狀態(tài)空間模型(SSM)的啟發(fā),本質(zhì)上是用一種更廉價(jià)的操作取代了昂貴的注意力機(jī)制。



5、Transformers:2019 年以來(lái) LLMs 的演進(jìn)

Lex Fridman:也許退一步來(lái)談?wù)凾ransformer架構(gòu)的總體情況會(huì)很有幫助。

Sebastian Raschka:好的,也許我們應(yīng)該從GPT-2架構(gòu)開(kāi)始。Transformer源自《Attention Is All You Need》這篇論文,原始架構(gòu)包含編碼器(Encoder)和解碼器(Decoder)。而GPT只專注于解碼器部分。它本質(zhì)上仍然是一個(gè)神經(jīng)網(wǎng)絡(luò),內(nèi)部包含注意力機(jī)制。你一次預(yù)測(cè)一個(gè)Token。將其通過(guò)一個(gè)嵌入層(Embedding Layer),接著是Transformer塊(包含注意力模塊和全連接層),中間還有一些歸一化層。

從GPT-2發(fā)展到現(xiàn)在,出現(xiàn)了例如混合專家(MoE)層。MoE并不是新發(fā)明的,其核心思想是在不增加每次前向傳播算力消耗的情況下,使模型參數(shù)總量變大。

在Transformer內(nèi)部有一個(gè)全連接層(可以想象成微型多層感知器MLP),它非常昂貴,因?yàn)樗侨B接的。如果你有一千個(gè)輸入、一千個(gè)輸出,那就是一百萬(wàn)個(gè)連接。MoE的想法是將這個(gè)全連接層擴(kuò)展為多個(gè)前饋網(wǎng)絡(luò)。假設(shè)你有256個(gè)這樣的網(wǎng)絡(luò)(專家),但你不會(huì)同時(shí)使用所有的。你有一個(gè)路由器(Router),它會(huì)根據(jù)輸入Token決定:“好的,使用這個(gè)專家網(wǎng)絡(luò)會(huì)很有用。”

這就叫混合專家。根據(jù)輸入內(nèi)容,比如是數(shù)學(xué)密集型任務(wù),還是英譯西任務(wù),它可能會(huì)咨詢不同的專家。當(dāng)然,這種分工并不像“數(shù)學(xué)專家”或“語(yǔ)言專家”那樣界限分明,它是一個(gè)更模糊的概念。但其核心思想是你把更多知識(shí)封裝進(jìn)了網(wǎng)絡(luò),但并非所有知識(shí)都會(huì)被時(shí)刻調(diào)用,因?yàn)槟菢犹速M(fèi)了。在Token生成過(guò)程中,路由器會(huì)有選擇性地分配任務(wù)。這增加了復(fù)雜性和訓(xùn)練難度,有很多環(huán)節(jié)可能出錯(cuò)。這可能也是為什么OLMo-3仍然使用稠密(Dense)模型的原因。稠密是指只有一個(gè)全連接模塊,并且始終被利用;而MoE被稱為稀疏(Sparse),因?yàn)橹挥胁糠謱<沂腔钴S的。

Lex Fridman:從根本上說(shuō),從GPT-2到現(xiàn)在,有多少新想法被實(shí)現(xiàn)了?比如,這些架構(gòu)之間到底有多大區(qū)別?

Sebastian Raschka:想象一下GPT-OSS中的分組查詢注意力(GQA),它只是從多頭注意力(MHA)微調(diào)而來(lái)的;蛘咚麄儼袻ayerNorm換成了RMSNorm,但這只是一種不同的歸一化方式。非線性激活函數(shù)從Sigmoid換成ReLU,這也并沒(méi)有從根本上改變網(wǎng)絡(luò)。

這只是微調(diào),做了一點(diǎn)點(diǎn)調(diào)整。我會(huì)說(shuō),它在本質(zhì)上并沒(méi)有那么大的不同,仍然是相同的架構(gòu)。你可以通過(guò)添加這些改動(dòng),從一個(gè)模型演進(jìn)到另一個(gè)。例如,我那本書(shū)里用的是GPT-2模型(約1.2億參數(shù)),但在獎(jiǎng)勵(lì)材料中,我?guī)缀鯊牧汩_(kāi)始構(gòu)建了Gemma 3.0。我總是從GPT-2模型開(kāi)始,然后調(diào)整組件,就能從一個(gè)模型演進(jìn)到另一個(gè)。從某種意義上說(shuō),這是一種傳承。

Lex Fridman:這真的很有意思。當(dāng)你退一步審視,你會(huì)發(fā)現(xiàn)AI領(lǐng)域的發(fā)展如此迅猛,但與此同時(shí),從根本上講,架構(gòu)并沒(méi)有發(fā)生翻天覆地的改變。那么,這種劇烈變革和進(jìn)步的動(dòng)能究竟源自何處?收益究竟在哪里?

Sebastian Raschka:在開(kāi)發(fā)或訓(xùn)練網(wǎng)絡(luò)的過(guò)程中存在不同的階段。在過(guò)去GPT-2的時(shí)代,只有預(yù)訓(xùn)練(Pre-training)。而現(xiàn)在,我們有了預(yù)訓(xùn)練、中訓(xùn)(Mid-training)和后訓(xùn)練(Post-training)。所以我認(rèn)為,我們目前正處于“后訓(xùn)練聚焦”階段。當(dāng)然,如果你能利用更好、更高質(zhì)量的數(shù)據(jù)進(jìn)行擴(kuò)展,預(yù)訓(xùn)練仍然會(huì)帶來(lái)優(yōu)勢(shì)。

但是,我們現(xiàn)在擁有了GPT-2所不具備的能力解鎖。例如ChatGPT,它本質(zhì)上是一個(gè)GPT-3模型。就架構(gòu)而言,GPT-3與GPT-2是相同的。新的突破在于增加了有監(jiān)督微調(diào)(SFT)以及人類反饋強(qiáng)化學(xué)習(xí)(RLHF)。所以這更多是算法層面的改進(jìn),而非架構(gòu)層面的變革。

Nathan Lambert:我認(rèn)為系統(tǒng)層面也發(fā)生了很大變化。如果你關(guān)注過(guò)Nvidia的發(fā)布會(huì),他們會(huì)提到諸如“現(xiàn)在支持FP8,支持FP4”之類的技術(shù)。這些實(shí)驗(yàn)室正在研究如何將更多的算力投入到單個(gè)模型中,這讓他們能夠訓(xùn)練得更快,從而輸入更多數(shù)據(jù)。通過(guò)這種方式,你可以更快地找到更優(yōu)的配置。

沒(méi)錯(cuò),本質(zhì)上“每GPU每秒處理的Token數(shù)”是你進(jìn)行大規(guī)模訓(xùn)練時(shí)關(guān)注的核心指標(biāo)。通過(guò)開(kāi)啟FP8訓(xùn)練,性能可以從10K提升到13K左右。這意味著模型中每個(gè)參數(shù)占用的內(nèi)存更少,通信開(kāi)銷降低,從而實(shí)現(xiàn)更快的訓(xùn)練速度。所有這些系統(tǒng)層面的優(yōu)化,支撐了數(shù)據(jù)和算法上更快速的實(shí)驗(yàn)迭代。

這就是一個(gè)不斷循環(huán)的過(guò)程。當(dāng)你觀察它們的架構(gòu)時(shí),很難描述清楚,因?yàn)樗鼈兛雌饋?lái)幾乎一樣,但訓(xùn)練這些模型的代碼庫(kù)卻截然不同。比如訓(xùn)練GPT-OSS 20B的實(shí)際用時(shí)比當(dāng)年訓(xùn)練GPT-2要快得多。在混合專家模型(MoE)中,他們采用了FP4優(yōu)化,從而獲得了更高的吞吐量。但這并沒(méi)有賦予模型新的“能力”,這僅僅關(guān)乎我們能在多大程度上使計(jì)算變得更粗粒度,而不導(dǎo)致模型性能下降。

目前Transformer架構(gòu)的替代方案正在涌現(xiàn),比如文本擴(kuò)散模型(Text Diffusion Models)或Mamba這種狀態(tài)空間模型(SSM)。但它們都存在權(quán)衡,事實(shí)是目前還沒(méi)有任何東西能取代自回歸Transformer作為SOTA(最先進(jìn))模型的地位。所以對(duì)于追求最先進(jìn)性能而言,你仍然會(huì)選擇它。

6、AI Scaling Laws:它們已經(jīng)失效還是依然成立?

Lex Fridman:我想這里的大問(wèn)題是,規(guī)模定律(Scaling Laws)在預(yù)訓(xùn)練、后訓(xùn)練、推理、上下文長(zhǎng)度、數(shù)據(jù)以及合成數(shù)據(jù)方面是否依然穩(wěn)固?

Nathan Lambert:我想先從規(guī)模定律的技術(shù)定義開(kāi)始。它本質(zhì)上是一種冪律關(guān)系,你可以將X軸視為算力和數(shù)據(jù)的結(jié)合,而Y軸是對(duì)下一個(gè)Token的留出預(yù)測(cè)準(zhǔn)確率。人們發(fā)現(xiàn)這是一種非?深A(yù)測(cè)的關(guān)系,我認(rèn)為這一技術(shù)趨勢(shì)仍在繼續(xù)。

現(xiàn)在的維度更加豐富了。OpenAI的o1引入了推理時(shí)擴(kuò)展(Inference Time Scaling)。此外,你還可以通過(guò)擴(kuò)展強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練來(lái)獲得性能提升。所以目前存在三個(gè)維度:

傳統(tǒng)規(guī)模定律:即模型規(guī)模和數(shù)據(jù)集規(guī)模。

強(qiáng)化學(xué)習(xí)規(guī)模:即你可以進(jìn)行多長(zhǎng)時(shí)間的試錯(cuò)學(xué)習(xí)。

推理側(cè)算力:即讓模型針對(duì)特定問(wèn)題生成更多的思維鏈Token。

我對(duì)這三者都持看好態(tài)度。過(guò)去一年在強(qiáng)化學(xué)習(xí)方面(特別是可驗(yàn)證獎(jiǎng)勵(lì)學(xué)習(xí),即RLVR)以及推理側(cè)擴(kuò)展方面已經(jīng)達(dá)成了很多容易實(shí)現(xiàn)的目標(biāo)。這就是為什么現(xiàn)在的模型使用起來(lái)感覺(jué)如此不同:以前你會(huì)立即得到第一個(gè)Token,而現(xiàn)在它們?cè)诮o出回答前會(huì)思考幾秒鐘甚至幾小時(shí),生成隱藏的思維鏈。這在模型能力變化方面簡(jiǎn)直是一種美妙的階躍函數(shù)。

這種能力幾乎完全源自于通過(guò)可驗(yàn)證獎(jiǎng)勵(lì)進(jìn)行的強(qiáng)化學(xué)習(xí)訓(xùn)練。當(dāng)你觀察模型生成大量Token時(shí)的推理過(guò)程,你會(huì)發(fā)現(xiàn)它經(jīng)常在嘗試:調(diào)用一個(gè)工具,查看結(jié)果;再嘗試另一個(gè)API,查看結(jié)果。模型很快就能學(xué)會(huì)執(zhí)行這些操作,這為模型在代碼庫(kù)中使用CLI命令、處理Git、整理文件等提供了通用基礎(chǔ)。

Lex Fridman:你提到你基本上看好每一種形式的Scaling。那么關(guān)于預(yù)訓(xùn)練,我們是否在暗示預(yù)訓(xùn)練規(guī)模化中那些“唾手可得的果實(shí)”已經(jīng)被采摘殆盡了?預(yù)訓(xùn)練是否遇到了瓶頸,還是你依然看好它?

Nathan Lambert:預(yù)訓(xùn)練已經(jīng)變得極其昂貴。要擴(kuò)大預(yù)訓(xùn)練規(guī)模,意味著你要提供一個(gè)非常龐大的模型。目前業(yè)內(nèi)共識(shí)是,像GPT-4這一代模型的大小大約在萬(wàn)億參數(shù)量級(jí)。其實(shí)隨著訓(xùn)練效率的提高,你會(huì)希望把模型做小,因?yàn)檫@樣提供服務(wù)的成本會(huì)成比例下降。

相對(duì)于向數(shù)億用戶提供服務(wù)的成本來(lái)說(shuō),訓(xùn)練成本其實(shí)是非常低的。DeepSeek有一個(gè)著名的數(shù)據(jù),按云市場(chǎng)價(jià)格計(jì)算,預(yù)訓(xùn)練費(fèi)用約為500萬(wàn)美元。在我們剛剛發(fā)布的OLMo 3論文中詳細(xì)說(shuō)明了,包括工程調(diào)試、實(shí)驗(yàn)和集群閑置在內(nèi),訓(xùn)練一個(gè)模型大約花費(fèi)了200萬(wàn)美元。很多人都能籌到幾百萬(wàn)美元來(lái)訓(xùn)練模型,但為數(shù)百萬(wàn)用戶提供服務(wù)的持續(xù)成本需要耗費(fèi)價(jià)值數(shù)十億美元的算力。

問(wèn)題在于,如果擴(kuò)展規(guī)模確實(shí)能帶來(lái)更好的模型,它在財(cái)務(wù)上是否值得?我認(rèn)為隨著AI解決更多引人注目的任務(wù),市場(chǎng)會(huì)推動(dòng)這一點(diǎn)。比如Claude 3.5 Opus與之前的模型相比,徹底解決了我在七月份構(gòu)建項(xiàng)目時(shí)遇到的問(wèn)題。所以進(jìn)步仍在繼續(xù)。

Lex Fridman:所以你的直覺(jué)是,如果不考慮財(cái)務(wù)可行性,僅僅從定律的角度來(lái)看,如果擴(kuò)展計(jì)算規(guī)模,模型會(huì)變得更聰明嗎?

Nathan Lambert:是的。雖然這聽(tīng)起來(lái)像是對(duì)AI公司領(lǐng)導(dǎo)層的盲目信任,但這一規(guī)律已經(jīng)支撐了13個(gè)數(shù)量級(jí)的算力增長(zhǎng),不太可能突然停止。只是最終我們可能無(wú)法測(cè)試更大的規(guī)模,因?yàn)橐?guī)模越大帶來(lái)的算力問(wèn)題越多。

現(xiàn)在大家都在討論2026年,屆時(shí)超大規(guī)模云服務(wù)商將投入運(yùn)營(yíng)吉瓦(Gigawatt)級(jí)規(guī)模的Blackwell算力集群。這些電力和數(shù)據(jù)中心合同都是在ChatGPT發(fā)布前后簽署的,建設(shè)周期需要兩三年。實(shí)驗(yàn)室將擁有更多的算力用于訓(xùn)練,這是一個(gè)既定事實(shí)。我預(yù)計(jì)我們會(huì)看到訂閱服務(wù)價(jià)格上漲,比如出現(xiàn)2000美元的訂閱服務(wù),這都源于更大一點(diǎn)的模型所提供的技術(shù)優(yōu)勢(shì)。

Lex Fridman:據(jù)報(bào)道xAI將在2026年初達(dá)到1吉瓦規(guī)模,并在年底達(dá)到2吉瓦。你認(rèn)為他們會(huì)在規(guī)模定律的背景下如何利用這些資源?很大一部分是推理嗎?還是訓(xùn)練?

Nathan Lambert:結(jié)果證明是“以上所有”。你在訓(xùn)練模型時(shí)做出的所有決策最終都會(huì)回到預(yù)訓(xùn)練。即使你打算擴(kuò)展RL,你也需要決定能夠?qū)崿F(xiàn)這一點(diǎn)的架構(gòu)。比如我們討論的混合專家模型(MoE),其稀疏特性使得生成效率大大提高,這已成為后訓(xùn)練的重要組成部分。

但我認(rèn)為大多數(shù)算力仍然正投入到預(yù)訓(xùn)練階段,因?yàn)槟闳匀幌M麚碛斜M可能最好的基礎(chǔ)模型。幾年后這可能會(huì)達(dá)到飽和,屆時(shí)RL算力投入的比例將會(huì)變大。

Lex Fridman:是否有人不同意你的觀點(diǎn),認(rèn)為預(yù)訓(xùn)練基本上已經(jīng)過(guò)時(shí)了?認(rèn)為現(xiàn)在的重點(diǎn)全在于推理擴(kuò)展、后訓(xùn)練擴(kuò)展、上下文擴(kuò)展以及合成數(shù)據(jù)?

Nathan Lambert:人們普遍有這種感覺(jué),但我認(rèn)為實(shí)際情況并非如此。那種“預(yù)訓(xùn)練已死”的論調(diào)只是因?yàn)榕d奮點(diǎn)轉(zhuǎn)移到了別處。

以我們?cè)?1月發(fā)布的模型為例,如果不算預(yù)訓(xùn)練,僅僅做后訓(xùn)練就花了五天時(shí)間,這對(duì)于一個(gè)300億參數(shù)的模型來(lái)說(shuō)是很長(zhǎng)的。到了12月,我們又讓強(qiáng)化學(xué)習(xí)運(yùn)行了三周半,模型變得顯著更好。把這么長(zhǎng)的時(shí)間分配給后訓(xùn)練是前所未有的。

但這并不意味著預(yù)訓(xùn)練被遺棄了。這是一種循環(huán):你重新進(jìn)行預(yù)訓(xùn)練,然后進(jìn)行一個(gè)月的后訓(xùn)練,接著進(jìn)行安全性測(cè)試發(fā)布給用戶?傆锌梢愿倪M(jìn)的地方。當(dāng)你使用10萬(wàn)塊GPU進(jìn)行大規(guī)模預(yù)訓(xùn)練時(shí),你會(huì)遇到截然不同的故障,幾乎肯定隨時(shí)至少有一塊GPU是宕機(jī)的。你需要讓訓(xùn)練代碼能夠處理這種冗余,這完全是另一回事。

當(dāng)我們轉(zhuǎn)向強(qiáng)化學(xué)習(xí)時(shí),它非常適合異構(gòu)計(jì)算。簡(jiǎn)要介紹一下語(yǔ)言模型的強(qiáng)化學(xué)習(xí):你需要準(zhǔn)備兩組GPU。一組是Actor(執(zhí)行者),負(fù)責(zé)生成內(nèi)容;另一組是Learner(學(xué)習(xí)者),負(fù)責(zé)實(shí)際的策略梯度更新(如PPO或GRPO算法)。你可以讓分布在世界各地的許多不同Actor處理問(wèn)題,將結(jié)果發(fā)回給Learner進(jìn)行評(píng)分和學(xué)習(xí)。

至于推理側(cè)擴(kuò)展,問(wèn)題變成了:你如何向1億用戶提供一個(gè)需要思考一小時(shí)的模型服務(wù)?這背后存在巨大的系統(tǒng)性挑戰(zhàn)。

Lex Fridman:但我聽(tīng)下來(lái),你對(duì)所有這些維度的擴(kuò)展都持樂(lè)觀態(tài)度。無(wú)論是推理、邏輯推理,還是預(yù)訓(xùn)練?

Sebastian Raschka:是的。在一個(gè)假設(shè)擁有無(wú)限計(jì)算資源的世界里,你會(huì)想要全面發(fā)力:預(yù)訓(xùn)練、中訓(xùn)、后訓(xùn)練、推理擴(kuò)展全部拉滿。更大的模型會(huì)賦予模型更多的知識(shí)。

但是正如Nathan所說(shuō),預(yù)訓(xùn)練變得太昂貴了。我們沒(méi)有無(wú)限的算力,所以必須進(jìn)行權(quán)衡。如果你把錢花在預(yù)訓(xùn)練上,這是一項(xiàng)固定成本,模型訓(xùn)練好后就永久擁有了這種能力。而對(duì)于推理側(cè)擴(kuò)展,你是為單次查詢付費(fèi)。

這就變成了一筆賬:如果我的模型半年后就會(huì)被替換,也許花1億美元去訓(xùn)練更大的模型并不值得,不如花200萬(wàn)美元做推理側(cè)擴(kuò)展來(lái)獲得同等的性能提升。這就是ChatGPT現(xiàn)在的策略,他們擁有海量用戶,所以選擇了一條更具性價(jià)比的路線,可能使用了一個(gè)稍微小一點(diǎn)的GPT-5模型配合推理擴(kuò)展。

但在某些特定任務(wù)(如奧數(shù))中,你可能需要巔峰性能?偠灾,我認(rèn)為預(yù)訓(xùn)練、中訓(xùn)、后訓(xùn)練以及推理側(cè)擴(kuò)展都是必須做的,關(guān)鍵在于找到合適的比例以獲得最高的性價(jià)比。



7、AI是如何訓(xùn)練的:Pre-training、Mid-training 和 Post-training

Lex Fridman:我認(rèn)為這里可能是定義預(yù)訓(xùn)練、中訓(xùn)和后訓(xùn)練的好地方。

Sebastian Raschka:預(yù)訓(xùn)練(Pre-training)是經(jīng)典的訓(xùn)練方式,即在海量的互聯(lián)網(wǎng)數(shù)據(jù)、書(shū)籍、論文等語(yǔ)料庫(kù)上,針對(duì)交叉熵?fù)p失進(jìn)行“預(yù)測(cè)下一個(gè)Token”的訓(xùn)練。現(xiàn)在的變化在于,不再僅僅是原始數(shù)據(jù),還包括合成數(shù)據(jù)。合成數(shù)據(jù)并不一定意味著純粹由AI虛構(gòu),它也包括從文章中提取內(nèi)容并改寫為高質(zhì)量的問(wèn)答或總結(jié)。這就像人類學(xué)習(xí):讀一本結(jié)構(gòu)清晰的書(shū)比看亂七八糟的Reddit帖子學(xué)得更快。高質(zhì)量數(shù)據(jù)能讓LLM訓(xùn)練得更快、更準(zhǔn)確。

中訓(xùn)(Mid-training)以前其實(shí)也被統(tǒng)稱為預(yù)訓(xùn)練。被稱為中訓(xùn)是因?yàn)樗橛陬A(yù)訓(xùn)練和后訓(xùn)練之間。它本質(zhì)上還是預(yù)訓(xùn)練,但更加專業(yè)化。例如,你在預(yù)訓(xùn)練階段沒(méi)有那么多的長(zhǎng)上下文文檔,所以你會(huì)設(shè)立一個(gè)特定的階段來(lái)專門訓(xùn)練長(zhǎng)上下文能力。

這就涉及到LLM的一個(gè)問(wèn)題:它是神經(jīng)網(wǎng)絡(luò),存在“災(zāi)難性遺忘”。你教它新東西,它就會(huì)忘記舊東西。這就像天下沒(méi)有免費(fèi)的午餐。

Lex Fridman:Nathan剛才實(shí)際上是在說(shuō)他攝取了太多的內(nèi)容,以至于出現(xiàn)了一種災(zāi)難性的遺忘問(wèn)題。

Sebastian Raschka:是的。我試著學(xué)習(xí)關(guān)于AI的一切,感覺(jué)就像我正在學(xué)習(xí)預(yù)訓(xùn)練并行性時(shí),腦子里丟掉了一些東西,但我甚至不知道丟掉的是什么。

雖然我不想將LLM(大語(yǔ)言模型)擬人化,但在某種意義上,這和人類學(xué)習(xí)的方式是一樣的。數(shù)量并不總是越大越好,這就涉及篩選機(jī)制。Mid-training(中期訓(xùn)練)階段就是針對(duì)高質(zhì)量?jī)?nèi)容進(jìn)行最終篩選,確保模型最后接觸到的是最優(yōu)質(zhì)的素材。隨后的Post-training(后訓(xùn)練)包含了所有的微調(diào)、監(jiān)督微調(diào)以及帶有可驗(yàn)證獎(jiǎng)勵(lì)的DPO強(qiáng)化學(xué)習(xí)。

通過(guò)人類反饋等方式進(jìn)行的微調(diào)階段非常有趣,這也涉及到成本問(wèn)題。我們?cè)陬A(yù)訓(xùn)練上投入了巨資,相比之下強(qiáng)化學(xué)習(xí)(RL)的作用稍小一些。我認(rèn)為RL并不真正教給模型知識(shí),它更像是解鎖知識(shí),是一種技能學(xué)習(xí),教模型如何利用預(yù)訓(xùn)練中獲得的知識(shí)來(lái)解決問(wèn)題。雖然去年有幾篇關(guān)于將RL用于預(yù)訓(xùn)練的論文,但這目前還停留在玩具級(jí)示例階段,沒(méi)有人在生產(chǎn)環(huán)境中使用。泛化RL后訓(xùn)練更像是技能解鎖,而預(yù)訓(xùn)練本質(zhì)上是吸收知識(shí)。

Nathan Lambert:關(guān)于合成數(shù)據(jù),很多人誤以為它對(duì)模型訓(xùn)練不利。實(shí)際上,像DeepSeek和AI2等實(shí)驗(yàn)室都在做這方面的工作。比如OCR(光學(xué)字符識(shí)別)技術(shù),因?yàn)榫W(wǎng)絡(luò)上存在大量PDF和數(shù)字文檔,其格式難以進(jìn)行文本編碼。DeepSeek通過(guò)OCR提取了數(shù)萬(wàn)億用于預(yù)訓(xùn)練的候選數(shù)據(jù)Token。預(yù)訓(xùn)練數(shù)據(jù)集的規(guī)模通常以萬(wàn)億級(jí)Token衡量,研究人員的小模型大約在5到10萬(wàn)億,Qwen達(dá)到了50萬(wàn)億,有傳言稱閉源實(shí)驗(yàn)室甚至達(dá)到100萬(wàn)億。我們通過(guò)巨大的漏斗篩選出極小部分的數(shù)據(jù)用于實(shí)際訓(xùn)練。此外,利用像ChatGPT生成的高質(zhì)量回答進(jìn)行訓(xùn)練,也屬于合成數(shù)據(jù)的一種,這與早期模型產(chǎn)生幻覺(jué)的數(shù)據(jù)截然不同。

以O(shè)LMo-3為例,盡管其訓(xùn)練數(shù)據(jù)量少于一些開(kāi)放權(quán)重模型,甚至可能少于OLMo-2,但性能卻更優(yōu),這主要?dú)w功于數(shù)據(jù)質(zhì)量。當(dāng)然,如果我們有更多算力,肯定會(huì)訓(xùn)練更長(zhǎng)時(shí)間。對(duì)于大模型而言,增加參數(shù)量和吸收更多數(shù)據(jù)是必然趨勢(shì)。目前的對(duì)數(shù)圖表顯示,小模型會(huì)更早進(jìn)入瓶頸期,而大模型能從海量數(shù)據(jù)中獲益更多。但在目前的模型規(guī)模下,獲取最高質(zhì)量數(shù)據(jù)是我們的自然起點(diǎn)。

Lex Fridman:關(guān)于數(shù)據(jù)質(zhì)量,是否還有一些唾手可得的機(jī)會(huì)可以進(jìn)一步提升它?

Nathan Lambert:這需要按部就班地推進(jìn)。開(kāi)源界一直有公認(rèn)的最佳預(yù)訓(xùn)練數(shù)據(jù)集,但隨著新數(shù)據(jù)集發(fā)布,這個(gè)地位會(huì)不斷更迭。比如AI2的Dolmo、Hugging Face的FineWeb以及DCLM項(xiàng)目。以前語(yǔ)言模型主要測(cè)試知識(shí)和對(duì)話能力,現(xiàn)在則要求處理數(shù)學(xué)和代碼。因此,訓(xùn)練推理模型需要重新混合整個(gè)數(shù)據(jù)集。這涉及精妙的科學(xué)方法:從GitHub、Stack Exchange、Reddit、維基百科等來(lái)源提取小樣本,針對(duì)不同配比訓(xùn)練小模型并評(píng)估,最后通過(guò)線性回歸得出最優(yōu)數(shù)據(jù)集配比。OLMo-3正是引入了新數(shù)據(jù)源來(lái)提升推理能力。隨著編程環(huán)境或網(wǎng)頁(yè)導(dǎo)航等新熱門領(lǐng)域的出現(xiàn),你需要不斷引入新數(shù)據(jù)并更改預(yù)訓(xùn)練過(guò)程。

Lex Fridman:有什么出乎意料的高質(zhì)量數(shù)據(jù)源嗎?你提到過(guò)Reddit。

Nathan Lambert:Reddit確實(shí)非常有用。此外PDF也是重要來(lái)源,特別是arXiv。AI2運(yùn)營(yíng)Semantic Scholar很久了,它是Google Scholar的強(qiáng)力競(jìng)品。我們抓取了大量公開(kāi)訪問(wèn)的論文PDF,這些是真正的開(kāi)放科學(xué)資源。前沿實(shí)驗(yàn)室在數(shù)據(jù)清洗和處理上早就投入了大量工作,F(xiàn)在的趨勢(shì)是,如果你想在AI領(lǐng)域產(chǎn)生影響力,與其研究花哨的算法(如O1或擴(kuò)展RL),不如致力于挖掘新數(shù)據(jù)或優(yōu)化基礎(chǔ)設(shè)施。

與此同時(shí),出于法律原因,訓(xùn)練數(shù)據(jù)的具體構(gòu)成是目前守得最嚴(yán)的秘密之一,各方都在試圖隱藏?cái)?shù)據(jù)來(lái)源以防止泄露。有些人嘗試僅使用授權(quán)數(shù)據(jù)訓(xùn)練,以符合歐盟的合規(guī)性要求。而像Common Crawl這種對(duì)整個(gè)互聯(lián)網(wǎng)的抓取,很大程度上是未經(jīng)明確授權(quán)的。

Sebastian Raschka:這里存在許可方面的區(qū)別。正如你所說(shuō),有些公司購(gòu)買了Amazon Kindle或Manning出版社的電子書(shū)用于訓(xùn)練,但這處于灰色地帶,因?yàn)榧幢愀顿M(fèi)購(gòu)買,用于訓(xùn)練可能仍受限制。OpenAI等巨頭也開(kāi)始接觸私營(yíng)企業(yè)獲取專有數(shù)據(jù),而企業(yè)為了建立護(hù)城河也更加注重保護(hù)數(shù)據(jù)。未來(lái),制藥、法律、金融等行業(yè)可能會(huì)利用專有數(shù)據(jù)構(gòu)建內(nèi)部模型,實(shí)現(xiàn)目前無(wú)法達(dá)到的預(yù)訓(xùn)練突破。目前的通用LLM還沒(méi)觸及針對(duì)特定任務(wù)訓(xùn)練后所能發(fā)揮潛力的皮毛。

Nathan Lambert:提到數(shù)據(jù)版權(quán),Anthropic在2025年輸?shù)袅艘粓?chǎng)官司,欠了作者15億美元。他們雖然購(gòu)買了數(shù)千本書(shū)進(jìn)行掃描(這是合法的),但也通過(guò)種子下載了書(shū)籍,正是這種下載行為導(dǎo)致法院判決巨額賠償。

Lex Fridman:這些法庭案件將定義人類文明的未來(lái)。你們兩位都是作家,當(dāng)傾注心血的作品被不加署名地用于訓(xùn)練時(shí),感覺(jué)就像是偷竊。

Sebastian Raschka:正如Nathan所說(shuō),這包含兩個(gè)層面。一種是購(gòu)買書(shū)籍后訓(xùn)練的公平性爭(zhēng)議,另一種是三家大公司直接使用盜版書(shū)籍且不給補(bǔ)償,后者正是讓人憤怒的癥結(jié)所在。我們需要建立某種類似Spotify流媒體模式的補(bǔ)償機(jī)制。

Lex Fridman:還有一件事,隨著LLM應(yīng)用越來(lái)越廣泛,GitHub上越來(lái)越多的代碼是由LLM生成的。這種情況有多嚴(yán)重?

Nathan Lambert:這是不可避免的。這基本上是由人類進(jìn)行篩選的LLM生成數(shù)據(jù)。

Sebastian Raschka:我有一個(gè)名為mlxtend的倉(cāng)庫(kù),是學(xué)生時(shí)代開(kāi)發(fā)的,主要用于頻繁項(xiàng)集數(shù)據(jù)挖掘。最近有人在極短時(shí)間內(nèi)提交了大量PR(拉取請(qǐng)求),我確信這是LLM生成的。作為維護(hù)者,我感到有些應(yīng)接不暇,因?yàn)闆](méi)時(shí)間仔細(xì)審核。但同時(shí)我也表示贊賞,因?yàn)檫@畢竟經(jīng)過(guò)了人類的驗(yàn)證,類似于RLHF中的數(shù)據(jù)標(biāo)注過(guò)程。

Lex Fridman:感覺(jué)原始的LLM生成數(shù)據(jù)與有人類參與(human in the loop)驗(yàn)證的數(shù)據(jù)之間存在本質(zhì)區(qū)別。

Sebastian Raschka:是的,即便只有一小部分經(jīng)過(guò)驗(yàn)證,也是有價(jià)值的。這就像專家使用LLM編寫代碼并剔除糟糕部分,這種經(jīng)過(guò)“預(yù)消化”的信息能節(jié)省大家的時(shí)間。與其我自己花幾個(gè)小時(shí)去閱讀并可能 產(chǎn)生誤解,不如獲取一份經(jīng)過(guò)專家篩選的執(zhí)行摘要。

Lex Fridman:這就很有意思了。我觀察到基于LLM的摘要往往會(huì)磨平原始內(nèi)容的棱角,這是否意味著信號(hào)的丟失?

Nathan Lambert:這就是我常說(shuō)的“聲音(Voice)”。我在寫作時(shí)嘗試將研究者認(rèn)知的感性直覺(jué)轉(zhuǎn)化為文字,這種粗放但高信息量的風(fēng)格正是研究的本質(zhì)。然而,經(jīng)過(guò)RLHF訓(xùn)練的模型旨在收集大量人類反饋并取平均值,這種過(guò)濾器導(dǎo)致模型難以表現(xiàn)得犀利,無(wú)法提取核心洞察。這已成為RLHF研究中的基礎(chǔ)性難題:它雖然提升了性能,但也扼殺了深層表達(dá)。

這也是非?膳碌,因?yàn)橛袛?shù)百萬(wàn)人正在使用這些產(chǎn)品。去年GPT-4o發(fā)布時(shí),用戶甚至因?yàn)椴煊X(jué)到模型微小的變化而發(fā)郵件投訴,就像電影《Her》一樣,人們對(duì)模型產(chǎn)生了情感依賴。

Lex Fridman:但這同時(shí)也帶來(lái)了風(fēng)險(xiǎn)。如果人們因抑郁或有自殺傾向而向LLM傾訴,記者可能會(huì)報(bào)道將自殺事件與LLM聯(lián)系起來(lái)。這會(huì)導(dǎo)致公司出于法律考量進(jìn)一步削弱模型的鋒芒,使其變得盡可能平庸。

Nathan Lambert:確實(shí)如此。你既不希望LLM對(duì)人類造成傷害,又希望它能進(jìn)行豐富、有挑戰(zhàn)性的對(duì)話,這對(duì)于RLHF研究人員來(lái)說(shuō)是極難平衡的。Anthropic和OpenAI的研究人員在文化上都希望通過(guò)技術(shù)造福世界。但這確實(shí)是一種心理煎熬:一方面,這項(xiàng)技術(shù)可能成為推向極端、導(dǎo)致某人崩潰的誘因;另一方面,它也可能挽救其他人的生命。這需要極強(qiáng)的信念感,將其視為一個(gè)必須解決的艱巨難題來(lái)對(duì)待。

Lex Fridman:我們作為一個(gè)社會(huì),作為技術(shù)用戶,必須確保關(guān)于AI的對(duì)話深入且復(fù)雜,而不是僅僅散布恐懼。比如指責(zé)科技巨頭正在傷害人類或竊取數(shù)據(jù),情況其實(shí)要比這復(fù)雜得多。這些公司內(nèi)部有很多好人,其中很多你也認(rèn)識(shí),他們真誠(chéng)地想幫助他人。他們不僅考慮硅谷,也在考慮全世界不同背景人們的需求。要設(shè)計(jì)一個(gè)能服務(wù)所有年齡層、文化背景和心理狀態(tài)的人的單一系統(tǒng),確實(shí)非常困難。

Nathan Lambert:我希望AI出現(xiàn)的時(shí)機(jī)能有所不同,避開(kāi)目前科技巨頭與普通人之間的這種緊張關(guān)系,F(xiàn)在看來(lái),AI不可避免地成了大公司的游戲,因?yàn)橥度雽?shí)在太昂貴了。人們常說(shuō)美國(guó)正將經(jīng)濟(jì)押注在AI上,這使得溝通環(huán)境變得異常艱難。但我很喜歡你提到的“自主性”。與其因?yàn)橛憛捒萍季揞^而拒絕AI,甚至被動(dòng)消費(fèi)互聯(lián)網(wǎng)上泛濫的AI垃圾內(nèi)容,不如通過(guò)使用AI進(jìn)行構(gòu)建來(lái)獲得主動(dòng)權(quán)。建立直覺(jué),理解它的運(yùn)作機(jī)制和弱點(diǎn),這是一種賦能。這樣你就能更有底氣地評(píng)價(jià):“這是對(duì)技術(shù)的錯(cuò)誤使用”或“這是良好的應(yīng)用”。作為深度融入系統(tǒng)的一員,你能比普通消費(fèi)者更好地引導(dǎo)它。

Sebastian Raschka:我覺(jué)得你提到的“自主性”這一點(diǎn)很好。與其忽視它,不如思考如何利用它提升自我。不過(guò)我也擔(dān)心,如果你完全用AI做你熱愛(ài)的事情,那份熱愛(ài)會(huì)不會(huì)消失?這可能會(huì)導(dǎo)致職業(yè)倦怠。舉個(gè)例子,如果我用LLM幫我完成所有的編碼工作,編碼過(guò)程本身就不存在了。我只是在管理一個(gè)幫我寫代碼的東西。假設(shè)兩年后,我每天八小時(shí)都只是在指揮AI編碼,我還會(huì)感到充實(shí)嗎?這是否會(huì)削弱我對(duì)工作的熱情,以及親手構(gòu)建事物的自豪感?

Lex Fridman:關(guān)于享受工作這點(diǎn)很有趣。最近有一項(xiàng)針對(duì)791名專業(yè)開(kāi)發(fā)者的調(diào)查,“專業(yè)”指的是擁有10年以上經(jīng)驗(yàn)的人。結(jié)果顯示,無(wú)論是初級(jí)還是高級(jí)開(kāi)發(fā)者,都在交付的代碼中使用了AI生成的內(nèi)容。更有趣的是,在那些超過(guò)50%代碼由AI生成的案例中,高級(jí)開(kāi)發(fā)者占比更高。至于這是否會(huì)奪走熱愛(ài),大約80%的人表示,將AI作為工作的一部分讓他們感到更有趣,甚至樂(lè)趣顯著增加。

Sebastian Raschka:我認(rèn)為這取決于具體任務(wù)。比如調(diào)整網(wǎng)站細(xì)節(jié)這種瑣事我并不喜歡,如果AI能代勞,我完全支持。但在解決復(fù)雜問(wèn)題、追蹤并修復(fù)Bug時(shí),那種成就感是無(wú)與倫比的。如果直接問(wèn)LLM,你就失去了這種樂(lè)趣。或許折中方案是先自己嘗試,卡住后再用LLM。正如你提到的例子,處理那種需要修復(fù)幾百個(gè)鏈接的枯燥工作,AI能消除挫敗感,表現(xiàn)非常出色。

Lex Fridman:對(duì)我來(lái)說(shuō),編程的樂(lè)趣很大一部分在于代碼本身。你說(shuō)調(diào)試是一種樂(lè)趣,我會(huì)說(shuō)調(diào)試就像在沙漠跋涉數(shù)日后終于喝到一口水。你是跳過(guò)了在沙漠受苦的部分。如果有結(jié)對(duì)編程的伙伴,即便他不能直接找到Bug,但他提供的直覺(jué)能陪你一起走出沙漠。這也反映了編程過(guò)程中的孤獨(dú)感,而AI能扮演這個(gè)伙伴的角色。

Sebastian Raschka:這可能也與延遲滿足有關(guān)。就像小時(shí)候期待圣誕禮物往往比真正收到時(shí)更快樂(lè),或者餓的時(shí)候吃飯更香。調(diào)試雖然令人沮喪,但解決后的感覺(jué)很棒。這里存在一個(gè)“金發(fā)姑娘原則”般的適度區(qū)間:太難是浪費(fèi)時(shí)間,太容易則學(xué)不到東西。資深開(kāi)發(fā)者使用AI生成的代碼更多,可能是因?yàn)樗麄冎廊绾胃咝褂貌彶榇a。未來(lái)的問(wèn)題是,如果從未親手從頭做起,初學(xué)者如何成為專家?如果不經(jīng)歷掙扎,就難以建立深刻的思維框架。也許我們需要每天專門抽出時(shí)間進(jìn)行不依賴AI的深度學(xué)習(xí),而不是把所有事情都交給LLM。

8、Post-training 詳解:LLMs領(lǐng)域令人興奮的新研究方向

Lex Fridman:這確實(shí)是我們需要尋找的平衡點(diǎn),F(xiàn)在讓我們回到編程語(yǔ)境。剛才我們聊了預(yù)訓(xùn)練和中期訓(xùn)練,現(xiàn)在談?wù)労笥?xùn)練(post-training)。在這個(gè)階段有哪些有趣的思路?

Nathan Lambert:2025年最大的突破是學(xué)習(xí)帶有可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)。通過(guò)大量擴(kuò)展“生成-評(píng)分”的迭代循環(huán),模型能學(xué)習(xí)工具調(diào)用和復(fù)雜的軟件行為。這種訓(xùn)練方式完美結(jié)合了推理時(shí)擴(kuò)展(inference time scaling),徹底改變了人們處理后訓(xùn)練的方式。

Lex Fridman:你能解釋一下由DeepSeek R1推廣的RLVR的工作原理嗎?

Nathan Lambert:有趣的是,RLVR這個(gè)術(shù)語(yǔ)源自我們?cè)贒eepSeek之前的Tulu 3研究。學(xué)術(shù)界往往擁有定義術(shù)語(yǔ)的話語(yǔ)權(quán),因?yàn)榉忾]實(shí)驗(yàn)室透露的信息有限。DeepSeek實(shí)現(xiàn)了訓(xùn)練突破,擴(kuò)展了強(qiáng)化學(xué)習(xí)的應(yīng)用:讓模型生成答案,根據(jù)正確率評(píng)分,這個(gè)準(zhǔn)確率就是獎(jiǎng)勵(lì)。傳統(tǒng)RL是在環(huán)境中最大化獎(jiǎng)勵(lì),而在語(yǔ)言模型中,獎(jiǎng)勵(lì)通常是數(shù)學(xué)或編程任務(wù)的準(zhǔn)確率,F(xiàn)在這種可驗(yàn)證的邊界正擴(kuò)展到事實(shí)核查或特定格式約束。其核心是找到更多可驗(yàn)證的問(wèn)題讓模型嘗試;A(chǔ)設(shè)施已從基于人類偏好的RLHF演變?yōu)獒槍?duì)客觀結(jié)果的優(yōu)化,這開(kāi)啟了模型能力的重大變革。

Lex Fridman:RLVR適用于哪些領(lǐng)域?

Nathan Lambert:最著名的是數(shù)學(xué)和代碼。此外還有基于“評(píng)分細(xì)則”(rubrics)的方法,即“LLM作為裁判”:用另一個(gè)模型根據(jù)準(zhǔn)則給生成的回答打分。雖然不如數(shù)學(xué)那樣絕對(duì)可驗(yàn)證,但這種思路正被推向更開(kāi)放的科學(xué)問(wèn)題領(lǐng)域。

Sebastian Raschka:回到RLVR,我覺(jué)得美妙之處在于,當(dāng)你給LLM一個(gè)已知答案的數(shù)學(xué)題并讓它求解時(shí),即便不加太多約束,它也會(huì)像學(xué)生或數(shù)學(xué)家一樣展示推導(dǎo)步驟。這些步驟不僅提高了準(zhǔn)確性,還體現(xiàn)了“推理擴(kuò)展”,即通過(guò)消耗更多Token(思考更久)來(lái)?yè)Q取更好的結(jié)果。R1論文中提到了“頓悟時(shí)刻”,即模型意識(shí)到錯(cuò)誤并自我修正,表現(xiàn)得就像人類一樣,這非常有意思,也能建立用戶對(duì)模型的信任。

今年關(guān)于“頓悟時(shí)刻”有很多爭(zhēng)論。我認(rèn)為這在某種程度上是虛假的,因?yàn)轭A(yù)訓(xùn)練數(shù)據(jù)包含了整個(gè)互聯(lián)網(wǎng),模型見(jiàn)過(guò)人類自我修正的文本。RLVR實(shí)際上是在放大這種有助于“思考”的行為。舉個(gè)實(shí)際例子,我在Math 500數(shù)據(jù)集上訓(xùn)練Qwen 3基座模型,僅用了50個(gè)步數(shù),幾分鐘內(nèi)準(zhǔn)確率就從15%飆升到50%。這說(shuō)明模型并不是在幾分鐘內(nèi)學(xué)會(huì)了數(shù)學(xué),而是RL解鎖了預(yù)訓(xùn)練中已有的知識(shí)。

Nathan Lambert:關(guān)于Qwen存在數(shù)據(jù)污染的爭(zhēng)議很大。比如把題目中的數(shù)字改掉但保留文字描述,在不使用工具的情況下,它依然能給出極高精度的答案,這暗示它在訓(xùn)練時(shí)見(jiàn)過(guò)測(cè)試題。因此,RLVR帶來(lái)的迅速提升可能部分歸因于格式化或記憶,而非真正的智力提升。除非我們?cè)谀P筒渴鸾刂谷掌诤蠼⑷碌幕鶞?zhǔn)測(cè)試,否則很難公平評(píng)估。

Lex Fridman:我們能否總結(jié)一下后訓(xùn)練(post-training)的“配方”?除了RLVR,RLHF還有什么作用?

Nathan Lambert:這可以看作是一個(gè)序列。首先是中期訓(xùn)練(mid-training),這是O1等推理模型的核心,需要極高質(zhì)量的“推理鏈”數(shù)據(jù)(將問(wèn)題分解為中間步驟),讓模型學(xué)會(huì)如何思考。

接下來(lái)是針對(duì)可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RL with Verifiable Rewards)。隨著模型變強(qiáng),簡(jiǎn)單問(wèn)題已無(wú)法提供足夠的訓(xùn)練信號(hào)(比如GRPO算法在所有答案一致時(shí)就沒(méi)有信號(hào)),所以前沿模型正向科學(xué)或復(fù)雜軟件等更難的領(lǐng)域進(jìn)軍,通過(guò)大量試錯(cuò)來(lái)提升技能。

最后是人類反饋強(qiáng)化學(xué)習(xí)(RLHF)。這依然是必不可少的“點(diǎn)睛之筆”,用于調(diào)整模型的語(yǔ)氣、風(fēng)格和格式(比如生成易讀的Markdown列表),使其更實(shí)用、更符合人類交互習(xí)慣。雖然RLHF也能提升數(shù)學(xué)表現(xiàn),但在可驗(yàn)證領(lǐng)域,RLVR是更直接的路徑。簡(jiǎn)而言之:中期訓(xùn)練賦予技能,RLVR通過(guò)試錯(cuò)深化能力,RLHF負(fù)責(zé)最后的潤(rùn)色與交互體驗(yàn)。

關(guān)于RLVR(基于驗(yàn)證的強(qiáng)化學(xué)習(xí))所需的算力消耗,其熱度確實(shí)在持續(xù)攀升。OpenAI的Greg Brockman曾有一句名言,提到他們?cè)陬A(yù)訓(xùn)練(Pre-training)和后訓(xùn)練(Post-training)階段使用了數(shù)量相近的算力。但回到關(guān)于擴(kuò)展(Scaling)的討論,這兩個(gè)階段涉及非常不同的硬件擴(kuò)展方式。預(yù)訓(xùn)練是受限于計(jì)算能力的(Compute-bound),也就是我們常說(shuō)的FLOPS(每秒浮點(diǎn)運(yùn)算次數(shù)),即單位時(shí)間內(nèi)能完成多少次矩陣乘法運(yùn)算。

而在強(qiáng)化學(xué)習(xí)(RL)階段,你是在生成答案并在真實(shí)世界環(huán)境中嘗試模型,它最終會(huì)變得更加受限于內(nèi)存(Memory-bound)。因?yàn)槟阍谏砷L(zhǎng)序列,而注意力機(jī)制的特性導(dǎo)致內(nèi)存占用會(huì)隨著序列變長(zhǎng)呈二次方增長(zhǎng)。因此,計(jì)算方式變得非常不同。如果在后訓(xùn)練階段使用FLOPS這個(gè)指標(biāo),情況會(huì)變得很奇怪,現(xiàn)實(shí)情況更應(yīng)該看你分配了多少GPU小時(shí)。

我認(rèn)為RL的運(yùn)行天數(shù)正在接近預(yù)訓(xùn)練的天數(shù),但可能沒(méi)有同時(shí)使用那么多GPU。預(yù)訓(xùn)練的計(jì)算密度極高,所有GPU都在高效通信;而RL包含各種動(dòng)態(tài)環(huán)節(jié),生成一個(gè)10萬(wàn)Token的序列可能需要很長(zhǎng)時(shí)間。比如考慮到GPT-5級(jí)別模型的推理可能需要運(yùn)行一個(gè)小時(shí),如果你有一個(gè)小時(shí)長(zhǎng)的訓(xùn)練樣本,必須設(shè)法高效處理它。所以從GPU小時(shí)數(shù)或?qū)嶋H時(shí)長(zhǎng)來(lái)看,RL的規(guī)模正在趕上,但人們不想像GPT-4那樣把所有雞蛋放在同一個(gè)籃子里進(jìn)行一次性的超大規(guī)模訓(xùn)練,現(xiàn)在的開(kāi)發(fā)更傾向于漸進(jìn)式。

Sebastian Raschka:RLVR在訓(xùn)練時(shí)長(zhǎng)或收益獲取方面更具無(wú)限潛力,而RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))本質(zhì)上是一種偏好微調(diào),達(dá)到某個(gè)點(diǎn)后,再投入更多資源意義不大。對(duì)于同一個(gè)問(wèn)題,不同人有不同的偏好(比如有人買電腦看重電池,有人看重算力),RLHF試圖找到一種“平均”的風(fēng)格。一旦模型學(xué)會(huì)了這種風(fēng)格,繼續(xù)訓(xùn)練就沒(méi)有意義了。而RLVR是讓模型解決越來(lái)越復(fù)雜的問(wèn)題,因此長(zhǎng)期來(lái)看,將更多預(yù)算分配給RL更為合理。

Nathan Lambert:目前我們正處于RL 1.0階段,即只關(guān)注“問(wèn)題”和“答案”,沒(méi)有處理中間過(guò)程。未來(lái)的重點(diǎn)將是過(guò)程獎(jiǎng)勵(lì)模型(Process Reward Models),即對(duì)推理過(guò)程中的每一個(gè)中間步驟進(jìn)行評(píng)分,這可以稱為RLVR 2.0。Google的相關(guān)論文和DeepSeek Math V2都展示了能夠自我評(píng)分的模型,這將是推理擴(kuò)展(Inference Scaling)的重要方向。過(guò)去在推理模型出現(xiàn)之前,人們嘗試過(guò)過(guò)程獎(jiǎng)勵(lì)模型但并未完全證實(shí)其有效性,現(xiàn)在隨著o1等推理模型的出現(xiàn),人們對(duì)價(jià)值函數(shù)(Value Functions)再次感到樂(lè)觀。



9、給初學(xué)者進(jìn)入AI開(kāi)發(fā)與研究領(lǐng)域的建議

Lex Fridman:現(xiàn)在我想稍微偏離一下主題,談?wù)劷逃。如果?tīng)眾是聰明的、對(duì)編程和AI感興趣的人,想從零開(kāi)始構(gòu)建一些東西,你建議該怎么做?

Sebastian Raschka:我建議先從頭開(kāi)始實(shí)現(xiàn)一個(gè)可以在單機(jī)上運(yùn)行的簡(jiǎn)單模型。這么做的目的不是為了用它取代ChatGPT或開(kāi)源權(quán)重模型作為日常助手,而是為了確切了解LLM的輸入輸出以及預(yù)訓(xùn)練的運(yùn)作機(jī)制。在自己的電腦上從零構(gòu)建,能讓你深入理解預(yù)訓(xùn)練、監(jiān)督微調(diào)(SFT)和注意力機(jī)制。

隨著模型規(guī)模擴(kuò)大,復(fù)雜性會(huì)呈指數(shù)級(jí)增長(zhǎng),比如需要考慮參數(shù)分片到多GPU、KV緩存(KV-cache)的各種實(shí)現(xiàn)方式。為了理解原理,你不需要一開(kāi)始就寫最優(yōu)化的代碼(比如預(yù)分配Tensor),雖然這會(huì)增加代碼量。這本書(shū)(指Sebastian的書(shū))的訣竅在于讓你理解LLM是如何工作的,一旦掌握了這些,你就能理解生產(chǎn)級(jí)的LLM。我構(gòu)建的大多數(shù)模型,包括混合專家模型(MoE),目標(biāo)都是能在單張GPU上運(yùn)行。

這幾乎就像RLVR一樣,你可以進(jìn)行自我驗(yàn)證。當(dāng)你從零編寫代碼時(shí),可以參考Hugging Face的Transformers庫(kù),但我認(rèn)為那里不是學(xué)習(xí)LLM原理的最佳起點(diǎn)。Transformers庫(kù)為了兼容成百上千種模型和生產(chǎn)環(huán)境,代碼極其復(fù)雜且交織在一起,閱讀體驗(yàn)不是線性的。我的建議是“逆向工程”:去查看模型倉(cāng)庫(kù)中的配置文件(Config),了解它用了多少層、是分組查詢注意力(GQA)還是多頭注意力。然后嘗試從你的基礎(chǔ)模型(比如GPT-2)開(kāi)始,把這些組件加進(jìn)去,加載預(yù)訓(xùn)練權(quán)重,看看能否得到相同的輸出。這能作為一種可驗(yàn)證的獎(jiǎng)勵(lì),確保你的架構(gòu)正確。比如我曾花了一天時(shí)間處理Llama 3,挑戰(zhàn)在于位置嵌入的RoPE和YaRN擴(kuò)展,在這個(gè)掙扎的過(guò)程中你會(huì)逐漸真正理解它。

Nathan Lambert:我非常贊同。每一位對(duì)當(dāng)今AI領(lǐng)域感興趣的人都應(yīng)該這樣做。我是從強(qiáng)化學(xué)習(xí)和機(jī)器人領(lǐng)域轉(zhuǎn)到語(yǔ)言模型的,我必須花時(shí)間補(bǔ)習(xí)Transformer架構(gòu)這些極其基礎(chǔ)的東西。掌握基礎(chǔ)后,很多人會(huì)感到迷茫,不知道如何產(chǎn)生影響力或找到職業(yè)路徑。因?yàn)锳I語(yǔ)言模型讓基礎(chǔ)知識(shí)變得易于獲取,問(wèn)題變成了“我該如何獲得參與研究的機(jī)會(huì)?”

對(duì)此我相當(dāng)樂(lè)觀。這個(gè)領(lǐng)域發(fā)展太快,很多頂尖人才會(huì)轉(zhuǎn)向解決更大、更唾手可得的難題,從而留下許多細(xì)分領(lǐng)域。我的建議是,在掌握基礎(chǔ)后,深入研究一個(gè)細(xì)分領(lǐng)域。比如我最近對(duì)“性格訓(xùn)練”產(chǎn)生了濃厚興趣,如何通過(guò)調(diào)整數(shù)據(jù)讓模型變得幽默、諷刺或嚴(yán)肅。曾有一位牛津大學(xué)的博士生聯(lián)系我,我對(duì)他說(shuō)這很有趣,現(xiàn)在他已經(jīng)發(fā)布了相關(guān)論文。在這個(gè)充滿噪音的領(lǐng)域,如果你能深耕某個(gè)看似冷門或無(wú)人解答的細(xì)分問(wèn)題(比如閱讀三篇論文并深入理解),你會(huì)發(fā)現(xiàn)很多有趣的東西值得學(xué)習(xí)。

Sebastian Raschka:是的,試圖面面俱到會(huì)讓人精疲力竭。說(shuō)回你的書(shū)(指Nathan正在編寫的RLHF相關(guān)書(shū)籍),我認(rèn)為它性價(jià)比極高。如果想學(xué)RLHF,直接讀論文可能會(huì)浪費(fèi)兩年時(shí)間,因?yàn)楹芏嘤^點(diǎn)相互矛盾。

Nathan Lambert:沒(méi)錯(cuò),我剛編輯完那本書(shū)。書(shū)中的章節(jié)涵蓋了后訓(xùn)練的大局觀:從偏好數(shù)據(jù)、獎(jiǎng)勵(lì)建模、正則化、指令微調(diào)、拒絕采樣到強(qiáng)化學(xué)習(xí)、憲法AI(Constitutional AI)、合成數(shù)據(jù)等。RLHF的核心難點(diǎn)在于“偏好”是多么的雜亂。我們?cè)跁?shū)中有一章專門討論了為什么RLHF永遠(yuǎn)無(wú)法被完全解決,因?yàn)閺母旧现v,它試圖將多維度的偏好(如準(zhǔn)確性與風(fēng)格)壓縮為單一數(shù)值,這涉及經(jīng)濟(jì)學(xué)中的馮·諾依曼-摩根斯坦效用定理和社會(huì)選擇理論。

我認(rèn)為對(duì)數(shù)學(xué)感興趣的人會(huì)在這里發(fā)現(xiàn)很多樂(lè)趣。比如在第14章,我列出了所有我喜歡的推理模型技術(shù)報(bào)告,F(xiàn)在的語(yǔ)言模型非常擅長(zhǎng)數(shù)學(xué),比如DPO(直接偏好優(yōu)化)這篇著名論文,它的推導(dǎo)過(guò)程省略了一些數(shù)學(xué)步驟。我為了寫書(shū)嘗試重新推導(dǎo)時(shí)非常痛苦,心想“這個(gè)對(duì)數(shù)技巧(log trick)到底是什么鬼?”雖然現(xiàn)在的模型可以直接告訴你答案,但我認(rèn)為經(jīng)歷這種推導(dǎo)的掙扎對(duì)學(xué)習(xí)是有好處的。

Lex Fridman:你們都提到了“掙扎”這一點(diǎn)。這非常有價(jià)值,如果學(xué)習(xí)過(guò)程中沒(méi)有感到掙扎,說(shuō)明你沒(méi)有遵循正確的學(xué)習(xí)流程。

Nathan Lambert:現(xiàn)在一些提供商開(kāi)始研發(fā)教育專用模型,設(shè)計(jì)初衷就是不直接給出所有信息,而是讓人們?yōu)榇烁冻雠。這就像玩解謎游戲(如塞爾達(dá)傳說(shuō))卡關(guān)時(shí),你只想要一個(gè)提示而不是劇透。你可以對(duì)模型說(shuō):“我算到這一步卡住了,不要直接給我答案,告訴我下一步該嘗試什么思路!边@需要自律,但也正是培養(yǎng)研究品味和長(zhǎng)期眼光的方式。我們需要知道在哪些事情上磨煉,在哪些事情上不必糾結(jié),這很難判斷,但必須培養(yǎng)這種品味。

我之前可能在和未婚妻或朋友聊這事,感覺(jué)就像存在一個(gè)短暫的10年窗口期,期間所有的作業(yè)和考試都實(shí)現(xiàn)了數(shù)字化。但在那之前,每個(gè)人都必須在答題本上完成所有考試,因?yàn)楫?dāng)時(shí)別無(wú)他法。而現(xiàn)在有了AI,每個(gè)人似乎又要回歸紙筆考試和口試了,因?yàn)樽鞅鬃兊锰菀住8杏X(jué)這短暫的一代人經(jīng)歷了一個(gè)完全不同的教育系統(tǒng),一切雖已數(shù)字化卻依然能防止作弊,但現(xiàn)在一切又要倒退回去了,這真的很有趣。

Lex Fridman:你剛才提到了角色訓(xùn)練,讓我們放大到更宏觀的話題。就這個(gè)領(lǐng)域而言,需要多少算力支持?總的來(lái)說(shuō),作為一名研究人員,是否有一些不需要太多算力,且個(gè)人也能真正做出貢獻(xiàn)的領(lǐng)域?

Nathan Lambert:僅就字符訓(xùn)練而言,這項(xiàng)研究通常是基于微調(diào)(fine-tuning)的。比如在7B參數(shù)模型上使用LoRA技術(shù),本質(zhì)上你只微調(diào)了模型權(quán)重的一個(gè)很小的子集。雖然我不確定具體需要消耗多少GPU小時(shí),但這種做法是完全可行的。

但這并非對(duì)所有學(xué)者都可行。有些學(xué)者的處境非常艱難,唯一能做的就是進(jìn)行推理工作,無(wú)論是使用閉源模型還是開(kāi)放權(quán)重模型。你可以獲取它們的補(bǔ)全結(jié)果,通過(guò)觀察這些結(jié)果來(lái)進(jìn)行研究和理解模型。這非常適合評(píng)估工作。如果你渴望成為那個(gè)最擅長(zhǎng)設(shè)計(jì)題目、能展示模型在何處失敗或具備何種能力的人,我認(rèn)為你可以通過(guò)這種方式取得突破。

對(duì)于從事評(píng)估工作的研究人員來(lái)說(shuō),最高目標(biāo)可能就是去Frontier Labs(前沿實(shí)驗(yàn)室)。你不需要讓每個(gè)項(xiàng)目都達(dá)到那個(gè)高度,但如果你來(lái)自一所沒(méi)有算力的小型大學(xué),卻發(fā)現(xiàn)了一些Claude難以處理的問(wèn)題,而下一代Claude模型在博客文章中專門提到了這點(diǎn),那就是你職業(yè)生涯的“火箭時(shí)刻”。這很難,但如果你想用最小的算力實(shí)現(xiàn)最大可能的影響力,就需要變得非常專注,并了解模型的發(fā)展方向。比如,構(gòu)建一個(gè)工具來(lái)測(cè)試Claude 4.5不會(huì)失敗的地方。如果要啟動(dòng)一個(gè)研究項(xiàng)目,我需要思考八個(gè)月后的模型會(huì)在哪些方面遇到困難。

Lex Fridman:但是開(kāi)發(fā)完全新穎的想法呢?

Nathan Lambert:這是一個(gè)權(quán)衡。如果你在讀博士,你也可以認(rèn)為研究語(yǔ)言模型的風(fēng)險(xiǎn)太大了,從而決定關(guān)注更長(zhǎng)遠(yuǎn)的東西,思考什么將在10年后定義語(yǔ)言模型的發(fā)展。

我認(rèn)為我最終成為了一個(gè)相當(dāng)務(wù)實(shí)的人。當(dāng)年我去讀博士時(shí)心想:“我考進(jìn)了Berkeley,最壞的情況也就是拿個(gè)碩士學(xué)位,然后去科技行業(yè)工作!比缃窕乜矗谶@些AI公司工作給人們帶來(lái)的生活變化是巨大的。比如OpenAI員工的平均薪酬僅股票部分每年就超過(guò)100萬(wàn)美元。在美國(guó),任何普通人只要能進(jìn)入這類AI實(shí)驗(yàn)室,人生都會(huì)發(fā)生翻天覆地的變化。

所以我非常務(wù)實(shí)地認(rèn)為,如果你足夠?qū)W,在語(yǔ)言模型領(lǐng)域工作仍然有很大的上升空間,看看這些職位的產(chǎn)出就知道了。但從研究角度來(lái)看,如果你的目標(biāo)是獲得學(xué)術(shù)獎(jiǎng)項(xiàng),想成為下一個(gè)Yann LeCun,那就不應(yīng)該太在意語(yǔ)言模型當(dāng)前的具體發(fā)展,因?yàn)檫@在經(jīng)濟(jì)上是一個(gè)巨大的犧牲。

我有機(jī)會(huì)和一些非常優(yōu)秀的學(xué)生一起工作,他們會(huì)問(wèn):“我應(yīng)該去AI實(shí)驗(yàn)室工作嗎?”我會(huì)說(shuō):“你正在頂尖學(xué)府攻讀博士學(xué)位,你打算離開(kāi)去實(shí)驗(yàn)室嗎?”我的反應(yīng)通常是“我不知道”。如果你是去頂尖實(shí)驗(yàn)室工作,我不怪你;別去那些可能歸零的隨機(jī)創(chuàng)業(yè)公司。但如果你是去OpenAI,我覺(jué)得那確實(shí)值得為了它放棄博士學(xué)位。

Lex Fridman:讓我們更嚴(yán)謹(jǐn)?shù)厮伎家幌拢銜?huì)建議人們?cè)谀睦镒龀鲅芯控暙I(xiàn)?選項(xiàng)包括:留在學(xué)術(shù)界花五年時(shí)間讀博士發(fā)論文;去那些計(jì)算資源受限但專注于開(kāi)放權(quán)重模型的研究實(shí)驗(yàn)室;或者是去閉源的前沿實(shí)驗(yàn)室,比如OpenAI、Anthropic、xAI等等。

Nathan Lambert:這兩個(gè)方向的梯度是:環(huán)境越封閉,你往往能拿到的錢越多,但獲得的個(gè)人認(rèn)可越少。作為一名學(xué)者,建立個(gè)人作品集是非常清晰的,你完成了什么一目了然。而去企業(yè)就像達(dá)成了一項(xiàng)合理的交易,你在這個(gè)進(jìn)階過(guò)程中成為大機(jī)器中的一顆螺絲釘,但這也可以非常有趣。這是非常不同的職業(yè)路徑。

成為一名研究員的機(jī)會(huì)成本非常高,因?yàn)椴┦可男剿⒑跗湮ⅰN艺J(rèn)為這最終會(huì)獎(jiǎng)勵(lì)那些擁有穩(wěn)定安全網(wǎng)的人,他們意識(shí)到自己可以在長(zhǎng)期內(nèi)運(yùn)作,想要從事有趣的工作。處于這種位置是相當(dāng)優(yōu)越的,可以說(shuō)“我要讀完P(guān)hD再去解決之后的事情”。與此同時(shí),學(xué)術(shù)生態(tài)系統(tǒng)正遭受資金方面的沉重打擊,撥款被削減。這里存在太多的權(quán)衡取舍,我能理解很多人因?yàn)闊o(wú)法應(yīng)對(duì)資金搜尋的壓力或未來(lái)的不確定性,而傾向于選擇那份薪水豐厚且具有重大影響力的工作。在OpenAI并不是拿薪水閑坐,你正在構(gòu)建最前沿的東西,這些東西正在改變數(shù)以百萬(wàn)計(jì)的人與技術(shù)的關(guān)系。

Lex Fridman:但在論文發(fā)表方面,這些公司變得越來(lái)越保守,趨勢(shì)日益明顯。所以你發(fā)表的東西越來(lái)越少,雖然在大范圍內(nèi)產(chǎn)生積極影響,但你只是機(jī)器上的一個(gè)齒輪。

Sebastian Raschka:老實(shí)說(shuō),我覺(jué)得情況并沒(méi)有改變那么多。我曾在學(xué)術(shù)界工作,當(dāng)時(shí)我與合作者將機(jī)器學(xué)習(xí)方法應(yīng)用于計(jì)算生物學(xué)領(lǐng)域,很多人也是直接從學(xué)術(shù)界去了Google。那時(shí)教授們會(huì)對(duì)學(xué)生進(jìn)入工業(yè)界感到難過(guò),因?yàn)閷W(xué)生無(wú)法繼承他們的衣缽,F(xiàn)在唯一的區(qū)別在于規(guī)模。以前這是一個(gè)封閉的行業(yè),你無(wú)法談?wù)撍,F(xiàn)在的區(qū)別在于你的偏好:你是喜歡談?wù)撃愕墓ぷ、發(fā)表成果,還是更傾向于待在一個(gè)封閉的實(shí)驗(yàn)室里?當(dāng)然還有薪酬的差別。

目前唯一不同的是有了第三種選擇:創(chuàng)辦初創(chuàng)公司。這是非常冒險(xiǎn)的舉動(dòng),屬于高風(fēng)險(xiǎn)高回報(bào)。而加入工業(yè)界實(shí)驗(yàn)室則相當(dāng)穩(wěn)妥,且有晉升空間,一旦有過(guò)這種經(jīng)歷,未來(lái)找工作也會(huì)更容易。這取決于你有多享受團(tuán)隊(duì)合作以及開(kāi)發(fā)專有技術(shù),相比之下你有多喜歡發(fā)表論文。發(fā)表論文壓力很大,會(huì)議錄用率具有隨機(jī)性,可能讓人沮喪,但如果發(fā)表了,那種署名的成就感是很高的。

Nathan Lambert:我覺(jué)得我那些當(dāng)教授的朋友平均來(lái)看似乎比在公司工作的朋友更快樂(lè)。前沿實(shí)驗(yàn)室絕對(duì)在實(shí)行“996”工作制,這基本上就是“一直工作”的代名詞。

10、AI行業(yè)的職場(chǎng)文化

Lex Fridman:你能描述一下996這種文化嗎?

Sebastian Raschka:就是早上9點(diǎn)工作到晚上9點(diǎn),每周六天,總共72小時(shí)。這種拼命工作的心態(tài)在硅谷AI公司里越來(lái)越普遍。

也許不完全是那樣,但確實(shí)有這種趨勢(shì)。這很有趣,我覺(jué)得情況幾乎反轉(zhuǎn)了。當(dāng)我在學(xué)術(shù)界時(shí),作為教授必須寫撥款申請(qǐng)、教課、做研究,這簡(jiǎn)直是三份工作合而為一,想成功就絕不僅是一份全職工作。相比之下,教授們現(xiàn)在的壓力或工作量甚至可能比前沿實(shí)驗(yàn)室還要小。

我覺(jué)得教授們工作非常努力,只是感到非常充實(shí)。通過(guò)與學(xué)生一起工作,擁有持續(xù)的導(dǎo)師制路徑和以人為本的使命,在一個(gè)發(fā)展極快且混亂的時(shí)代,這種成就感很重要。而在初創(chuàng)公司,壓力在于必須成功。大家投入時(shí)間確實(shí)非常重要,雖然辛苦,但必須不斷交付成果。我待過(guò)初創(chuàng)公司,雖然愉快,但那種節(jié)奏我不確定是否還能再經(jīng)歷一次。正如我們一開(kāi)始討論的,模型正在互相超越,競(jìng)爭(zhēng)非常殘酷。

Nathan Lambert:這種互相超越的特性以及多方參與,實(shí)際上是語(yǔ)言建模進(jìn)程中一個(gè)被低估的驅(qū)動(dòng)因素。競(jìng)爭(zhēng)深深植根于人心,這些公司有意創(chuàng)造了強(qiáng)勢(shì)的企業(yè)文化。比如Anthropic以其高度專注和嚴(yán)密組織的文化聞名,大家非常齊心協(xié)力。置身于這種凝聚力極強(qiáng)的競(jìng)爭(zhēng)態(tài)勢(shì)中,絕對(duì)會(huì)讓你努力工作并創(chuàng)造出更好的東西。但這以人力資本為代價(jià),人們肯定會(huì)感到職業(yè)倦怠。我自己也曾深陷其中,尤其是嘗試在擔(dān)任管理者的同時(shí)還要全身心投入模型訓(xùn)練。

Sebastian Raschka:我作為學(xué)者或獨(dú)立工作者時(shí)也會(huì)過(guò)度工作,這很不健康,我曾因此有過(guò)背部和頸部問(wèn)題,但這并不是因?yàn)橛腥藦?qiáng)迫我,而是因?yàn)槭虑樘钊伺d奮了。OpenAI和Anthropic的氛圍也是這樣,他們渴望做這些工作。

11、硅谷泡沫

Lex Fridman:是的,但同時(shí)也有一種正在積聚的狂熱感,特別是在硅谷。這種狂熱與“規(guī)模定律”(Scaling Laws)的理念相契合,認(rèn)為世界將在幾周內(nèi)發(fā)生翻天覆地的變化,大家都希望處于變革的中心。我有幸能觀察到各處存在的泡沫和信息繭房。硅谷某種程度上就是一個(gè)回音壁和孤島。這種泡沫實(shí)際上非常有用且有效,因?yàn)樗軒?lái)極高的效率,類似于史蒂夫·喬布斯的“現(xiàn)實(shí)扭曲場(chǎng)”,通過(guò)互相說(shuō)服突破近在咫尺,從而讓突破真的發(fā)生。

Burn Hobart寫過(guò)一本對(duì)泡沫分類的書(shū),提到一種是金融泡沫(投機(jī)),另一種則是建設(shè)性泡沫。AI正處于建設(shè)性階段,但我擔(dān)心它會(huì)轉(zhuǎn)變?yōu)榻鹑谂菽6胰绻阍谄x現(xiàn)實(shí)的同時(shí)進(jìn)行996工作,可能會(huì)錯(cuò)過(guò)人類體驗(yàn)中最基本的方面。這是硅谷的一個(gè)普遍問(wèn)題,作為一個(gè)特定地理區(qū)域,可能無(wú)法理解中西部地區(qū)乃至全世界其他人類的完整體驗(yàn)。這種與現(xiàn)實(shí)脫節(jié)可能會(huì)讓你陷入麻煩。

Lex Fridman:我甚至不太理解,但舊金山的AI圈已經(jīng)演變出了“永久底層階級(jí)”這種梗。其中一個(gè)觀點(diǎn)是,2025年的最后六個(gè)月是建立具有持久價(jià)值的AI初創(chuàng)公司或模型的唯一時(shí)機(jī),否則所有價(jià)值都將被現(xiàn)有公司攫取,你將因此陷入貧困。

Nathan Lambert:這就是舊金山那種走極端的例子。我仍然認(rèn)為,對(duì)于能接觸到資源的年輕人,如果你熱衷于在AI領(lǐng)域產(chǎn)生影響力,舊金山是最可能實(shí)現(xiàn)目標(biāo)的地方,但也有權(quán)衡。

Lex Fridman:舊金山是一個(gè)不可思議的地方,但確實(shí)存在泡沫。進(jìn)入泡沫固然有價(jià)值,但也請(qǐng)記得走出來(lái)。去讀讀歷史書(shū)、文學(xué)作品,去世界其他地方看看。Twitter和Substack并不是整個(gè)世界。

Nathan Lambert:我的一位同事準(zhǔn)備搬到舊金山,我得送他一本《Season of the Witch》,這是一本講述舊金山1960年到1985年歷史的書(shū)。書(shū)中詳細(xì)描述了嬉皮士革命、同性戀群體如何接管城市及文化的興起,還有后來(lái)的HIV/AIDS危機(jī)。舊金山經(jīng)歷了如此多的動(dòng)蕩和傷痛,同時(shí)也充滿了愛(ài)。這感覺(jué)就像發(fā)生在不久前,那是一本很棒的書(shū)。



12、文本擴(kuò)散模型(Text diffusion models)及其他新研究方向

Lex Fridman:好的,我們談了很多過(guò)去一年的事。但在今年,你們提到的一個(gè)令人興奮點(diǎn)是文本擴(kuò)散模型(Text Diffusion Models)的規(guī);约皩(duì)文本擴(kuò)散的不同探索。能談?wù)勀鞘鞘裁矗约八N(yùn)含著怎樣的可能性嗎?是與目前的語(yǔ)言模型(LM)不同的方法嗎?

Sebastian Raschka:是的。我們討論了很多關(guān)于Transformer架構(gòu)和自回歸Transformer的內(nèi)容(如GPT)。這并不意味著沒(méi)人在研究其他東西,不把雞蛋放在同一個(gè)籃子里總是個(gè)好主意。目前Transformer架構(gòu)是主流且效果最好,但人們正在開(kāi)發(fā)自回歸Transformer的替代方案,其中之一就是文本擴(kuò)散模型。

聽(tīng)眾可能通過(guò)Stable Diffusion了解了圖像生成中的擴(kuò)散模型。在生成圖像領(lǐng)域,人們?cè)褂肎AN(生成對(duì)抗網(wǎng)絡(luò)),后來(lái)出現(xiàn)了擴(kuò)散過(guò)程,通過(guò)隨時(shí)間迭代地對(duì)圖像進(jìn)行去噪,產(chǎn)生了高質(zhì)量圖像,F(xiàn)在人們想:“能不能把這種方法用于文本?”

這在直覺(jué)上不太好理解,因?yàn)槲谋臼请x散的,不像像素那樣是可微分的連續(xù)事物。這有點(diǎn)類似于Google的BERT模型。在原始Transformer中,有編碼器(Encoder)和解碼器(Decoder)。GPT使用的是解碼器,采用自回歸方式一次生成一個(gè)Token來(lái)完成句子。而在BERT(編碼器)中,你有一段帶有缺口(Mask)的文本,通過(guò)一次迭代來(lái)填補(bǔ)這些缺口。

文本擴(kuò)散與之類似,你從一段隨機(jī)文本開(kāi)始,通過(guò)多次迭代不斷填補(bǔ)和完善缺失部分。最酷的一點(diǎn)是,它可以同時(shí)處理多個(gè)Token,實(shí)現(xiàn)了并行化,從而帶來(lái)更高效率的承諾。當(dāng)然權(quán)衡在于質(zhì)量。現(xiàn)在有了“去噪過(guò)程”這個(gè)維度,執(zhí)行步驟越多,文本質(zhì)量越好。

目前有一些論文表明,如果想獲得與自回歸模型相同的質(zhì)量,必須增加去噪步數(shù),最終消耗的算力可能是一樣的。另一個(gè)缺點(diǎn)是,有些任務(wù)如推理或工具調(diào)用并不是并行的,這對(duì)于擴(kuò)散模型來(lái)說(shuō)有點(diǎn)棘手。Google提到正在推出Gemini Diffusion并整合到Nano2環(huán)境中,聲稱在大多數(shù)基準(zhǔn)測(cè)試中,以相同質(zhì)量可以更快地生成內(nèi)容。我不認(rèn)為文本擴(kuò)散模型會(huì)取代自回歸大語(yǔ)言模型,但它可能用于快速、廉價(jià)且大規(guī)模的任務(wù)。

Nathan Lambert:我覺(jué)得有幾個(gè)例子表明它已經(jīng)開(kāi)始被投入使用了。舉個(gè)例子,GPT-5可能需要30分鐘才能做出響應(yīng),因?yàn)樗且淮紊梢粋(gè)Token。而擴(kuò)散思路本質(zhì)上是在一個(gè)批次中生成所有補(bǔ)全內(nèi)容,所以快得多。

我聽(tīng)說(shuō)的初創(chuàng)公司,比如做代碼的,有人在進(jìn)行所謂的“氛圍編程”(vibe coding),他們對(duì)模型說(shuō)“做這個(gè)修改”。代碼差異(code diff)本質(zhì)上不需要模型給出包含大量外部上下文的詳盡回復(fù)。通過(guò)使用擴(kuò)散模型,可以非?焖俚孬@取結(jié)果。對(duì)于面向用戶的產(chǎn)品,如果使用自回歸模型生成非常長(zhǎng)的代碼差異可能需要幾分鐘,這會(huì)導(dǎo)致用戶流失。

所以它會(huì)不斷成長(zhǎng)并產(chǎn)生應(yīng)用。但我原以為不同類型的模型會(huì)比現(xiàn)在更早被用于不同場(chǎng)景。目前的阻礙在于“工具調(diào)用”(tool use)。例如ChatGPT在使用Cloud Code時(shí),自回歸鏈會(huì)被外部工具中斷,我不知道在擴(kuò)散模型設(shè)置下該如何實(shí)現(xiàn)這一點(diǎn)。

13、工具調(diào)用

Lex Fridman:今年以及未來(lái)幾年,工具調(diào)用(tool use)的前景如何?你認(rèn)為這方面會(huì)有怎樣的發(fā)展,以及它是如何集成到整個(gè)技術(shù)棧中的?

Sebastian Raschka:我認(rèn)為這方面會(huì)有巨大的發(fā)展。目前主要集中在閉源的專有LLM上,但我認(rèn)為我們會(huì)看到更多開(kāi)源工具的涌現(xiàn)。這是一個(gè)巨大的突破,因?yàn)檫@意味著你可以將某些單純依靠記憶的任務(wù)外包給工具。這就像如果你要算23加5,不需要讓LLM去死記硬背,直接調(diào)用計(jì)算器即可。

Lex Fridman:你認(rèn)為這能幫助減少幻覺(jué)問(wèn)題嗎?

Sebastian Raschka:不是徹底解決,但能減少。LLM仍然需要判斷何時(shí)調(diào)用工具。但這并不意味著互聯(lián)網(wǎng)上的信息總是正確的。比如我問(wèn)誰(shuí)贏得了1998年世界杯,模型仍然需要找到正確的網(wǎng)站并獲取正確的信息。如果訪問(wèn)了錯(cuò)誤的網(wǎng)站,依然會(huì)給出錯(cuò)誤信息。所以它不會(huì)完全解決那個(gè)問(wèn)題,但確實(shí)有所改進(jìn)。

今年早些時(shí)候,或者說(shuō)是去年年底,有一篇關(guān)于遞歸語(yǔ)言模型(recursive language model)的論文提出了很有趣的觀點(diǎn)。正如Nathan剛才提到的,學(xué)術(shù)界受限于算力預(yù)算,做前沿研究很難。那篇論文的作者甚至沒(méi)有使用本地模型,而是全部用GPT-5(注:此處可能指代當(dāng)時(shí)的SOTA模型如GPT-4等)完成的。其核心理念是:對(duì)于非長(zhǎng)上下文任務(wù),與其讓LLM試圖一站式解決所有問(wèn)題,不如將其分解為子任務(wù)。由LLM決定什么是合適的子任務(wù),然后遞歸地調(diào)用自身來(lái)解決。這種方式配合工具調(diào)用,比如在一個(gè)龐大的問(wèn)答任務(wù)中,針對(duì)每個(gè)子問(wèn)題去網(wǎng)上搜集信息,最后再匯總縫合。這種在不改變LLM本身的情況下改進(jìn)其使用方式和資源調(diào)用能力的模式,會(huì)帶來(lái)很多突破。

目前工具調(diào)用的一個(gè)缺點(diǎn)是必須賦予LLM權(quán)限,這需要極大的信任。如果要解鎖讓LLM回復(fù)郵件,或者僅僅是分類篩選郵件的功能,這都伴隨著巨大的風(fēng)險(xiǎn)。我不知道今天我是否敢給LLM訪問(wèn)我郵件的權(quán)限。

Nathan Lambert:關(guān)于工具調(diào)用還有一點(diǎn)很有趣,那就是開(kāi)源模型與閉源模型在使用工具的方式上截然不同。對(duì)于開(kāi)源模型,用戶從Hugging Face下載模型后,會(huì)根據(jù)自己的偏好選擇工具,比如有人喜歡Xa作為搜索提供商,有人喜歡另一家初創(chuàng)公司。這就要求發(fā)布模型時(shí),必須將其打造為通用的推理引擎,使其能適應(yīng)多種工具和用例,這正是GPT-OSS擅長(zhǎng)的地方。

相比之下,閉源模型是將特定的工具深度集成到體驗(yàn)中。我很難用閉源模型復(fù)制一些我喜歡的操作,比如嘗試通過(guò)提示詞讓模型像使用Codex那樣直接更新我的GitHub倉(cāng)庫(kù)。那種安全的云環(huán)境非常適合將任務(wù)發(fā)送出去執(zhí)行并返回結(jié)果。最初因?yàn)榇蠹壹庇趯?shí)現(xiàn)工具調(diào)用功能,導(dǎo)致開(kāi)源模型處于劣勢(shì),這在某種程度上是不可避免的。前沿實(shí)驗(yàn)室擁有海量資源,但當(dāng)開(kāi)源模型解決這個(gè)問(wèn)題時(shí),情況會(huì)變得很有趣,因?yàn)檫@將需要一種更靈活的模型來(lái)配合這種遞歸模式工作,充當(dāng)編排器和工具調(diào)用者的角色。

14、持續(xù)學(xué)習(xí)

Lex Fridman:持續(xù)學(xué)習(xí)(continual learning)是一個(gè)長(zhǎng)期存在的課題,隨著模型訓(xùn)練成本的上升,其重要性也在增加。你能解釋一下什么是持續(xù)學(xué)習(xí),以及在未來(lái)幾年中,它對(duì)于技術(shù)進(jìn)步有多重要嗎?

Nathan Lambert:這很大程度上與舊金山關(guān)于AGI(通用人工智能)和ASI(人工超智能)的時(shí)代精神有關(guān)。現(xiàn)在的語(yǔ)言模型雖然能解決很多任務(wù),但在AI社區(qū)看來(lái),關(guān)鍵的里程碑是AI能夠像遠(yuǎn)程員工一樣,接收信息、執(zhí)行數(shù)字化任務(wù)。目前的局限性在于,語(yǔ)言模型無(wú)法像員工那樣從反饋中學(xué)習(xí)。如果你雇傭一名編輯,他犯錯(cuò)后你會(huì)指正,優(yōu)秀的編輯不會(huì)再犯同樣的錯(cuò)誤。但語(yǔ)言模型不具備這種自我修正和快速學(xué)習(xí)的能力。如果我們想實(shí)現(xiàn)真正的、通用的、適應(yīng)性強(qiáng)的智能,它必須能夠從反饋和在職學(xué)習(xí)中快速提升。

我個(gè)人更看好通過(guò)提供極佳的Context(上下文)來(lái)解決問(wèn)題。你可以向模型提供海量文檔,告訴它這是你所有的博客文章、寫作風(fēng)格和語(yǔ)調(diào)。雖然以前的模型不支持這么大的上下文,但現(xiàn)在智能體模型(agentic models)才剛剛起步。這就帶來(lái)了一個(gè)權(quán)衡:我們是否真的需要通過(guò)持續(xù)學(xué)習(xí)來(lái)更新模型的權(quán)重?還是只需要提供更多的上下文信息,讓它們憑借高智能和豐富的信息表現(xiàn)出類似快速學(xué)習(xí)的效果?

Sebastian Raschka:我們需要厘清這里的術(shù)語(yǔ)。持續(xù)學(xué)習(xí)(continual learning)是指持續(xù)、快速且頻繁地改變權(quán)重,以便模型能夠根據(jù)新傳入的信息進(jìn)行適配。而另一面通常被稱為上下文學(xué)習(xí)(in-context learning),即利用巨大的上下文窗口,每次提示系統(tǒng)時(shí)不斷加載額外信息。這兩者都可以被視為學(xué)習(xí),只是發(fā)生的場(chǎng)所不同。

老實(shí)說(shuō),我認(rèn)為不同形式的持續(xù)學(xué)習(xí)(即權(quán)重更新)已經(jīng)存在了。如果是指全球范圍內(nèi)的模型更新,比如從GPT-5演進(jìn)到5.1、5.2,這本質(zhì)上就是一種包含反饋(針對(duì)失敗任務(wù)或社區(qū)反饋)的精選更新。更細(xì)粒度的例子像RLVR,運(yùn)行后會(huì)更新。

真正的問(wèn)題在于個(gè)性化定制。為每個(gè)人更新權(quán)重的成本太高了,即使以O(shè)penAI的規(guī)模也無(wú)法負(fù)擔(dān)這種數(shù)據(jù)中心級(jí)別的開(kāi)銷。我認(rèn)為只有當(dāng)這種運(yùn)算在設(shè)備端運(yùn)行且成本由消費(fèi)者承擔(dān)時(shí)才可行,就像Apple嘗試將基礎(chǔ)模型放在手機(jī)上并從經(jīng)驗(yàn)中學(xué)習(xí)那樣。

Lex Fridman:這引出了另一個(gè)相關(guān)話題——“記憶”,這可能是一個(gè)擬人化的術(shù)語(yǔ)。隨著系統(tǒng)閱歷的增加,關(guān)于如何為這些系統(tǒng)增加記憶機(jī)制,尤其是個(gè)性化記憶,有哪些不同的想法?

Sebastian Raschka:目前主流的做法還是“上下文填充”,即把東西塞進(jìn)上下文里然后通過(guò)檢索召回。但這非常昂貴,因?yàn)樾枰腡oken,且能力有限。這更多像是一種風(fēng)格偏好,比如告訴模型“按照我上次喜歡的去做”,但并不能解鎖新能力。

另一種方法是使用LoRA適配器。這種方式不更新整個(gè)權(quán)重矩陣,而是并行或疊加兩個(gè)較小的權(quán)重矩陣。但這歸根結(jié)底是經(jīng)濟(jì)學(xué)問(wèn)題。有論文指出,LoRA學(xué)到的東西較少,但遺忘的也較少。天下沒(méi)有免費(fèi)的午餐,如果你想學(xué)得更多,就需要?jiǎng)佑酶鄼?quán)重,成本也會(huì)隨之升高。而且學(xué)得越多,遺忘的也越多,必須找到那個(gè)適中的平衡點(diǎn)。

15、長(zhǎng)上下文

Lex Fridman:雖然我們沒(méi)明說(shuō),但討論中隱含了上下文長(zhǎng)度(context length)這一因素。這方面是否還有很多創(chuàng)新的空間?

Nathan Lambert:目前的共識(shí)是這主要取決于算力和數(shù)據(jù)。架構(gòu)上的一些微調(diào),比如混合注意力模型(hybrid attention models),本質(zhì)上是在Transformer中加入類似狀態(tài)空間模型(SSM)的結(jié)構(gòu),在建模時(shí)消耗的算力更少。但這也需要大量算力和正確的數(shù)據(jù)支持。世界上并沒(méi)有那么多高質(zhì)量的10萬(wàn)Token序列數(shù)據(jù)。

我認(rèn)為擴(kuò)展規(guī)模最終會(huì)變得非常昂貴。雖然我們已經(jīng)很快達(dá)到了100萬(wàn)Token的水平,預(yù)計(jì)今年可能會(huì)達(dá)到200萬(wàn)或500萬(wàn),但我不認(rèn)為會(huì)很快達(dá)到1億級(jí)別,那將是真正的突破。遞歸語(yǔ)言模型那篇論文就是試圖解決長(zhǎng)上下文問(wèn)題的嘗試之一。與其將所有內(nèi)容塞進(jìn)長(zhǎng)上下文,不如將其分解為多個(gè)更小的任務(wù),這樣不僅節(jié)省內(nèi)存,甚至能獲得比一次性處理更高的準(zhǔn)確率。

關(guān)于預(yù)訓(xùn)練有一些經(jīng)驗(yàn)法則。以O(shè)LMo為例,我們?cè)诖蠹s8K的上下文長(zhǎng)度下預(yù)訓(xùn)練,然后擴(kuò)展到32K。通常當(dāng)你將訓(xùn)練上下文長(zhǎng)度翻倍時(shí),會(huì)消耗大約2倍的算力。這在很大程度上受限于預(yù)訓(xùn)練階段的算力瓶頸。

但在后訓(xùn)練(post-training)方面,隨著智能體(agents)的發(fā)展,情況會(huì)更有趣。智能體將自行管理上下文,F(xiàn)在很多用Claude寫代碼的人擔(dān)心“壓縮”(compaction)問(wèn)題,即模型將10萬(wàn)Token的內(nèi)容壓縮成要點(diǎn)列表會(huì)丟失細(xì)節(jié)。但我確信下一代模型將能夠控制何時(shí)以及如何進(jìn)行壓縮。你可以訓(xùn)練RL算法,將壓縮視為一種動(dòng)作,目標(biāo)是在將歷史記錄壓縮到最短的同時(shí),保持最高的任務(wù)評(píng)估分?jǐn)?shù)。這意味著模型學(xué)會(huì)了以一種不同于以往只會(huì)“一路向前”的方式來(lái)利用上下文。

Sebastian Raschka:最近DeepSeek V3(或類似版本)采用的稀疏注意力機(jī)制(sparse attention mechanism)也是一個(gè)有趣的例子。它擁有高效輕量的索引器,不再關(guān)注所有Token,而是只選擇需要的Token。這幾乎回到了Attention最初的理念——具有選擇性,甚至直接掩蓋掉不需要處理的部分。OLMo的滑動(dòng)窗口注意力也是這類思路。

如果使用全部信息,確實(shí)最安全且性價(jià)比最高,因?yàn)椴粫?huì)遺漏信息。但今年將是探索如何變得更“聰明”的一年。大家先通過(guò)暴力計(jì)算堆出SOTA(最先進(jìn)水平),一旦達(dá)到那個(gè)準(zhǔn)確度,就開(kāi)始研究如何通過(guò)技巧以更低的成本實(shí)現(xiàn)它。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
4月24日上午中國(guó)女籃!傳來(lái)?xiàng)钍嬗、李月汝、王思雨最新情況

4月24日上午中國(guó)女籃!傳來(lái)?xiàng)钍嬗、李月汝、王思雨最新情況

杰絲聊古今
2026-04-24 18:05:48
80歲以上老人免費(fèi)玩密室?浙江湖州一店家標(biāo)語(yǔ)引熱議

80歲以上老人免費(fèi)玩密室?浙江湖州一店家標(biāo)語(yǔ)引熱議

現(xiàn)代快報(bào)
2026-04-24 18:03:07
靠,出事了!光刻膠第一真龍,獲高盛、巴克萊、瑞銀聯(lián)手掃貨?

靠,出事了!光刻膠第一真龍,獲高盛、巴克萊、瑞銀聯(lián)手掃貨?

財(cái)報(bào)翻譯官
2026-04-24 08:51:38
李湘半年時(shí)間狂甩五十斤,比16歲王詩(shī)齡狀態(tài)還好

李湘半年時(shí)間狂甩五十斤,比16歲王詩(shī)齡狀態(tài)還好

庭小娛
2026-04-23 10:46:25
15分鐘完成帽子戲法,吉布斯-懷特當(dāng)選英超第33輪最佳球員

15分鐘完成帽子戲法,吉布斯-懷特當(dāng)選英超第33輪最佳球員

懂球帝
2026-04-24 18:27:06
你最接近生理極限的一次經(jīng)歷是什么?網(wǎng)友分享讓人目瞪口呆!

你最接近生理極限的一次經(jīng)歷是什么?網(wǎng)友分享讓人目瞪口呆!

夜深愛(ài)雜談
2026-04-09 19:39:13
為何以前五一放7天,現(xiàn)在卻改成五天還得調(diào)休,原來(lái)都是他的建議

為何以前五一放7天,現(xiàn)在卻改成五天還得調(diào)休,原來(lái)都是他的建議

芭比衣櫥
2026-04-24 03:26:27
刪改的重災(zāi)區(qū)!90%的人童年看的龍珠第4話,都是被改過(guò)的

刪改的重災(zāi)區(qū)!90%的人童年看的龍珠第4話,都是被改過(guò)的

動(dòng)漫心世界
2026-04-23 14:40:59
【聚焦】醫(yī)生不再通宵!5月1日起,全國(guó)二級(jí)以上公立醫(yī)院執(zhí)行:12小時(shí)輪班制全面推開(kāi)

【聚焦】醫(yī)生不再通宵!5月1日起,全國(guó)二級(jí)以上公立醫(yī)院執(zhí)行:12小時(shí)輪班制全面推開(kāi)

魏子檸說(shuō)
2026-04-22 00:15:15
很多地方單位拖欠工資,不是不想發(fā)是真的周轉(zhuǎn)不過(guò)來(lái)

很多地方單位拖欠工資,不是不想發(fā)是真的周轉(zhuǎn)不過(guò)來(lái)

爆角追蹤
2026-04-24 18:34:02
全網(wǎng)唱衰的下嫁!嫁普通人5年,前任是法拉利總裁,終究還是輸了

全網(wǎng)唱衰的下嫁!嫁普通人5年,前任是法拉利總裁,終究還是輸了

橙星文娛
2026-04-18 16:42:58
沙特媒:迪拜國(guó)民全隊(duì)仍在沙特等待亞足聯(lián)回復(fù);球隊(duì)申訴重賽

沙特媒:迪拜國(guó)民全隊(duì)仍在沙特等待亞足聯(lián)回復(fù);球隊(duì)申訴重賽

懂球帝
2026-04-24 01:59:08
埃里克森:凱恩轉(zhuǎn)會(huì)拜仁前很多人質(zhì)疑,但他證明了自己的能力

埃里克森:凱恩轉(zhuǎn)會(huì)拜仁前很多人質(zhì)疑,但他證明了自己的能力

懂球帝
2026-04-24 18:58:32
大蒜再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血壓病人常吃,不用多久或有4變化

大蒜再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血壓病人常吃,不用多久或有4變化

白宸侃片
2026-04-24 17:08:52
俄議員:俄羅斯希望回購(gòu)中國(guó)航母,中方務(wù)必拆掉武器停止軍用

俄議員:俄羅斯希望回購(gòu)中國(guó)航母,中方務(wù)必拆掉武器停止軍用

風(fēng)雨與陽(yáng)光
2026-04-23 13:51:06
巴基斯坦、埃及、土耳其、印度尼西亞、約旦、卡塔爾、沙特、阿聯(lián)酋聯(lián)合聲明

巴基斯坦、埃及、土耳其、印度尼西亞、約旦、卡塔爾、沙特、阿聯(lián)酋聯(lián)合聲明

財(cái)聞
2026-04-24 08:51:35
毛主席緊急離開(kāi)武漢,空軍竟不放行,楊成武:不認(rèn)我這個(gè)代總長(zhǎng)?

毛主席緊急離開(kāi)武漢,空軍竟不放行,楊成武:不認(rèn)我這個(gè)代總長(zhǎng)?

驚視
2026-04-24 07:32:15
患難見(jiàn)情誼,普京被逼賣黃金?中方發(fā)話:俄賣多少,中方就收多少

患難見(jiàn)情誼,普京被逼賣黃金?中方發(fā)話:俄賣多少,中方就收多少

嘴角上翹
2026-04-23 18:08:12
斯諾克世界冠軍不同命!墨菲5連鞭領(lǐng)先肖國(guó)棟,囧哥3-5落后或翻車

斯諾克世界冠軍不同命!墨菲5連鞭領(lǐng)先肖國(guó)棟,囧哥3-5落后或翻車

劉姚堯的文字城堡
2026-04-24 09:20:36
每天吃一個(gè)蘋果,就等于給血糖升指標(biāo)?醫(yī)生提醒:別再走進(jìn)誤區(qū)了

每天吃一個(gè)蘋果,就等于給血糖升指標(biāo)?醫(yī)生提醒:別再走進(jìn)誤區(qū)了

芹姐說(shuō)生活
2026-04-24 13:50:18
2026-04-24 19:20:49
劃重點(diǎn)KeyPoints incentive-icons
劃重點(diǎn)KeyPoints
去除噪音,劃下重點(diǎn) 追蹤全球AI科技,記錄中國(guó)硬核崛起 溝通?一把把一傘一久耳久久漆
199文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價(jià)格依然"屠夫級(jí)"

頭條要聞

31人搶的小鵬事故車被36800元拍下 車主在車禍中身亡

頭條要聞

31人搶的小鵬事故車被36800元拍下 車主在車禍中身亡

體育要聞

里程碑之戰(zhàn)拖后腿,哈登18分8失誤

娛樂(lè)要聞

停工16個(gè)月!趙露思證實(shí)接拍新劇

財(cái)經(jīng)要聞

LG財(cái)閥內(nèi)斗:百億美元商業(yè)帝國(guó)爭(zhēng)奪戰(zhàn)

汽車要聞

零跑Lafa5 Ultra北京車展上市:11.88-12.48萬(wàn)

態(tài)度原創(chuàng)

時(shí)尚
健康
手機(jī)
家居
公開(kāi)課

水晶專場(chǎng) || 一眼就淪陷的絕美水晶,百元級(jí)的快樂(lè)

干細(xì)胞如何讓燒燙傷皮膚"再生"?

手機(jī)要聞

今年首款天璣9500+2K直屏旗艦來(lái)了!iQOO 15T五月亮相

家居要聞

自然肌理 溫潤(rùn)美學(xué)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版