網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek登上《Nature》封面，梁文鋒打破質(zhì)疑，給國(guó)人長(zhǎng)臉了

2025-09-19 15:20:42　來(lái)源: 科技頭版Pro

廣東舉報(bào)

分享至

創(chuàng)造歷史！DeepSeek-R1論文登上《Nature》封面

就在昨晚，DeepSeek團(tuán)隊(duì)再次創(chuàng)造了歷史！

由梁文鋒擔(dān)任通訊作者的DeepSeek-R1推理模型研究論文，登上了國(guó)際權(quán)威期刊《Nature（自然）》的封面。

圖源：Nature

有人可能會(huì)問(wèn)：DeepSeek登上《Nature》封面究竟意味著什么？

如果說(shuō)在《Nature》上發(fā)表論文是所有科研人員的夢(mèng)想，那么讓自己的研究成果登上封面，就相當(dāng)于贏得了科學(xué)界的“奧斯卡最佳影片”。

這本創(chuàng)刊于1869年的期刊，是全球科學(xué)界公認(rèn)的“圣杯”，代表著最前沿、最重磅、最可能改變世界的發(fā)現(xiàn)。而封面，則是優(yōu)中選優(yōu)，只留給當(dāng)期最耀眼的那顆星星。

這一次，這顆星星來(lái)自中國(guó)。封面標(biāo)題言簡(jiǎn)意賅——“Self-help: Reinforcement learning teaches large models to self-improve”（自我提升：強(qiáng)化學(xué)習(xí)教大模型自我完善）。

這是中國(guó)大模型研究成果第一次獲此殊榮，標(biāo)志著國(guó)際頂尖科學(xué)界對(duì)中國(guó)AI基礎(chǔ)研究的最高認(rèn)可。

圖源：Nature

值得注意的是，DeepSeek的創(chuàng)始人兼CEO梁文鋒，是這篇論文的唯一通訊作者。

而在這份長(zhǎng)長(zhǎng)的作者名單中，還有一位特別的成員——來(lái)自上海的高中生涂津豪。他曾在騰訊混元、DeepSeek實(shí)習(xí)，是開源項(xiàng)目Thinking-Claude的作者，也是2024阿里全球數(shù)賽AI挑戰(zhàn)賽的冠軍。

圖源：知乎

那么，為什么年初就發(fā)布的DeepSeek-R1模型時(shí)隔大半年才正式登上《Nature》呢？

這中間的漫長(zhǎng)時(shí)間，恰恰是這篇論文價(jià)值連城的關(guān)鍵所在——DeepSeek-R1經(jīng)歷了長(zhǎng)達(dá)半年的、由八位外部獨(dú)立專家參與的嚴(yán)苛同行評(píng)審過(guò)程。

這個(gè)過(guò)程的意義，遠(yuǎn)超論文本身。據(jù)《Nature》官方審稿人的描述，當(dāng)今的AI行業(yè)，充斥著“令人印象深刻的發(fā)布會(huì)演示”、“不斷刷新的排行榜分?jǐn)?shù)”以及各種“未經(jīng)證實(shí)的宣傳和炒作”。

誰(shuí)家的模型更強(qiáng)？往往是王婆賣瓜，自賣自夸。

而DeepSeek選擇了一條最艱難也最光榮的路：將自己的模型設(shè)計(jì)、方法論和局限性，毫無(wú)保留地交給全世界最頂尖的獨(dú)立專家進(jìn)行審視和“挑刺”。

正是這一勇敢的舉動(dòng)，創(chuàng)造了兩個(gè)歷史性的“第一”：全球第一個(gè)經(jīng)過(guò)同行評(píng)審的主流大語(yǔ)言模型以及第一個(gè)登上《Nature》封面的中國(guó)大模型。

圖源：X

在此之前，幾乎所有主流大模型都未經(jīng)過(guò)獨(dú)立的學(xué)術(shù)評(píng)審。《Nature》期刊自己也評(píng)論道，這個(gè)空白“終于被DeepSeek打破了”。

并且，DeepSeek團(tuán)隊(duì)還史無(wú)前例地做到了把“低價(jià)+透明”寫進(jìn)了頂刊。

此次論文的補(bǔ)充材料中，首次公開了R1模型僅用29.4萬(wàn)美元（約合人民幣209萬(wàn)元）的訓(xùn)練成本——使用H800芯片從V3-base版本訓(xùn)練至R1，成本僅為行業(yè)平均水平的1/10。

相比之下，諸如ChatGPT、谷歌Gemini等競(jìng)爭(zhēng)對(duì)手動(dòng)輒需要數(shù)千萬(wàn)甚至上億美元的投入，DeepSeek的成本控制堪稱奇跡。

更多細(xì)節(jié)披露：純強(qiáng)化學(xué)習(xí)“讓模型自己長(zhǎng)推理”

與1月份未經(jīng)評(píng)審的初版相比，發(fā)表在《Nature》上的新版論文包含了大量的補(bǔ)充材料，其中不僅披露了海量技術(shù)細(xì)節(jié)，還正面回應(yīng)了模型發(fā)布之初的核心爭(zhēng)議。

先說(shuō)這篇論文最大的亮點(diǎn)，就是證明了僅通過(guò)純強(qiáng)化學(xué)習(xí)（Pure Reinforcement Learning, RL），就能顯著激發(fā)大模型的推理能力，而無(wú)需大量人工標(biāo)注的“標(biāo)準(zhǔn)答案”。

圖源：Nature

這個(gè)概念聽起來(lái)很專業(yè)，但可以用一個(gè)簡(jiǎn)單的比喻來(lái)理解。

傳統(tǒng)的訓(xùn)練方法，比如監(jiān)督微調(diào)（SFT），就像是給學(xué)生一本習(xí)題冊(cè)，上面既有題目也有詳細(xì)的解題步驟和答案。學(xué)生要做的，是學(xué)習(xí)并模仿這些“標(biāo)準(zhǔn)解法”。

而DeepSeek的純強(qiáng)化學(xué)習(xí)方法則完全不同。

它更像是把學(xué)生關(guān)在一個(gè)只有題目和草稿紙的房間里，不提供任何解題范例。學(xué)生可以自由地用任何方法嘗試解題，最后只需要把答案提交。

系統(tǒng)只會(huì)告訴他“答對(duì)了”或“答錯(cuò)了”。如果答對(duì)了，就給予“獎(jiǎng)勵(lì)”；答錯(cuò)了，就給予“懲罰”。

在這種模式下，模型為了獲得更多獎(jiǎng)勵(lì)，必須自己去“悟”，去探索什么樣的思考路徑、什么樣的解題策略，才能最終導(dǎo)向正確的答案。

它不再是模仿人類，而是在創(chuàng)造屬于自己的、可能更高效的推理方法。

為了提升效率，團(tuán)隊(duì)還采用了名為“群體相對(duì)策略優(yōu)化”（GRPO）的算法，省去了一個(gè)龐大的“裁判”模型，從而大幅降低了訓(xùn)練成本。

最令人驚奇的是，通過(guò)這種“粗放”的訓(xùn)練，模型（特指其前身DeepSeek-R1-Zero）竟然自發(fā)地涌現(xiàn)出了多種類似人類的、復(fù)雜且高級(jí)的推理行為，而這些都是研究人員從未明確教過(guò)它的。

例如模型在給出最終答案前，學(xué)會(huì)了自己檢查一遍解題過(guò)程，就像我們做完數(shù)學(xué)題要驗(yàn)算一樣。

研究人員甚至觀察到了模型的“頓悟時(shí)刻”（Aha moment），在它的“內(nèi)心獨(dú)白”（推理過(guò)程）中，會(huì)突然出現(xiàn)“等等”（wait）這樣的詞，然后停下來(lái)重新評(píng)估自己最初的思路，修正錯(cuò)誤。

圖源：Nature

此外，該研究還發(fā)現(xiàn)DeepSeek具有長(zhǎng)思維鏈（Long CoT）和自適應(yīng)計(jì)算的能力。

一方面，面對(duì)復(fù)雜難題，模型會(huì)不惜花費(fèi)成百上千個(gè)“詞元”（token）來(lái)進(jìn)行深度思考和推理，展現(xiàn)出驚人的專注和嚴(yán)謹(jǐn)；

另一方面，模型還自己學(xué)會(huì)了“偷懶”，對(duì)簡(jiǎn)單問(wèn)題用較少的步驟快速解決，對(duì)復(fù)雜問(wèn)題則投入更多的計(jì)算資源進(jìn)行深度思考，實(shí)現(xiàn)了計(jì)算力的智能分配。

這些自發(fā)涌現(xiàn)的能力，最終轉(zhuǎn)化為了實(shí)打?qū)嵉男阅芴嵘?/p>

圖源：Nature

今年1月模型剛發(fā)布時(shí)，曾有媒體報(bào)道稱OpenAI的研究人員認(rèn)為DeepSeek涉嫌使用“蒸餾”技術(shù)——即用OpenAI模型生成的數(shù)據(jù)來(lái)訓(xùn)練自己的模型，從而用更低的成本“抄近道”。

這次的《Nature》論文，就是DeepSeek對(duì)此事最正式、最權(quán)威的回應(yīng)。

在與審稿人的溝通中，團(tuán)隊(duì)明確指出，R1模型的核心推理能力，是通過(guò)其獨(dú)創(chuàng)的純強(qiáng)化學(xué)習(xí)過(guò)程獨(dú)立訓(xùn)練出來(lái)的，并沒(méi)有學(xué)習(xí)或復(fù)制任何由OpenAI模型生成的推理范例。

當(dāng)然，團(tuán)隊(duì)也坦誠(chéng)地承認(rèn)，其基礎(chǔ)模型是在海量的互聯(lián)網(wǎng)數(shù)據(jù)上訓(xùn)練的，其中自然不可避免地吸收到一些其他AI生成的內(nèi)容。

俄亥俄州立大學(xué)AI研究員Huan Sun表示，這個(gè)解釋“與我們?cè)谌魏纬霭嫖镏锌吹降囊粯恿钊诵欧薄?/p>

為什么說(shuō)這是行業(yè)里程碑事件？

《Nature》審稿人Lewis Tunstall強(qiáng)調(diào)，將主流大模型提交同行評(píng)審是“一個(gè)值得歡迎的先例”，因?yàn)檫@為評(píng)估和管理AI風(fēng)險(xiǎn)提供了開放的基礎(chǔ)。

作為全球最頂級(jí)的科學(xué)權(quán)威機(jī)構(gòu)，Nature正在借助DeepSeek的案例，向OpenAI、Google、Anthropic等巨頭發(fā)出呼吁：請(qǐng)把你們的模型也拿到陽(yáng)光下，接受科學(xué)共同體的檢驗(yàn)。

DeepSeek的行為，正在倒逼整個(gè)行業(yè)提升透明度和可信度。

并且，DeepSeek的貢獻(xiàn)遠(yuǎn)不止于一篇論文。

他們選擇了“開放權(quán)重”（Open-weight）的模式，將模型的核心參數(shù)公之于眾，任何人都可以下載、研究和改進(jìn)他們的工作。

這一舉動(dòng)引爆了全球開發(fā)者社區(qū)，DeepSeek-R1迅速成為AI社區(qū)平臺(tái)Hugging Face上同類模型中下載量最高的模型，累計(jì)下載超過(guò)1090萬(wàn)次。

此外，團(tuán)隊(duì)還貼心地發(fā)布了多個(gè)“蒸餾”后的小尺寸模型，讓那些沒(méi)有海量計(jì)算資源的研究者和開發(fā)者也能用上先進(jìn)的推理能力。

這種開放精神，與一些巨頭公司“閉源”的路線形成了鮮明對(duì)比。

梁文鋒的野心徹底暴露

盡管取得了輝煌的成就，但客觀來(lái)看，DeepSeek的征途才剛剛開始。

在長(zhǎng)達(dá)64頁(yè)的同行評(píng)審報(bào)告中，8位審稿人共提出上百條具體意見，其中提到了DeepSeek數(shù)據(jù)細(xì)節(jié)仍不夠透明，獎(jiǎng)勵(lì)機(jī)制尚待優(yōu)化以及安全與倫理審查尚屬起步階段等問(wèn)題。

例如有審稿人要求DeepSeek在論文中附上SFT和RL數(shù)據(jù)的鏈接，而不僅僅是提供數(shù)據(jù)樣本。

不過(guò)，梁文鋒的野心顯然不局限于此。

據(jù)彭博社消息，DeepSeek正在秘密研發(fā)一款具備自我進(jìn)化能力的Agent。這款產(chǎn)品無(wú)需復(fù)雜指令，能自主學(xué)習(xí)并執(zhí)行多步驟任務(wù)，還可從歷史操作中迭代優(yōu)化。

該項(xiàng)目由梁文鋒親自帶隊(duì)，計(jì)劃在今年第四季度發(fā)布，目標(biāo)直指“無(wú)需人類干預(yù)的通用智能體”。

從《Nature》封面到自我進(jìn)化Agent，一條清晰的路徑已經(jīng)浮現(xiàn)。

如果說(shuō)《Nature》上的這篇論文證明了模型可以在虛擬的數(shù)學(xué)世界里“自我進(jìn)化”出推理能力，那么這款A(yù)gent的目標(biāo)，可能就會(huì)讓模型在更廣闊的數(shù)字世界里，通過(guò)與環(huán)境的真實(shí)交互，“自我進(jìn)化”出解決實(shí)際問(wèn)題的行動(dòng)能力。

梁文鋒和他的團(tuán)隊(duì)，真實(shí)目的應(yīng)該是創(chuàng)造出能夠自主學(xué)習(xí)、不斷成長(zhǎng)的AI新物種，從而徹底改變?nèi)藱C(jī)協(xié)作的范式。

這場(chǎng)好戲，才剛剛拉開序幕。

作者 | 劉峰

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.