国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek登上《Nature》封面,梁文鋒打破質(zhì)疑,給國(guó)人長(zhǎng)臉了

0
分享至



創(chuàng)造歷史!DeepSeek-R1論文登上《Nature》封面

就在昨晚,DeepSeek團(tuán)隊(duì)再次創(chuàng)造了歷史!

由梁文鋒擔(dān)任通訊作者的DeepSeek-R1推理模型研究論文,登上了國(guó)際權(quán)威期刊《Nature(自然)》的封面。



圖源:Nature

有人可能會(huì)問(wèn):DeepSeek登上《Nature》封面究竟意味著什么?

如果說(shuō)在《Nature》上發(fā)表論文是所有科研人員的夢(mèng)想,那么讓自己的研究成果登上封面,就相當(dāng)于贏得了科學(xué)界的“奧斯卡最佳影片”。

這本創(chuàng)刊于1869年的期刊,是全球科學(xué)界公認(rèn)的“圣杯”,代表著最前沿、最重磅、最可能改變世界的發(fā)現(xiàn)。而封面,則是優(yōu)中選優(yōu),只留給當(dāng)期最耀眼的那顆星星。

這一次,這顆星星來(lái)自中國(guó)。封面標(biāo)題言簡(jiǎn)意賅——“Self-help: Reinforcement learning teaches large models to self-improve”(自我提升:強(qiáng)化學(xué)習(xí)教大模型自我完善)。

這是中國(guó)大模型研究成果第一次獲此殊榮,標(biāo)志著國(guó)際頂尖科學(xué)界對(duì)中國(guó)AI基礎(chǔ)研究的最高認(rèn)可。



圖源:Nature

值得注意的是,DeepSeek的創(chuàng)始人兼CEO梁文鋒,是這篇論文的唯一通訊作者。

而在這份長(zhǎng)長(zhǎng)的作者名單中,還有一位特別的成員——來(lái)自上海的高中生涂津豪。他曾在騰訊混元、DeepSeek實(shí)習(xí),是開源項(xiàng)目Thinking-Claude的作者,也是2024阿里全球數(shù)賽AI挑戰(zhàn)賽的冠軍。



圖源:知乎

那么,為什么年初就發(fā)布的DeepSeek-R1模型時(shí)隔大半年才正式登上《Nature》呢?

這中間的漫長(zhǎng)時(shí)間,恰恰是這篇論文價(jià)值連城的關(guān)鍵所在——DeepSeek-R1經(jīng)歷了長(zhǎng)達(dá)半年的、由八位外部獨(dú)立專家參與的嚴(yán)苛同行評(píng)審過(guò)程。

這個(gè)過(guò)程的意義,遠(yuǎn)超論文本身。據(jù)《Nature》官方審稿人的描述,當(dāng)今的AI行業(yè),充斥著“令人印象深刻的發(fā)布會(huì)演示”、“不斷刷新的排行榜分?jǐn)?shù)”以及各種“未經(jīng)證實(shí)的宣傳和炒作”。

誰(shuí)家的模型更強(qiáng)?往往是王婆賣瓜,自賣自夸。

而DeepSeek選擇了一條最艱難也最光榮的路:將自己的模型設(shè)計(jì)、方法論和局限性,毫無(wú)保留地交給全世界最頂尖的獨(dú)立專家進(jìn)行審視和“挑刺”。

正是這一勇敢的舉動(dòng),創(chuàng)造了兩個(gè)歷史性的“第一”:全球第一個(gè)經(jīng)過(guò)同行評(píng)審的主流大語(yǔ)言模型以及第一個(gè)登上《Nature》封面的中國(guó)大模型。



圖源:X

在此之前,幾乎所有主流大模型都未經(jīng)過(guò)獨(dú)立的學(xué)術(shù)評(píng)審。《Nature》期刊自己也評(píng)論道,這個(gè)空白“終于被DeepSeek打破了”。

并且,DeepSeek團(tuán)隊(duì)還史無(wú)前例地做到了把“低價(jià)+透明”寫進(jìn)了頂刊。

此次論文的補(bǔ)充材料中,首次公開了R1模型僅用29.4萬(wàn)美元(約合人民幣209萬(wàn)元)的訓(xùn)練成本——使用H800芯片從V3-base版本訓(xùn)練至R1,成本僅為行業(yè)平均水平的1/10。

相比之下,諸如ChatGPT、谷歌Gemini等競(jìng)爭(zhēng)對(duì)手動(dòng)輒需要數(shù)千萬(wàn)甚至上億美元的投入,DeepSeek的成本控制堪稱奇跡。



更多細(xì)節(jié)披露:純強(qiáng)化學(xué)習(xí)“讓模型自己長(zhǎng)推理”

與1月份未經(jīng)評(píng)審的初版相比,發(fā)表在《Nature》上的新版論文包含了大量的補(bǔ)充材料,其中不僅披露了海量技術(shù)細(xì)節(jié),還正面回應(yīng)了模型發(fā)布之初的核心爭(zhēng)議。

先說(shuō)這篇論文最大的亮點(diǎn),就是證明了僅通過(guò)純強(qiáng)化學(xué)習(xí)(Pure Reinforcement Learning, RL),就能顯著激發(fā)大模型的推理能力,而無(wú)需大量人工標(biāo)注的“標(biāo)準(zhǔn)答案”。



圖源:Nature

這個(gè)概念聽起來(lái)很專業(yè),但可以用一個(gè)簡(jiǎn)單的比喻來(lái)理解。

傳統(tǒng)的訓(xùn)練方法,比如監(jiān)督微調(diào)(SFT),就像是給學(xué)生一本習(xí)題冊(cè),上面既有題目也有詳細(xì)的解題步驟和答案。學(xué)生要做的,是學(xué)習(xí)并模仿這些“標(biāo)準(zhǔn)解法”。

而DeepSeek的純強(qiáng)化學(xué)習(xí)方法則完全不同。

它更像是把學(xué)生關(guān)在一個(gè)只有題目和草稿紙的房間里,不提供任何解題范例。學(xué)生可以自由地用任何方法嘗試解題,最后只需要把答案提交。

系統(tǒng)只會(huì)告訴他“答對(duì)了”或“答錯(cuò)了”。如果答對(duì)了,就給予“獎(jiǎng)勵(lì)”;答錯(cuò)了,就給予“懲罰”

在這種模式下,模型為了獲得更多獎(jiǎng)勵(lì),必須自己去“悟”,去探索什么樣的思考路徑、什么樣的解題策略,才能最終導(dǎo)向正確的答案。

它不再是模仿人類,而是在創(chuàng)造屬于自己的、可能更高效的推理方法。

為了提升效率,團(tuán)隊(duì)還采用了名為“群體相對(duì)策略優(yōu)化”(GRPO)的算法,省去了一個(gè)龐大的“裁判”模型,從而大幅降低了訓(xùn)練成本。

最令人驚奇的是,通過(guò)這種“粗放”的訓(xùn)練,模型(特指其前身DeepSeek-R1-Zero)竟然自發(fā)地涌現(xiàn)出了多種類似人類的、復(fù)雜且高級(jí)的推理行為,而這些都是研究人員從未明確教過(guò)它的。

例如模型在給出最終答案前,學(xué)會(huì)了自己檢查一遍解題過(guò)程,就像我們做完數(shù)學(xué)題要驗(yàn)算一樣。

研究人員甚至觀察到了模型的“頓悟時(shí)刻”(Aha moment),在它的“內(nèi)心獨(dú)白”(推理過(guò)程)中,會(huì)突然出現(xiàn)“等等”(wait)這樣的詞,然后停下來(lái)重新評(píng)估自己最初的思路,修正錯(cuò)誤。



圖源:Nature

此外,該研究還發(fā)現(xiàn)DeepSeek具有長(zhǎng)思維鏈(Long CoT)自適應(yīng)計(jì)算的能力。

一方面,面對(duì)復(fù)雜難題,模型會(huì)不惜花費(fèi)成百上千個(gè)“詞元”(token)來(lái)進(jìn)行深度思考和推理,展現(xiàn)出驚人的專注和嚴(yán)謹(jǐn);

另一方面,模型還自己學(xué)會(huì)了“偷懶”,對(duì)簡(jiǎn)單問(wèn)題用較少的步驟快速解決,對(duì)復(fù)雜問(wèn)題則投入更多的計(jì)算資源進(jìn)行深度思考,實(shí)現(xiàn)了計(jì)算力的智能分配。

這些自發(fā)涌現(xiàn)的能力,最終轉(zhuǎn)化為了實(shí)打?qū)嵉男阅芴嵘?/p>



圖源:Nature

今年1月模型剛發(fā)布時(shí),曾有媒體報(bào)道稱OpenAI的研究人員認(rèn)為DeepSeek涉嫌使用“蒸餾”技術(shù)——即用OpenAI模型生成的數(shù)據(jù)來(lái)訓(xùn)練自己的模型,從而用更低的成本“抄近道”。

這次的《Nature》論文,就是DeepSeek對(duì)此事最正式、最權(quán)威的回應(yīng)。

在與審稿人的溝通中,團(tuán)隊(duì)明確指出,R1模型的核心推理能力,是通過(guò)其獨(dú)創(chuàng)的純強(qiáng)化學(xué)習(xí)過(guò)程獨(dú)立訓(xùn)練出來(lái)的,并沒(méi)有學(xué)習(xí)或復(fù)制任何由OpenAI模型生成的推理范例。

當(dāng)然,團(tuán)隊(duì)也坦誠(chéng)地承認(rèn),其基礎(chǔ)模型是在海量的互聯(lián)網(wǎng)數(shù)據(jù)上訓(xùn)練的,其中自然不可避免地吸收到一些其他AI生成的內(nèi)容。

俄亥俄州立大學(xué)AI研究員Huan Sun表示,這個(gè)解釋“與我們?cè)谌魏纬霭嫖镏锌吹降囊粯恿钊诵欧薄?/p>



為什么說(shuō)這是行業(yè)里程碑事件?

《Nature》審稿人Lewis Tunstall強(qiáng)調(diào),將主流大模型提交同行評(píng)審是“一個(gè)值得歡迎的先例”,因?yàn)檫@為評(píng)估和管理AI風(fēng)險(xiǎn)提供了開放的基礎(chǔ)。

作為全球最頂級(jí)的科學(xué)權(quán)威機(jī)構(gòu),Nature正在借助DeepSeek的案例,向OpenAI、Google、Anthropic等巨頭發(fā)出呼吁:請(qǐng)把你們的模型也拿到陽(yáng)光下,接受科學(xué)共同體的檢驗(yàn)。

DeepSeek的行為,正在倒逼整個(gè)行業(yè)提升透明度和可信度。

并且,DeepSeek的貢獻(xiàn)遠(yuǎn)不止于一篇論文。

他們選擇了“開放權(quán)重”(Open-weight)的模式,將模型的核心參數(shù)公之于眾,任何人都可以下載、研究和改進(jìn)他們的工作。

這一舉動(dòng)引爆了全球開發(fā)者社區(qū),DeepSeek-R1迅速成為AI社區(qū)平臺(tái)Hugging Face上同類模型中下載量最高的模型,累計(jì)下載超過(guò)1090萬(wàn)次。

此外,團(tuán)隊(duì)還貼心地發(fā)布了多個(gè)“蒸餾”后的小尺寸模型,讓那些沒(méi)有海量計(jì)算資源的研究者和開發(fā)者也能用上先進(jìn)的推理能力。

這種開放精神,與一些巨頭公司“閉源”的路線形成了鮮明對(duì)比。



梁文鋒的野心徹底暴露

盡管取得了輝煌的成就,但客觀來(lái)看,DeepSeek的征途才剛剛開始。

在長(zhǎng)達(dá)64頁(yè)的同行評(píng)審報(bào)告中,8位審稿人共提出上百條具體意見,其中提到了DeepSeek數(shù)據(jù)細(xì)節(jié)仍不夠透明,獎(jiǎng)勵(lì)機(jī)制尚待優(yōu)化以及安全與倫理審查尚屬起步階段等問(wèn)題。

例如有審稿人要求DeepSeek在論文中附上SFT和RL數(shù)據(jù)的鏈接,而不僅僅是提供數(shù)據(jù)樣本。

不過(guò),梁文鋒的野心顯然不局限于此。

據(jù)彭博社消息,DeepSeek正在秘密研發(fā)一款具備自我進(jìn)化能力的Agent。這款產(chǎn)品無(wú)需復(fù)雜指令,能自主學(xué)習(xí)并執(zhí)行多步驟任務(wù),還可從歷史操作中迭代優(yōu)化。

該項(xiàng)目由梁文鋒親自帶隊(duì),計(jì)劃在今年第四季度發(fā)布,目標(biāo)直指“無(wú)需人類干預(yù)的通用智能體”。

從《Nature》封面到自我進(jìn)化Agent,一條清晰的路徑已經(jīng)浮現(xiàn)。

如果說(shuō)《Nature》上的這篇論文證明了模型可以在虛擬的數(shù)學(xué)世界里“自我進(jìn)化”出推理能力,那么這款A(yù)gent的目標(biāo),可能就會(huì)讓模型在更廣闊的數(shù)字世界里,通過(guò)與環(huán)境的真實(shí)交互,“自我進(jìn)化”出解決實(shí)際問(wèn)題的行動(dòng)能力。

梁文鋒和他的團(tuán)隊(duì),真實(shí)目的應(yīng)該是創(chuàng)造出能夠自主學(xué)習(xí)、不斷成長(zhǎng)的AI新物種,從而徹底改變?nèi)藱C(jī)協(xié)作的范式。

這場(chǎng)好戲,才剛剛拉開序幕。

作者 | 劉峰

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
兩岸終于等來(lái)好消息!國(guó)共將再次歷史性握手!統(tǒng)一拐點(diǎn)正在逼近

兩岸終于等來(lái)好消息!國(guó)共將再次歷史性握手!統(tǒng)一拐點(diǎn)正在逼近

音樂(lè)時(shí)光的娛樂(lè)
2026-01-12 02:38:58
中東國(guó)家都意識(shí)到了:就算中國(guó)高端武器再多,也沒(méi)辦法保護(hù)他們

中東國(guó)家都意識(shí)到了:就算中國(guó)高端武器再多,也沒(méi)辦法保護(hù)他們

肖茲探秘說(shuō)
2026-01-01 20:16:34
特朗普聽取匯報(bào),威脅最快下周打擊伊朗

特朗普聽取匯報(bào),威脅最快下周打擊伊朗

山河路口
2026-01-11 12:14:33
上海警方喬裝潛伏犯罪團(tuán)伙!多地凌晨同步抓捕,72人落網(wǎng)!千萬(wàn)警惕

上海警方喬裝潛伏犯罪團(tuán)伙!多地凌晨同步抓捕,72人落網(wǎng)!千萬(wàn)警惕

新民晚報(bào)
2026-01-11 21:07:46
羊肉再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血壓人吃羊肉,過(guò)不多久或有幾益處

羊肉再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血壓人吃羊肉,過(guò)不多久或有幾益處

健康之光
2026-01-12 09:02:42
醫(yī)生忠告:不想結(jié)節(jié)發(fā)展成癌癥,5種食物能不吃就不吃

醫(yī)生忠告:不想結(jié)節(jié)發(fā)展成癌癥,5種食物能不吃就不吃

DrX說(shuō)
2026-01-12 14:50:03
唉!2米22中鋒,全場(chǎng)得0分,頂薪老將瞎扔,13中3,這球不輸才怪

唉!2米22中鋒,全場(chǎng)得0分,頂薪老將瞎扔,13中3,這球不輸才怪

金山話體育
2026-01-12 07:21:23
爆!B 費(fèi)力挺 + 名帥點(diǎn)頭,曼聯(lián)敲定新帥人選

爆!B 費(fèi)力挺 + 名帥點(diǎn)頭,曼聯(lián)敲定新帥人選

奶蓋熊本熊
2026-01-12 01:46:02
美專家罕見達(dá)成一致:一旦臺(tái)灣回歸中國(guó),美國(guó)可能就剩1條路可走

美專家罕見達(dá)成一致:一旦臺(tái)灣回歸中國(guó),美國(guó)可能就剩1條路可走

文史旺旺旺
2026-01-11 17:12:09
納什:美國(guó)籃球已經(jīng)完全商業(yè)化了,而在歐洲籃球是純粹地爭(zhēng)勝

納什:美國(guó)籃球已經(jīng)完全商業(yè)化了,而在歐洲籃球是純粹地爭(zhēng)勝

懂球帝
2026-01-12 08:13:08
特朗普:格陵蘭島僅靠狗拉雪橇進(jìn)行防衛(wèi),不管用什么辦法美國(guó)都要拿下格陵蘭島

特朗普:格陵蘭島僅靠狗拉雪橇進(jìn)行防衛(wèi),不管用什么辦法美國(guó)都要拿下格陵蘭島

環(huán)球網(wǎng)資訊
2026-01-12 08:54:18
對(duì) “臺(tái)獨(dú)劊子手”陳舒怡,必須抓捕歸案以平民憤、告忠魂!

對(duì) “臺(tái)獨(dú)劊子手”陳舒怡,必須抓捕歸案以平民憤、告忠魂!

達(dá)文西看世界
2026-01-12 14:14:16
開年A股風(fēng)格分化:滬指跑輸個(gè)股均值,超級(jí)大盤超八成收跌,中小盤股扛旗領(lǐng)跑

開年A股風(fēng)格分化:滬指跑輸個(gè)股均值,超級(jí)大盤超八成收跌,中小盤股扛旗領(lǐng)跑

財(cái)聯(lián)社
2026-01-12 18:36:06
最不該反的人,反了

最不該反的人,反了

我是歷史其實(shí)挺有趣
2025-11-22 08:46:10
每天2包煙,頓頓8兩白酒,70歲李琦跟去世前楊少華狀態(tài)如出一轍

每天2包煙,頓頓8兩白酒,70歲李琦跟去世前楊少華狀態(tài)如出一轍

以茶帶書
2026-01-11 13:55:14
“世界真奇妙,退休才知道”,副部級(jí)徐憲平1月12日晚將在中紀(jì)委專題片出鏡

“世界真奇妙,退休才知道”,副部級(jí)徐憲平1月12日晚將在中紀(jì)委專題片出鏡

澎湃新聞
2026-01-12 08:02:28
看到謝振軒對(duì)謝霆鋒那句冷冰冰的“別回來(lái)”,我忽然就懂了:

看到謝振軒對(duì)謝霆鋒那句冷冰冰的“別回來(lái)”,我忽然就懂了:

小光侃娛樂(lè)
2026-01-10 12:20:03
不歸路!中國(guó)要求日本全面解除武裝后,高市早苗宣布解散眾議院

不歸路!中國(guó)要求日本全面解除武裝后,高市早苗宣布解散眾議院

孤城落葉
2026-01-12 21:49:21
陜西發(fā)現(xiàn)曹真墓碑,碑中大罵諸葛亮,字跡卻被稱為“隸書正宗”!

陜西發(fā)現(xiàn)曹真墓碑,碑中大罵諸葛亮,字跡卻被稱為“隸書正宗”!

小熊侃史
2026-01-12 07:40:07
中國(guó)1-0爆冷澳洲,沒(méi)想到賽后王玉棟這么說(shuō) 距離創(chuàng)造歷史僅差一步

中國(guó)1-0爆冷澳洲,沒(méi)想到賽后王玉棟這么說(shuō) 距離創(chuàng)造歷史僅差一步

籃球看比賽
2026-01-12 11:19:53
2026-01-12 22:48:49
科技頭版Pro incentive-icons
科技頭版Pro
一起見證改變世界的力量
503文章數(shù) 168關(guān)注度
往期回顧 全部

科技要聞

面對(duì)SpaceX瘋狂“下餃子” 中國(guó)正面接招

頭條要聞

官方確認(rèn)殲10CE首次取得實(shí)戰(zhàn)戰(zhàn)果:零損失擊落多架戰(zhàn)機(jī)

頭條要聞

官方確認(rèn)殲10CE首次取得實(shí)戰(zhàn)戰(zhàn)果:零損失擊落多架戰(zhàn)機(jī)

體育要聞

聰明的球員,不是教練教出來(lái)的

娛樂(lè)要聞

蔡少芬結(jié)婚18周年,與張晉過(guò)二人世界

財(cái)經(jīng)要聞

倍輕松信披迷霧 實(shí)控人占用資金金額存疑

汽車要聞

增配不加價(jià) 北京現(xiàn)代 第五代 勝達(dá)2026款上市

態(tài)度原創(chuàng)

數(shù)碼
教育
家居
旅游
時(shí)尚

數(shù)碼要聞

真我Neo8發(fā)布:全球首發(fā)165Hz三星蒼穹屏

教育要聞

頭頂上的爭(zhēng)論 | 新觀察

家居要聞

包絡(luò)石木為生 野性舒適

旅游要聞

春節(jié)出境游全面超往年!“最長(zhǎng)春節(jié)”將至,你會(huì)選擇怎么過(guò)

冬季穿衣千萬(wàn)別花枝招展,這些基礎(chǔ)穿搭,越簡(jiǎn)單才越高級(jí)耐看

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版