国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek的陽謀:在《自然》雜志公布論文,到底贏得了什么?

0
分享至

DeepSeek 叕贏了,這回它登上了《自然》雜志的封面!



畫面中的立方體代表著電子神經(jīng)元,也就是我們常說的“大模型參數(shù)”,每個(gè)神經(jīng)元都在向著深層次方向探索。紅色的線代表關(guān)鍵的核心信號(hào),而白色的線則意味著發(fā)散的探索。最終,所有的探索都會(huì)變成電子神經(jīng)元之間的鏈接,最終完成對(duì)問題答案的探索。
下面的文字突出了一個(gè)關(guān)鍵詞:“SELF-HELP”,也就是“自學(xué)”,“Reinforcement learning teaches AI model to improve itself”的意思則是:強(qiáng)化學(xué)習(xí)教會(huì)人工智能模型自我提升。
不理解這句話沒關(guān)系,后文中有大白話的解讀。

DeepSeek經(jīng)歷了幾次爆火之后,已經(jīng)成了連老媽都熟悉的大眾詞匯。這回登上《自然》雜志的封面,大家的第一反應(yīng)就是:“遙遙領(lǐng)先”以及“厲害了我的國(guó)!”

不過別著急慶祝,如果你想知道DeepSeek為啥遙遙領(lǐng)先,以及領(lǐng)先在什么地方,那就把本文看完。全文大白話,包你一看看就懂。

DeepSeek填補(bǔ)行業(yè)空白

在《自然》雜志的官方評(píng)論里,有一個(gè)詞被反復(fù)強(qiáng)調(diào)了很多遍。這個(gè)詞不是“性能強(qiáng)大”,也不是“技術(shù)突破”,而是聽起來平平無奇的“同行評(píng)審”。

《自然》雜志說:目前所有主流的大模型都沒有經(jīng)過獨(dú)立的同行評(píng)審,而 DeepSeek 填補(bǔ)了這項(xiàng)行業(yè)空白。


Nature 發(fā)表 Editorial 文章《為何同行評(píng)審對(duì) AI 模型有益》,來


這就怪了。AI 領(lǐng)域日新月異,GPT 都更新到第 5 代了,同行評(píng)審就是讓你把成果拿給行業(yè)專家看看,怎么還能輪到后起之秀的 DeepSeek 來打破空白呢?難道,過去這些年,全世界的 AI 巨頭們,都是在王婆賣瓜的嗎?

嘿嘿,還真讓你說對(duì)了。

這個(gè)同行評(píng)審機(jī)制,就像是科學(xué)圈兒里的“質(zhì)監(jiān)局”。任何一項(xiàng)新的科學(xué)發(fā)現(xiàn),想要獲得公認(rèn),就必須把所有的實(shí)驗(yàn)方法、數(shù)據(jù)、推導(dǎo)過程,毫無保留地交給同行去匿名審查。


來源:Nature


要知道,同行是冤家這話可不是白說的,這些同行專家可不想你輕松獲得榮譽(yù),他們恨不得你翻車。所以,同行評(píng)審?fù)且粋€(gè)拿著顯微鏡挑刺的過程。實(shí)驗(yàn)設(shè)計(jì)不嚴(yán)謹(jǐn)啊,實(shí)驗(yàn)創(chuàng)新性不夠啊,實(shí)驗(yàn)數(shù)據(jù)不完整啊……反正各種問題全能給你挑出來。

當(dāng)然,挑刺歸挑刺,但是科學(xué)家還是講究科學(xué)精神的,真正過硬的研究,也會(huì)因?yàn)閲?yán)格的同行評(píng)審而獲得信任。

但是,人工智能大模型這個(gè)行業(yè)從一開始就被 ChatGPT-3 帶了個(gè)壞頭,ChatGPT-3 只開放了很少的一部分代碼,公開了一些類似于產(chǎn)品說明書的所謂技術(shù)細(xì)節(jié)。從此以后,黑箱發(fā)布就成了大模型產(chǎn)品發(fā)布的“江湖規(guī)矩”。新的大模型產(chǎn)品看起來根本不像是一項(xiàng)科學(xué)研究,更像是一個(gè)產(chǎn)品發(fā)布會(huì)。大家通常只能看到一個(gè)驚艷的結(jié)果,至于核心的訓(xùn)練方法和數(shù)據(jù)細(xì)節(jié),往往以商業(yè)機(jī)密為由秘不示人。

DeepSeek 這次做的,就是選擇堂堂正正地接受科學(xué)界最嚴(yán)苛的質(zhì)檢。這就是《自然》雜志說 DeepSeek 填補(bǔ)了行業(yè)空白的原因。

“自學(xué)成才的DeepSeek

當(dāng)然,填補(bǔ)行業(yè)空白只能證明 DeepSeek 的擔(dān)當(dāng)和勇氣,這與技術(shù)和創(chuàng)新沒有關(guān)系。這篇論文讓科學(xué)界真正興奮的,是他們用另辟蹊徑的方法和扎實(shí)的實(shí)驗(yàn)數(shù)據(jù),狠狠打了其他大模型的臉。

之前科學(xué)家們一直以為,要想讓一個(gè) AI 模型變得更聰明,唯一的辦法,就是把海量人類專家寫好的解題步驟“喂”給 AI,讓它去模仿學(xué)習(xí)。學(xué)得越多,能力也就越強(qiáng)。這與我們學(xué)校里推行的教育方式基本一致,我告訴你經(jīng)典例題和標(biāo)準(zhǔn)答案,你給我背下來。這種方法叫做監(jiān)督式微調(diào)(SFT)。

但 DeepSeek 的科學(xué)家們提出了一個(gè)大膽的假設(shè):總是模仿人類的解題思路,會(huì)不會(huì)反而限制了 AI 的發(fā)展?就好像學(xué)生如果必須嚴(yán)格按照老師的思路學(xué)習(xí),是不是就無法超越老師?有沒有可能,讓 AI 自己去發(fā)現(xiàn)規(guī)律,然后自學(xué)成才?

這個(gè)想法其實(shí)并不算石破天驚,但是絕對(duì)叛逆。因?yàn)槿绻试S學(xué)生自學(xué),還允許他們發(fā)明老師都沒用過的解題思路,那么,一旦學(xué)生成功解出老師也無法解答的問題,那么老師就必須承認(rèn),教學(xué)并不是學(xué)生成才的必經(jīng)之路。

DeepSeek 的科學(xué)家決定豪賭一把。他們繞過了用人類范例教學(xué)的傳統(tǒng)步驟,直接把一個(gè)名叫 DeepSeek-R1-Zero 的模型扔進(jìn)了試煉場(chǎng)里。


DeepSeek-R1-Zero 在訓(xùn)練過程中的 AIME 準(zhǔn)確率,基線是人類參與者


試煉場(chǎng)的規(guī)則簡(jiǎn)單且殘酷:

  1. 只給難題:給模型海量的、極難的推理問題,比如數(shù)學(xué)競(jìng)賽(AIME)、編程競(jìng)賽和 STEM 領(lǐng)域的難題。
  2. 只看結(jié)果:不提供任何人類的解題過程作為參考。AI 的每一次嘗試,只會(huì)得到一個(gè)最簡(jiǎn)單的反饋信號(hào):如果最終答案正確,就給獎(jiǎng)勵(lì);回答錯(cuò)誤,啥也沒有。

這就像把一個(gè)沒上學(xué)的孩子,直接扔進(jìn)奧數(shù)賽場(chǎng),沒有基礎(chǔ)知識(shí),沒有公式和技巧,只告訴他:“答對(duì)了有糖吃,答錯(cuò)了沒有。你自己想辦法吧?!?/p>

這種方法,就是論文里說到的“強(qiáng)化學(xué)習(xí)”,它的本質(zhì)就是純粹的激勵(lì)。DeepSeek 的科學(xué)家們想看看,在巨大的難題壓力和最純粹的獎(jiǎng)懲激勵(lì)下,AI 的推理能力能否自發(fā)地涌現(xiàn)出來。

每個(gè)人都想知道,這個(gè)被扔進(jìn)奧數(shù)賽場(chǎng)的孩子,到底能不能一朝悟道。

真實(shí)的訓(xùn)練數(shù)據(jù)讓人極為驚喜。首先,它學(xué)會(huì)了如何深思熟慮。

科學(xué)家發(fā)現(xiàn),隨著訓(xùn)練的進(jìn)行,模型生成的回答文本長(zhǎng)度在持續(xù)、穩(wěn)定地暴漲。這說明,在沒有任何外部指令的情況下,AI 自己領(lǐng)悟了一件事:那就是簡(jiǎn)單粗暴解決不了復(fù)雜問題,花更多的時(shí)間去推演和探索有助于獲得正確答案。于是,它不再追求一口吃個(gè)胖子,而是自發(fā)地選擇了深度思考這條路線。

其次,也是最令人震撼的,是它學(xué)會(huì)了反思和自我糾錯(cuò)。


強(qiáng)化學(xué)習(xí)過程中 DeepSeek-R1-Zero 在訓(xùn)練集上的平均響應(yīng)長(zhǎng)度。來


在訓(xùn)練過程中,模型開始自發(fā)地使用一些代表反思的詞匯,比如“等等”、“不對(duì)”、“我要檢查一下”、“驗(yàn)證”、“好像有錯(cuò)”或者類似的話。

論文里給出了一個(gè)堪稱神來之筆的案例。在解決一個(gè)數(shù)學(xué)問題時(shí),模型先是按照一個(gè)思路進(jìn)行推導(dǎo),但寫著寫著,它突然停了下來,然后自己打出了一行字:

“Wait, wait. Wait. That's an aha moment I can flag here.” (等等,等等。等等。我在這里標(biāo)記一下,這是一個(gè)頓悟時(shí)刻。)



然后,它就真的像一個(gè)突然想通了什么的學(xué)生一樣,推翻了之前的思路,開始一步一步地重新對(duì)問題進(jìn)行評(píng)估,整個(gè)過程與那些突然發(fā)現(xiàn)了問題,然后從頭開始檢查的學(xué)生一模一樣。

這個(gè)頓悟時(shí)刻,讓見多識(shí)廣的科學(xué)家們都感到興奮??茖W(xué)家在論文中寫道:“DeepSeek 的頓悟時(shí)刻,也是我們的頓悟時(shí)刻,讓我們見證了強(qiáng)化學(xué)習(xí)的強(qiáng)大力量”。

而且,這不是一個(gè)簡(jiǎn)單的個(gè)案。數(shù)據(jù)顯示,在訓(xùn)練達(dá)到大約 8000 步之后,“wait”這個(gè)詞的使用頻率突然飆升,說明三思而后行已經(jīng)成了它刻入骨髓的思維習(xí)慣。因?yàn)楸仨毮贸稣_答案才有糖吃。“對(duì)”比“快”重要得多。

最終,這個(gè)沒有人類老師手把手教的大模型,靠著自己在試煉場(chǎng)里的摸爬滾打,自發(fā)地進(jìn)化出了包括自我反思、過程驗(yàn)證、動(dòng)態(tài)調(diào)整策略等一系列高級(jí)的推理模式。

最終的結(jié)果是,在數(shù)學(xué)、編程等可驗(yàn)證的嚴(yán)肅推理任務(wù)上,它的表現(xiàn)全面超越了那些接受傳統(tǒng)填鴨式教學(xué)的模型。在 AIME 數(shù)學(xué)競(jìng)賽基準(zhǔn)測(cè)試上,它的最終成績(jī)甚至遠(yuǎn)超人類參賽者的平均水平。這個(gè)沒有老師全靠自學(xué)的孩子,向人類證明了自己的能力。

憑啥要開源?憑啥要透明?

讀到這里,你可能會(huì)產(chǎn)生一個(gè)非常自然的疑問:我們費(fèi)了這么大勁,探索出了這么厲害的獨(dú)門秘籍,為什么要把它公之于眾?又是寫論文,又是開源模型,這不是讓競(jìng)爭(zhēng)對(duì)手抄作業(yè),自己吃虧嗎?

這個(gè)問題問得非常好,因?yàn)樗呀?jīng)觸及了科學(xué)思維和商業(yè)直覺的沖突點(diǎn)。

從短期的、零和博弈的商業(yè)直覺來看,保密確實(shí)是最佳選擇。而且,除了 DeepSeek 以外,就算是其他開源的大模型,也沒有如此認(rèn)真地接受同行評(píng)審。但是,從長(zhǎng)期的、更宏大的發(fā)展視角看,開放和透明,恰恰是所有競(jìng)爭(zhēng)對(duì)手都無法破解的陽謀。

第一,開放是建立信任的唯一途徑。AI 正在成為社會(huì)的基礎(chǔ)設(shè)施,一個(gè)不透明的黑箱,是無法得到國(guó)際社會(huì)的真正信任的。

DeepSeek 通過《自然》雜志的同行評(píng)審,等于是在向全世界宣告:我的能力是經(jīng)得起最嚴(yán)格檢驗(yàn)的,是可靠的。在一個(gè)人人都在談?wù)?AI 安全和 AI 倫理的時(shí)代,一個(gè)“可信”的標(biāo)簽,是花多少錢都買不來的無形資產(chǎn)。

第二,開放是加速自我進(jìn)化的最佳策略??茖W(xué)的發(fā)展史一再證明,閉門造車永遠(yuǎn)比不上開放社區(qū)的集體智慧。當(dāng) DeepSeek 把自己的方法和模型公開后,全世界成千上萬的頂尖頭腦都會(huì)成為它的免費(fèi)測(cè)試員和外部智囊。

他們會(huì)發(fā)現(xiàn)你沒注意到的漏洞,會(huì)提出你沒想到的優(yōu)化方向,甚至?xí)谀愕墓ぷ?,開發(fā)出讓你也備受啟發(fā)的新應(yīng)用。這種來自全球社區(qū)的反饋和激蕩,是任何一個(gè)封閉的公司靠?jī)?nèi)部力量都無法企及的,它會(huì)極大地加速自身的迭代速度。

第三,開放是吸引頂尖人才的終極引力場(chǎng)。頂尖的科學(xué)家和工程師,最看重的是什么?是解決世界級(jí)難題的機(jī)會(huì)和獲得全球同行認(rèn)可的聲譽(yù)。一篇《自然》封面論文,就是向全球人才發(fā)出的最強(qiáng)招募令,它證明了這里是能夠做出世界級(jí)工作的頂級(jí)平臺(tái)。這種對(duì)人才的吸引力,遠(yuǎn)比保住一兩個(gè)技術(shù)秘密的價(jià)值要大得多。

所以你看,開放和透明,看似吃虧,實(shí)則是在下一盤更大的棋。它賭的不是用戶數(shù)或者會(huì)員費(fèi)這些眼前得失,它通過建立信任、融入全球智慧網(wǎng)絡(luò)、吸引頂尖人才,來贏得整個(gè) AI 時(shí)代的長(zhǎng)期競(jìng)爭(zhēng)。

DeepSeek贏了啥?

現(xiàn)在,我們可以回答標(biāo)題中的問題了:DeepSeek 到底贏得了什么?

如果說,選擇在《自然》上公開發(fā)表,是贏得了一種“安全可信”的科學(xué)信譽(yù)。那么,他們?cè)谡撐闹薪沂镜摹癆I 可以自學(xué)”的新規(guī)律,則贏得了對(duì)人工智能本質(zhì)的認(rèn)知優(yōu)勢(shì)。

DeepSeek 的科學(xué)家們用一場(chǎng)無可辯駁的漂亮實(shí)驗(yàn),證明了 AI 的推理能力,不一定需要學(xué)習(xí)人類的固有知識(shí),它們完全可以像人類一樣,通過觀察世界而獨(dú)立發(fā)現(xiàn)規(guī)律。舊的規(guī)律如此,新的規(guī)律當(dāng)然也沒問題。

這個(gè)發(fā)現(xiàn),極大地拓展了我們對(duì)人工智能潛力的想象。它把 AI 從一個(gè)只能模仿人類知識(shí)的學(xué)生,升級(jí)成了能獨(dú)立發(fā)現(xiàn)新規(guī)律的科學(xué)家。

這事兒甚至可以直接擴(kuò)展到教育界:一個(gè)孩子考上清北,學(xué)校、老師、家長(zhǎng)都覺得是自己牛逼,其實(shí)你們都太自戀了,牛逼的是孩子自己。

信源:

[1] 論文鏈接:https://www.nature.com/articles/s41586-025-09422-z

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
在學(xué)校發(fā)生的八卦能有多炸裂?網(wǎng)友:懷孕率比升學(xué)率高,不夸張

在學(xué)校發(fā)生的八卦能有多炸裂?網(wǎng)友:懷孕率比升學(xué)率高,不夸張

帶你感受人間冷暖
2026-02-05 00:30:08
中國(guó)第一監(jiān)獄:關(guān)的幾乎全是高官,為防止泄密,牢房?jī)?nèi)有特殊布置

中國(guó)第一監(jiān)獄:關(guān)的幾乎全是高官,為防止泄密,牢房?jī)?nèi)有特殊布置

瓦倫西亞月亮
2026-02-20 17:37:18
羅馬皇帝征服帕爾米拉,下命羞辱反叛女皇芝諾比婭碾碎她的尊嚴(yán)

羅馬皇帝征服帕爾米拉,下命羞辱反叛女皇芝諾比婭碾碎她的尊嚴(yán)

嘮叨說歷史
2026-01-15 16:34:01
戰(zhàn)爭(zhēng)研究所(ISW)稱,俄羅斯已奪取波克羅夫斯克和米爾諾赫拉德

戰(zhàn)爭(zhēng)研究所(ISW)稱,俄羅斯已奪取波克羅夫斯克和米爾諾赫拉德

山河路口
2026-02-27 19:51:12
美媒稱自由式滑雪女王谷愛凌“浮現(xiàn)新謎團(tuán)” ,出生記錄父親欄為空白

美媒稱自由式滑雪女王谷愛凌“浮現(xiàn)新謎團(tuán)” ,出生記錄父親欄為空白

阿廢冷眼觀察所
2026-02-28 16:14:52
泰國(guó)新內(nèi)閣組建完成,前總理佩通坦贏了,他信贏了,為泰黨也贏了

泰國(guó)新內(nèi)閣組建完成,前總理佩通坦贏了,他信贏了,為泰黨也贏了

愛下廚的阿釃
2026-02-28 16:13:22
最新!長(zhǎng)和巴拿馬子公司遭突擊搜查,有物品被警方帶走,擬采取法律行動(dòng)

最新!長(zhǎng)和巴拿馬子公司遭突擊搜查,有物品被警方帶走,擬采取法律行動(dòng)

財(cái)通社
2026-02-27 16:15:13
朝鮮閱兵現(xiàn)場(chǎng),武裝力量方陣齊聲高喊“誓死擁護(hù)金正恩”,三聲"萬歲"震天響,金正恩豎大拇指點(diǎn)贊

朝鮮閱兵現(xiàn)場(chǎng),武裝力量方陣齊聲高喊“誓死擁護(hù)金正恩”,三聲"萬歲"震天響,金正恩豎大拇指點(diǎn)贊

新浪財(cái)經(jīng)
2026-02-27 08:53:06
4-0橫掃韓乒一哥!王楚欽無愧國(guó)乒頂梁柱 張禹珍叫醫(yī)療暫停險(xiǎn)退賽

4-0橫掃韓乒一哥!王楚欽無愧國(guó)乒頂梁柱 張禹珍叫醫(yī)療暫停險(xiǎn)退賽

顏小白的籃球夢(mèng)
2026-02-28 16:13:19
大女兒被丈夫家暴住院,我對(duì)姑爺說:她80萬的嫁妝,我們不要回來

大女兒被丈夫家暴住院,我對(duì)姑爺說:她80萬的嫁妝,我們不要回來

黃小乖的日記
2026-02-28 10:12:29
人民幣持續(xù)升值后,央行出手了:從20%降到0!對(duì)普通人有何影響?

人民幣持續(xù)升值后,央行出手了:從20%降到0!對(duì)普通人有何影響?

王爺說圖表
2026-02-27 21:34:25
韓國(guó)《花樣男子》男演員被曝在物流中心打工,經(jīng)紀(jì)公司:屬實(shí),為維持生計(jì)

韓國(guó)《花樣男子》男演員被曝在物流中心打工,經(jīng)紀(jì)公司:屬實(shí),為維持生計(jì)

紅星新聞
2026-02-28 12:51:22
微信顯示一條橫杠,證明已經(jīng)不是對(duì)方好友了

微信顯示一條橫杠,證明已經(jīng)不是對(duì)方好友了

匹夫來搞笑
2026-02-23 15:23:30
合作17年,如今坦白和岳云鵬私下關(guān)系冷淡的孫越,原來才是聰明人

合作17年,如今坦白和岳云鵬私下關(guān)系冷淡的孫越,原來才是聰明人

銀河史記
2026-02-27 16:10:38
1951年,志愿軍首次動(dòng)用喀秋莎火箭炮轟擊美軍,李奇微見狀大驚:難道蘇軍已經(jīng)參戰(zhàn)了?

1951年,志愿軍首次動(dòng)用喀秋莎火箭炮轟擊美軍,李奇微見狀大驚:難道蘇軍已經(jīng)參戰(zhàn)了?

史海孤雁
2026-02-27 20:12:44
狀態(tài)低迷遭炮轟,張鎮(zhèn)麟提前退出國(guó)家隊(duì)?男籃官宣,全新名單出爐

狀態(tài)低迷遭炮轟,張鎮(zhèn)麟提前退出國(guó)家隊(duì)?男籃官宣,全新名單出爐

萌蘭聊個(gè)球
2026-02-28 10:14:25
這位50歲的阿姨用一身打扮說明了這個(gè)年紀(jì)才是最有韻味的時(shí)候

這位50歲的阿姨用一身打扮說明了這個(gè)年紀(jì)才是最有韻味的時(shí)候

牛彈琴123456
2026-02-28 16:39:25
拉夫羅夫:莫斯科將把所有歷史上的俄羅斯土地歸還其合法家園

拉夫羅夫:莫斯科將把所有歷史上的俄羅斯土地歸還其合法家園

舊窗老街
2026-02-23 01:50:19
放假半天!不補(bǔ)休

放假半天!不補(bǔ)休

瑯琊新聞網(wǎng)
2026-02-28 14:09:27
塔利班一天都沒扛住,被打懵后向聯(lián)大求援,巴鐵:中國(guó)武器真好用

塔利班一天都沒扛住,被打懵后向聯(lián)大求援,巴鐵:中國(guó)武器真好用

黑鷹觀軍事
2026-02-28 16:05:16
2026-02-28 18:07:00
科學(xué)聲音 incentive-icons
科學(xué)聲音
普及科學(xué)知識(shí),傳播科學(xué)精神
364文章數(shù) 35303關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

美以襲擊伊朗 華人緊急逃離德黑蘭:沒想到來得這么快

頭條要聞

美以襲擊伊朗 華人緊急逃離德黑蘭:沒想到來得這么快

體育要聞

球隊(duì)主力全報(bào)銷?頂風(fēng)擺爛演都不演了

娛樂要聞

疑似王一博被爆私密聊天記錄

財(cái)經(jīng)要聞

沈明高提共富建議 百姓持科技股國(guó)家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

房產(chǎn)
健康
旅游
家居
教育

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

旅游要聞

2026年柳州龍王出游,即將登場(chǎng)!時(shí)間、路線定了!重要提醒→

家居要聞

素色肌理 品意式格調(diào)

教育要聞

2026考研分析:近5年國(guó)家線趨勢(shì)圖對(duì)比(2022–2026)

無障礙瀏覽 進(jìn)入關(guān)懷版