国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek的陽謀:在《自然》雜志公布論文,到底贏得了什么?

0
分享至

DeepSeek 叕贏了,這回它登上了《自然》雜志的封面!

畫面中的立方體代表著電子神經(jīng)元,也就是我們常說的“大模型參數(shù)”,每個(gè)神經(jīng)元都在向著深層次方向探索。紅色的線代表關(guān)鍵的核心信號,而白色的線則意味著發(fā)散的探索。最終,所有的探索都會(huì)變成電子神經(jīng)元之間的鏈接,最終完成對問題答案的探索。
下面的文字突出了一個(gè)關(guān)鍵詞:“SELF-HELP”,也就是“自學(xué)”,“Reinforcement learning teaches AI model to improve itself”的意思則是:強(qiáng)化學(xué)習(xí)教會(huì)人工智能模型自我提升。
不理解這句話沒關(guān)系,后文中有大白話的解讀。

DeepSeek經(jīng)歷了幾次爆火之后,已經(jīng)成了連老媽都熟悉的大眾詞匯。這回登上《自然》雜志的封面,大家的第一反應(yīng)就是:“遙遙領(lǐng)先”以及“厲害了我的國!”

不過別著急慶祝,如果你想知道DeepSeek為啥遙遙領(lǐng)先,以及領(lǐng)先在什么地方,那就把本文看完。全文大白話,包你一看看就懂。

DeepSeek填補(bǔ)行業(yè)空白

在《自然》雜志的官方評論里,有一個(gè)詞被反復(fù)強(qiáng)調(diào)了很多遍。這個(gè)詞不是“性能強(qiáng)大”,也不是“技術(shù)突破”,而是聽起來平平無奇的“同行評審”。

《自然》雜志說:目前所有主流的大模型都沒有經(jīng)過獨(dú)立的同行評審,而 DeepSeek 填補(bǔ)了這項(xiàng)行業(yè)空白。


這就怪了。AI 領(lǐng)域日新月異,GPT 都更新到第 5 代了,同行評審就是讓你把成果拿給行業(yè)專家看看,怎么還能輪到后起之秀的 DeepSeek 來打破空白呢?難道,過去這些年,全世界的 AI 巨頭們,都是在王婆賣瓜的嗎?

嘿嘿,還真讓你說對了。

這個(gè)同行評審機(jī)制,就像是科學(xué)圈兒里的“質(zhì)監(jiān)局”。任何一項(xiàng)新的科學(xué)發(fā)現(xiàn),想要獲得公認(rèn),就必須把所有的實(shí)驗(yàn)方法、數(shù)據(jù)、推導(dǎo)過程,毫無保留地交給同行去匿名審查。


要知道,同行是冤家這話可不是白說的,這些同行專家可不想你輕松獲得榮譽(yù),他們恨不得你翻車。所以,同行評審?fù)且粋€(gè)拿著顯微鏡挑刺的過程。實(shí)驗(yàn)設(shè)計(jì)不嚴(yán)謹(jǐn)啊,實(shí)驗(yàn)創(chuàng)新性不夠啊,實(shí)驗(yàn)數(shù)據(jù)不完整啊……反正各種問題全能給你挑出來。

當(dāng)然,挑刺歸挑刺,但是科學(xué)家還是講究科學(xué)精神的,真正過硬的研究,也會(huì)因?yàn)閲?yán)格的同行評審而獲得信任。

但是,人工智能大模型這個(gè)行業(yè)從一開始就被 ChatGPT-3 帶了個(gè)壞頭,ChatGPT-3 只開放了很少的一部分代碼,公開了一些類似于產(chǎn)品說明書的所謂技術(shù)細(xì)節(jié)。從此以后,黑箱發(fā)布就成了大模型產(chǎn)品發(fā)布的“江湖規(guī)矩”。新的大模型產(chǎn)品看起來根本不像是一項(xiàng)科學(xué)研究,更像是一個(gè)產(chǎn)品發(fā)布會(huì)。大家通常只能看到一個(gè)驚艷的結(jié)果,至于核心的訓(xùn)練方法和數(shù)據(jù)細(xì)節(jié),往往以商業(yè)機(jī)密為由秘不示人。

DeepSeek 這次做的,就是選擇堂堂正正地接受科學(xué)界最嚴(yán)苛的質(zhì)檢。這就是《自然》雜志說 DeepSeek 填補(bǔ)了行業(yè)空白的原因。

“自學(xué)成才的DeepSeek

當(dāng)然,填補(bǔ)行業(yè)空白只能證明 DeepSeek 的擔(dān)當(dāng)和勇氣,這與技術(shù)和創(chuàng)新沒有關(guān)系。這篇論文讓科學(xué)界真正興奮的,是他們用另辟蹊徑的方法和扎實(shí)的實(shí)驗(yàn)數(shù)據(jù),狠狠打了其他大模型的臉。

之前科學(xué)家們一直以為,要想讓一個(gè) AI 模型變得更聰明,唯一的辦法,就是把海量人類專家寫好的解題步驟“喂”給 AI,讓它去模仿學(xué)習(xí)。學(xué)得越多,能力也就越強(qiáng)。這與我們學(xué)校里推行的教育方式基本一致,我告訴你經(jīng)典例題和標(biāo)準(zhǔn)答案,你給我背下來。這種方法叫做監(jiān)督式微調(diào)(SFT)。

但 DeepSeek 的科學(xué)家們提出了一個(gè)大膽的假設(shè):總是模仿人類的解題思路,會(huì)不會(huì)反而限制了 AI 的發(fā)展?就好像學(xué)生如果必須嚴(yán)格按照老師的思路學(xué)習(xí),是不是就無法超越老師?有沒有可能,讓 AI 自己去發(fā)現(xiàn)規(guī)律,然后自學(xué)成才?

這個(gè)想法其實(shí)并不算石破天驚,但是絕對叛逆。因?yàn)槿绻试S學(xué)生自學(xué),還允許他們發(fā)明老師都沒用過的解題思路,那么,一旦學(xué)生成功解出老師也無法解答的問題,那么老師就必須承認(rèn),教學(xué)并不是學(xué)生成才的必經(jīng)之路。

DeepSeek 的科學(xué)家決定豪賭一把。他們繞過了用人類范例教學(xué)的傳統(tǒng)步驟,直接把一個(gè)名叫 DeepSeek-R1-Zero 的模型扔進(jìn)了試煉場里。


試煉場的規(guī)則簡單且殘酷:

  1. 只給難題:給模型海量的、極難的推理問題,比如數(shù)學(xué)競賽(AIME)、編程競賽和 STEM 領(lǐng)域的難題。
  2. 只看結(jié)果:不提供任何人類的解題過程作為參考。AI 的每一次嘗試,只會(huì)得到一個(gè)最簡單的反饋信號:如果最終答案正確,就給獎(jiǎng)勵(lì);回答錯(cuò)誤,啥也沒有。

這就像把一個(gè)沒上學(xué)的孩子,直接扔進(jìn)奧數(shù)賽場,沒有基礎(chǔ)知識(shí),沒有公式和技巧,只告訴他:“答對了有糖吃,答錯(cuò)了沒有。你自己想辦法吧?!?/p>

這種方法,就是論文里說到的“強(qiáng)化學(xué)習(xí)”,它的本質(zhì)就是純粹的激勵(lì)。DeepSeek 的科學(xué)家們想看看,在巨大的難題壓力和最純粹的獎(jiǎng)懲激勵(lì)下,AI 的推理能力能否自發(fā)地涌現(xiàn)出來。

每個(gè)人都想知道,這個(gè)被扔進(jìn)奧數(shù)賽場的孩子,到底能不能一朝悟道。

真實(shí)的訓(xùn)練數(shù)據(jù)讓人極為驚喜。首先,它學(xué)會(huì)了如何深思熟慮。

科學(xué)家發(fā)現(xiàn),隨著訓(xùn)練的進(jìn)行,模型生成的回答文本長度在持續(xù)、穩(wěn)定地暴漲。這說明,在沒有任何外部指令的情況下,AI 自己領(lǐng)悟了一件事:那就是簡單粗暴解決不了復(fù)雜問題,花更多的時(shí)間去推演和探索有助于獲得正確答案。于是,它不再追求一口吃個(gè)胖子,而是自發(fā)地選擇了深度思考這條路線。

其次,也是最令人震撼的,是它學(xué)會(huì)了反思和自我糾錯(cuò)。


在訓(xùn)練過程中,模型開始自發(fā)地使用一些代表反思的詞匯,比如“等等”、“不對”、“我要檢查一下”、“驗(yàn)證”、“好像有錯(cuò)”或者類似的話。

論文里給出了一個(gè)堪稱神來之筆的案例。在解決一個(gè)數(shù)學(xué)問題時(shí),模型先是按照一個(gè)思路進(jìn)行推導(dǎo),但寫著寫著,它突然停了下來,然后自己打出了一行字:

“Wait, wait. Wait. That's an aha moment I can flag here.” (等等,等等。等等。我在這里標(biāo)記一下,這是一個(gè)頓悟時(shí)刻。)

然后,它就真的像一個(gè)突然想通了什么的學(xué)生一樣,推翻了之前的思路,開始一步一步地重新對問題進(jìn)行評估,整個(gè)過程與那些突然發(fā)現(xiàn)了問題,然后從頭開始檢查的學(xué)生一模一樣。

這個(gè)頓悟時(shí)刻,讓見多識(shí)廣的科學(xué)家們都感到興奮??茖W(xué)家在論文中寫道:“DeepSeek 的頓悟時(shí)刻,也是我們的頓悟時(shí)刻,讓我們見證了強(qiáng)化學(xué)習(xí)的強(qiáng)大力量”。

而且,這不是一個(gè)簡單的個(gè)案。數(shù)據(jù)顯示,在訓(xùn)練達(dá)到大約 8000 步之后,“wait”這個(gè)詞的使用頻率突然飆升,說明三思而后行已經(jīng)成了它刻入骨髓的思維習(xí)慣。因?yàn)楸仨毮贸稣_答案才有糖吃?!皩Α北取翱臁敝匾枚唷?/p>

最終,這個(gè)沒有人類老師手把手教的大模型,靠著自己在試煉場里的摸爬滾打,自發(fā)地進(jìn)化出了包括自我反思、過程驗(yàn)證、動(dòng)態(tài)調(diào)整策略等一系列高級的推理模式。

最終的結(jié)果是,在數(shù)學(xué)、編程等可驗(yàn)證的嚴(yán)肅推理任務(wù)上,它的表現(xiàn)全面超越了那些接受傳統(tǒng)填鴨式教學(xué)的模型。在 AIME 數(shù)學(xué)競賽基準(zhǔn)測試上,它的最終成績甚至遠(yuǎn)超人類參賽者的平均水平。這個(gè)沒有老師全靠自學(xué)的孩子,向人類證明了自己的能力。

憑啥要開源?憑啥要透明?

讀到這里,你可能會(huì)產(chǎn)生一個(gè)非常自然的疑問:我們費(fèi)了這么大勁,探索出了這么厲害的獨(dú)門秘籍,為什么要把它公之于眾?又是寫論文,又是開源模型,這不是讓競爭對手抄作業(yè),自己吃虧嗎?

這個(gè)問題問得非常好,因?yàn)樗呀?jīng)觸及了科學(xué)思維和商業(yè)直覺的沖突點(diǎn)。

從短期的、零和博弈的商業(yè)直覺來看,保密確實(shí)是最佳選擇。而且,除了 DeepSeek 以外,就算是其他開源的大模型,也沒有如此認(rèn)真地接受同行評審。但是,從長期的、更宏大的發(fā)展視角看,開放和透明,恰恰是所有競爭對手都無法破解的陽謀。

第一,開放是建立信任的唯一途徑。AI 正在成為社會(huì)的基礎(chǔ)設(shè)施,一個(gè)不透明的黑箱,是無法得到國際社會(huì)的真正信任的。

DeepSeek 通過《自然》雜志的同行評審,等于是在向全世界宣告:我的能力是經(jīng)得起最嚴(yán)格檢驗(yàn)的,是可靠的。在一個(gè)人人都在談?wù)?AI 安全和 AI 倫理的時(shí)代,一個(gè)“可信”的標(biāo)簽,是花多少錢都買不來的無形資產(chǎn)。

第二,開放是加速自我進(jìn)化的最佳策略。科學(xué)的發(fā)展史一再證明,閉門造車永遠(yuǎn)比不上開放社區(qū)的集體智慧。當(dāng) DeepSeek 把自己的方法和模型公開后,全世界成千上萬的頂尖頭腦都會(huì)成為它的免費(fèi)測試員和外部智囊。

他們會(huì)發(fā)現(xiàn)你沒注意到的漏洞,會(huì)提出你沒想到的優(yōu)化方向,甚至?xí)谀愕墓ぷ?,開發(fā)出讓你也備受啟發(fā)的新應(yīng)用。這種來自全球社區(qū)的反饋和激蕩,是任何一個(gè)封閉的公司靠內(nèi)部力量都無法企及的,它會(huì)極大地加速自身的迭代速度。

第三,開放是吸引頂尖人才的終極引力場。頂尖的科學(xué)家和工程師,最看重的是什么?是解決世界級難題的機(jī)會(huì)和獲得全球同行認(rèn)可的聲譽(yù)。一篇《自然》封面論文,就是向全球人才發(fā)出的最強(qiáng)招募令,它證明了這里是能夠做出世界級工作的頂級平臺(tái)。這種對人才的吸引力,遠(yuǎn)比保住一兩個(gè)技術(shù)秘密的價(jià)值要大得多。

所以你看,開放和透明,看似吃虧,實(shí)則是在下一盤更大的棋。它賭的不是用戶數(shù)或者會(huì)員費(fèi)這些眼前得失,它通過建立信任、融入全球智慧網(wǎng)絡(luò)、吸引頂尖人才,來贏得整個(gè) AI 時(shí)代的長期競爭。

DeepSeek贏了啥?

現(xiàn)在,我們可以回答標(biāo)題中的問題了:DeepSeek 到底贏得了什么?

如果說,選擇在《自然》上公開發(fā)表,是贏得了一種“安全可信”的科學(xué)信譽(yù)。那么,他們在論文中揭示的“AI 可以自學(xué)”的新規(guī)律,則贏得了對人工智能本質(zhì)的認(rèn)知優(yōu)勢。

DeepSeek 的科學(xué)家們用一場無可辯駁的漂亮實(shí)驗(yàn),證明了 AI 的推理能力,不一定需要學(xué)習(xí)人類的固有知識(shí),它們完全可以像人類一樣,通過觀察世界而獨(dú)立發(fā)現(xiàn)規(guī)律。舊的規(guī)律如此,新的規(guī)律當(dāng)然也沒問題。

這個(gè)發(fā)現(xiàn),極大地拓展了我們對人工智能潛力的想象。它把 AI 從一個(gè)只能模仿人類知識(shí)的學(xué)生,升級成了能獨(dú)立發(fā)現(xiàn)新規(guī)律的科學(xué)家。

這事兒甚至可以直接擴(kuò)展到教育界:一個(gè)孩子考上清北,學(xué)校、老師、家長都覺得是自己牛逼,其實(shí)你們都太自戀了,牛逼的是孩子自己。

信源:

[1] 論文鏈接:https://www.nature.com/articles/s41586-025-09422-z

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
曹德旺關(guān)閉8.84億美廠:美國不講理,不再陪玩

曹德旺關(guān)閉8.84億美廠:美國不講理,不再陪玩

最新聲音
2026-05-07 07:04:47
國乒雙雙進(jìn)入八強(qiáng),男隊(duì)面臨兩大難題待解,也難怪王楚欽神情緊繃

國乒雙雙進(jìn)入八強(qiáng),男隊(duì)面臨兩大難題待解,也難怪王楚欽神情緊繃

胡一舸南游y
2026-05-07 20:27:33
150人死而復(fù)生后,說出1個(gè)驚人共同點(diǎn),科學(xué)家至今無法解釋

150人死而復(fù)生后,說出1個(gè)驚人共同點(diǎn),科學(xué)家至今無法解釋

Thurman在昆明
2026-05-07 14:37:38
當(dāng)年千手觀音的聾啞人領(lǐng)舞,被富商苦追8年,如今她成了這副摸樣

當(dāng)年千手觀音的聾啞人領(lǐng)舞,被富商苦追8年,如今她成了這副摸樣

琴琴有氧運(yùn)動(dòng)
2026-04-23 18:19:26
我在中東教漢語,娶了三個(gè)本地女孩,雖然年入百萬,卻并不幸福

我在中東教漢語,娶了三個(gè)本地女孩,雖然年入百萬,卻并不幸福

千秋文化
2026-04-20 19:55:30
屬兔人:這輩子最大的靠山,不是錢,不是權(quán),而是這4大法寶

屬兔人:這輩子最大的靠山,不是錢,不是權(quán),而是這4大法寶

糖逗在娛樂
2026-05-08 00:03:28
震驚!前炮友稱馬蘇陳偉霆是李易峰嫖娼中間人,其出軌對象是楊冪

震驚!前炮友稱馬蘇陳偉霆是李易峰嫖娼中間人,其出軌對象是楊冪

八卦王者
2026-05-06 14:19:45
iPhone Air 2曝光:搭載4800萬像素雙攝,明年春季問世

iPhone Air 2曝光:搭載4800萬像素雙攝,明年春季問世

PChome電腦之家
2026-05-07 11:09:25
塞爾比:我防住了全世界,卻沒防住徒弟的進(jìn)攻和女兒的倒戈!

塞爾比:我防住了全世界,卻沒防住徒弟的進(jìn)攻和女兒的倒戈!

小娛樂悠悠
2026-05-06 09:52:35
老登們,收收味。

老登們,收收味。

美第奇效應(yīng)
2026-05-07 18:57:49
伊朗萬萬沒想到:打了一仗沒滅掉以色列,反在家門口造出個(gè)更狠的

伊朗萬萬沒想到:打了一仗沒滅掉以色列,反在家門口造出個(gè)更狠的

婲顏明蘊(yùn)
2026-05-06 20:07:13
低價(jià)招采成風(fēng),壓垮云南營商環(huán)境的超級稻草

低價(jià)招采成風(fēng),壓垮云南營商環(huán)境的超級稻草

易觀彩云之南
2026-05-07 18:00:08
美日菲“肩并肩2026”聯(lián)合演習(xí)中,一張熟悉的面孔再次出現(xiàn)

美日菲“肩并肩2026”聯(lián)合演習(xí)中,一張熟悉的面孔再次出現(xiàn)

三叔的裝備空間
2026-05-06 23:40:02
俄軍爆大雷!率5個(gè)軍閃擊基輔慘敗的陸軍上將,擔(dān)任俄軍空軍司令

俄軍爆大雷!率5個(gè)軍閃擊基輔慘敗的陸軍上將,擔(dān)任俄軍空軍司令

港灣無船
2026-05-06 20:38:47
就抓你的攻防轉(zhuǎn)換?奧利塞對陣巴黎丟失球權(quán)達(dá)29次為全場最多

就抓你的攻防轉(zhuǎn)換?奧利塞對陣巴黎丟失球權(quán)達(dá)29次為全場最多

懂球帝
2026-05-07 05:37:08
注意!中老年男性有性生活和沒性生活,差別居然這么大?

注意!中老年男性有性生活和沒性生活,差別居然這么大?

皓皓情感說
2026-04-22 08:20:32
標(biāo)普連創(chuàng)新高,但聰明錢都在撤退,高盛警告:閃崩只是時(shí)間問題

標(biāo)普連創(chuàng)新高,但聰明錢都在撤退,高盛警告:閃崩只是時(shí)間問題

補(bǔ)懂事的孩紙
2026-05-07 22:59:25
52歲王小騫做夢也沒想到,患上矮小癥的女兒,如今竟然迎來了逆襲

52歲王小騫做夢也沒想到,患上矮小癥的女兒,如今竟然迎來了逆襲

一盅情懷
2026-05-06 10:52:19
兩年關(guān)店1500家,年虧1.48億,收割中產(chǎn)的高端零食一哥跌落神壇?

兩年關(guān)店1500家,年虧1.48億,收割中產(chǎn)的高端零食一哥跌落神壇?

億通電子游戲
2026-05-08 00:28:42
頂級家境曝光!家底雄厚深藏不露,七千萬豪宅做婚房

頂級家境曝光!家底雄厚深藏不露,七千萬豪宅做婚房

小妹講史
2026-05-06 18:25:49
2026-05-08 01:55:00
科學(xué)聲音 incentive-icons
科學(xué)聲音
普及科學(xué)知識(shí),傳播科學(xué)精神
376文章數(shù) 35324關(guān)注度
往期回顧 全部

科技要聞

月之暗面完成20億美元融資,估值突破200億

頭條要聞

日媒詢問中國是否希望恢復(fù)中日之間人員往來 中方回應(yīng)

頭條要聞

日媒詢問中國是否希望恢復(fù)中日之間人員往來 中方回應(yīng)

體育要聞

巴黎再進(jìn)歐冠決賽,最尷尬的情況還是發(fā)生了

娛樂要聞

Lisa主持!寧藝卓觀看脫衣秀風(fēng)波升級

財(cái)經(jīng)要聞

人均年薪406萬,這家ST公司驚呆市場!

汽車要聞

雷克薩斯全新純電三排SUV 全新TZ全球首發(fā)

態(tài)度原創(chuàng)

教育
數(shù)碼
時(shí)尚
健康
公開課

教育要聞

二模很重要!2026臨沂二模、青島二模語文、數(shù)學(xué)試題及答案!

數(shù)碼要聞

大疆宣布ROMO 2代掃地機(jī)器人5月11日發(fā)布:清潔力更強(qiáng) 不怕零食掉渣

今年最火的4雙平底鞋,配小黑裙好看又氣質(zhì)!

干細(xì)胞治燒燙傷面臨這些“瓶頸”

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版