国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek的模型,讓AI第一次學(xué)會了反思。

0
分享至

昨天有一個(gè)有趣的事,真的太魔幻了,感覺劇本都不會寫的這么巧。

就在昨天晚上,DeepSeek悄悄地上了一個(gè)新模型,DeepSeekMath-V2。


一個(gè)基于DeepSeek-V3.2-Exp-Base構(gòu)建的685B的數(shù)學(xué)專用模型。

這個(gè)模型特殊的點(diǎn),說人話就是,它不僅能給出答案,還能自己檢查自己的解題步驟,自己給自己挑錯,自己跟自己辯論,直到它自己覺得自己整個(gè)推理過程,完美無瑕。

而且,能力上,達(dá)到了奧林匹克金牌水平。


并在 IMO 2025(解決了 5/6 道題)和 Putnam 2024(接近滿分 118/120 分)等競賽中表現(xiàn)出色。

同時(shí),按照DeepSeek傳統(tǒng),直接開源+送論文。

論文名字很直接:《DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning》。

而我之所以說魔幻的原因在于。

就在2天前,大洋彼岸,被譽(yù)為AI教父之一、前OpenAI首席科學(xué)家Ilya Sutskever,剛剛出來發(fā)聲,錄了一期播客。


在這期播客里,他拋出了一個(gè)非常有意思的擔(dān)憂。

就是,現(xiàn)在的AI模型很奇怪。

一方面,它們在各種評測集上刷出了逆天的分?jǐn)?shù),什么考試、什么競賽,都能名列前茅。

但另一方面,你把它扔到真實(shí)世界里去解決實(shí)際問題,它又蠢得讓人想砸電腦。

他舉了個(gè)例子,特別寫實(shí):

就是你讓AI幫你修一個(gè)代碼里的bug A,它說“好嘞”,然后給你引入了一個(gè)新的bug B。

你再讓它修bug B,它又說“沒問題”,然后轉(zhuǎn)身就把bug A又給改回來了。

就這么來來回回,修了半天修不好,我相信大家玩vibe coding的人,都遇到過這個(gè)問題。

Ilya自己一直在思考,為什么會這樣?為什么評測表現(xiàn)和真實(shí)世界表現(xiàn)之間,有這么大的鴻溝?

他在這個(gè)播客里面,給出了一個(gè)非常深刻的類比。

他說,現(xiàn)在的AI模型,就像一個(gè)特長生A,這個(gè)學(xué)生的目標(biāo)呢,就是成為最牛逼的算法競賽選手。

于是他花了一萬個(gè)小時(shí),刷遍了所有競賽題,背熟了所有解題技巧。最后,他確實(shí)成了這個(gè)領(lǐng)域的王者。

但還有一個(gè)通才生B。他對競賽也感興趣,但只花了100個(gè)小時(shí)去練習(xí),成績也不錯。

但他把更多的時(shí)間,花在了理解世界、廣泛閱讀、與人交流這些務(wù)虛的事情上。

Ilya問:這兩個(gè)學(xué)生,誰未來的職業(yè)發(fā)展會更好?

答案不言而喻,是學(xué)生B。

因?yàn)閷W(xué)生A的強(qiáng)大,是一種應(yīng)試的強(qiáng)大。

他的所有能力,都是為了在評測中拿高分這個(gè)單一目標(biāo)而優(yōu)化的。這種訓(xùn)練,就像把一個(gè)人的視野強(qiáng)行壓縮成一根針,他在這根針里能看到原子,但在針以外的世界,他是個(gè)盲人。

而學(xué)生B,他擁有一種更可貴的東西,Ilya也不知道該怎么描述,所以他的原話就是“那股勁兒”(the "it"),一種更深刻的、更具泛化性的理解力。

所以,最后就會導(dǎo)致,經(jīng)過重度 RL 對齊的模型往往顯得更笨或更缺乏創(chuàng)造力,RL強(qiáng)行讓 AI 去討好人類的某個(gè)單一指標(biāo),卻可能犧牲了它原本寬廣的通用智力。

其實(shí)最近一些大模型,比如GPT-5、Gemini 3 Pro在寫作能力上的下降,我覺得就能看出一些端倪了。

Ilya的這段話,還是引起了非常大的反響的。

然后,就在這個(gè)問題還余音繞梁的時(shí)候,DeepSeekMath-V2來了。

直接說,我搞定了。

特別有意思。

可以說,DeepSeekMath-V2,已經(jīng)開始解決Ilya的一些擔(dān)憂了。

在講DeepSeekMath-V2之前,我覺得還是先有必要,來聊聊以前的AI是怎么做數(shù)學(xué)題的。超級簡單,也超級粗暴。

就是,結(jié)果導(dǎo)向。

就像一個(gè)公司的銷售,老板只看你月底的業(yè)績報(bào)表,不管你這單子是怎么簽下來的。你用盡九牛二虎之力,還是用了一些骯臟的手段,還是瞎貓碰上死耗子,無所謂,只要最后那個(gè)數(shù)字是對的,模型就能得到獎勵。

這種模式,在做一些簡單的計(jì)算題時(shí),問題不大。

但一旦涉及到復(fù)雜的證明題,就徹底廢了。

我相信大家上學(xué)時(shí)肯定也都被數(shù)學(xué)老師折磨過,我自己最常聽到的一句話,就是。。。

“答題是看過程的!你的過程呢?!”

一道大題15分,答案可能只占2分,剩下13分,全在過程里。


你就算最后答案蒙對了,過程一塌糊涂,照樣拉跨。

因?yàn)閿?shù)學(xué)這門學(xué)科,從本質(zhì)上來說,它追求的就不是那個(gè)最終的答案,而是那個(gè)無懈可擊、一步一響的邏輯鏈。

是從公理這個(gè)地基開始,一磚一瓦,蓋起一座真理的大廈。

中間任何一環(huán)有瑕疵,整個(gè)大廈都會崩塌。

之前的AI,就是這樣的,你讓他寫出答案,他可能還真的沒啥問題,但是你讓他寫證明過程,那就完特么蛋了,經(jīng)常給你生編硬造。

甚至有時(shí)候,它給你的最終答案,是靠著某個(gè)計(jì)算失誤+另一個(gè)邏輯錯誤負(fù)負(fù)得正,最后歪打正著搞出來的。

這就是過去AI的通病,你說他對了吧,他也真對了,但是你要是跟他在過程中較個(gè)真吧,那也經(jīng)常錯的離譜。

本質(zhì)上,還是模型沒有反思能力。

雖然模型有所謂的思維鏈,但是這個(gè)思維鏈,或者說這個(gè)邏輯,也分幾個(gè)級別。

第一個(gè)級別,我稱之為Prompt級cosplay反思。

就是你跟他說你要好好想一想,其實(shí)就是多寫幾句CoT,訓(xùn)練時(shí)根本沒強(qiáng)約束它真的檢查過,這個(gè)就不說了,純文案。

第二個(gè)級別,就是OpenAI o1、DeepSeek R1等等,有自己的思維鏈的,這種其實(shí)可以稱為,答案導(dǎo)向的反思。

這類所謂的“reasoning model”的典型套路其實(shí)就是,用RL來獎勵最后答案對不對,可以允許模型在中間多想、多分支、自己評估幾個(gè)方案,再選一個(gè)。

這套模式你不能說他不行,確實(shí)很強(qiáng),通過獎勵最終答案的正確,一年內(nèi),確實(shí)把AIME、HMMT這種只看答案的競賽打滿分。

但有兩個(gè)硬傷。

1. 正確答案 ≠ 推理真的對,中間瞎算、走錯路、蒙對都算贏。

2. 像定理證明這種題,根本沒有單一數(shù)值答案可以獎勵,所以也就容易拉了。

而第三個(gè)級別,就是這次的DeepSeekMath-V2,真正把過程當(dāng)任務(wù)的反思。

這個(gè)點(diǎn),也是源于DeepSeek對人的觀察。


DeepSeekMath-V2的做法,也很有意思,甚至有點(diǎn)精神分裂的哲學(xué)味。

他們其實(shí)搞了兩個(gè)AI出來。

一個(gè)叫生成器(Generator)。這哥們兒就是那個(gè)天馬行空、才華橫溢的學(xué)生。你把題給他,他奮筆疾書,洋洋灑灑,給你寫出一套解題過程。

另一個(gè)叫驗(yàn)證器(Verifier)。這哥們兒是個(gè)極其刻薄、吹毛求疵、毫無感情的老師。生成器寫完的每一個(gè)字,都要經(jīng)過它的審判。它就像拿著放大鏡一樣,逐行檢查,尋找任何可能的邏輯漏洞、計(jì)算錯誤、概念不清。

然后,他們讓驗(yàn)證器去當(dāng)生成器的老師。生成器每寫完一步,驗(yàn)證器就在旁邊打分:

“你這里邏輯不嚴(yán)謹(jǐn),扣分?!?,“你這個(gè)公式用錯了,扣分?!?,“你這里跳步了,扣分?!?/p>

“生成器”為了得到老師也就是驗(yàn)證器的表揚(yáng),就必須不斷地修改、完善自己的證明過程。

它慢慢地就學(xué)會了,不能只圖快,每一步都得想清楚,都得有理有據(jù)。

經(jīng)過這種反復(fù)的自我搏斗,AI就不再是一個(gè)只會輸出答案的機(jī)器了。

它開始擁有了一種真正的最寶貴的能力:

“反思”。

這個(gè)能力,也讓DeepSeekMath-V2在證明題的能力上,薄紗同行。


它不再盲目地相信自己的第一直覺。

在這個(gè)過程中,它學(xué)會了懷疑,學(xué)會了審視,學(xué)會了批判性思維。

而且,這還沒完。

DeepSeek覺得,這還不夠精神分裂。所以,他們又來了一個(gè)更狠的:

元驗(yàn)證(Meta-Verification)。

大概就是,就是他們又搞了個(gè)總教導(dǎo)主任,這個(gè)主任不去看學(xué)生的卷子,而是去看老師批改的卷子有沒有問題。

畢竟有時(shí)候,驗(yàn)證器這個(gè)老師也會犯錯。

比如它可能會冤枉一個(gè)好學(xué)生,把對的步驟判成錯的,或者自己老眼昏花,沒發(fā)現(xiàn)學(xué)生隱藏得很深的錯誤。

元驗(yàn)證器的作用,就是確保驗(yàn)證器的每一次評判都是公平、準(zhǔn)確、有效的。

這套組合拳下來,就形成了一個(gè)極其強(qiáng)大的正向循環(huán):

1. 生成器努力寫出更完美的證明。

2. 驗(yàn)證器在元驗(yàn)證器的監(jiān)督下,變得越來越準(zhǔn)確。

3. 更強(qiáng)的驗(yàn)證器又能反過來訓(xùn)練出更強(qiáng)的生成器。

左腳蹬右腳,螺旋登天。

最終,他們把這兩種能力,合二為一,注入到了同一個(gè)AI的身體里。于是,DeepSeekMath-V2誕生了。

再看看它的成績。

IMO(國際數(shù)學(xué)奧林匹克競賽):這是全世界高中生的最高殿堂。DeepSeekMath-V2在2025年的模擬賽里,6道題解出了5道。金牌水平。

CMO(中國數(shù)學(xué)奧林匹克競賽):中國最頂尖的數(shù)學(xué)競賽。它也拿到了金牌水平的成績。

最恐怖的是這個(gè):Putnam Competition(普特南數(shù)學(xué)競賽)。


這個(gè)競賽,是全世界大學(xué)生數(shù)學(xué)競賽里,公認(rèn)的地獄難度。

它的題目,出的極其刁鉆、深刻,因?yàn)殡y度過大,所以中位數(shù)得分通常為0或1分,而滿分,是120分。。。。

說實(shí)話,在這種競賽里,能考個(gè)十幾二十分,就已經(jīng)是人中龍鳳了。

而去年的人類最高分,是90分。


而DeepSeekMath-V2的得分。

118分。

在12道題里,它完整、嚴(yán)謹(jǐn)?shù)亟獬隽?1道,還有1道也拿到了大部分分?jǐn)?shù)。

太離譜了。

這就是知道學(xué)會反思,學(xué)會過程以后的,真正的AI的實(shí)力。

不知道為什么,讓我想起了Alpha GO。。。

DeepSeek這篇論文,實(shí)際上是給Ilya的問題,提供了一個(gè)可能的答案:

也許,要彌合評測與現(xiàn)實(shí)的鴻溝,我們不應(yīng)該再給AI增加更多的外部RL環(huán)境去刷題,而是應(yīng)該教會AI一種向內(nèi)看的能力。

讓它從追求讓別人滿意(獲得獎勵),轉(zhuǎn)變?yōu)樽非笞屪约簼M意(邏輯自洽)。

王陽明的心學(xué),其實(shí)很早就提過這個(gè)觀點(diǎn)。

心即理,真理不在外部,而在我們每個(gè)人的內(nèi)心。

真正的學(xué)習(xí),不是向外尋求標(biāo)準(zhǔn)答案,而是向內(nèi)致良知,達(dá)到一種內(nèi)在的和諧與通透。

DeepSeekMath-V2,就是AI領(lǐng)域的一次非常有趣的,“致良知”。

有的時(shí)候我經(jīng)常在想,人類的理性,到底是什么?

康德覺得,理性是人類為自然立法的能力。我們通過先驗(yàn)的邏輯框架去理解、整理這個(gè)混亂的世界。

我感覺,DeepSeekMath-V2,有一點(diǎn)像。

過去我們總覺得,AI的智能和人類的智能,隔著一道鴻溝。

我們的智能里,有靈感、有頓悟、有情感、有那些說不清道不明的“Aha Moment”。

可也許,人類的靈感,只是我們大腦在算力不足的情況下,為了走捷徑而產(chǎn)生的一種邏輯的跳躍。

而AI,正在用我們無法想象的算力,把我們跳過的每一步,都踏踏實(shí)實(shí)地走一遍。

它走的,是一條更慢、更笨,但可能也更接近本質(zhì)的道路。

我們,這些習(xí)慣于跳躍的物種,站在AI這條堅(jiān)實(shí)的邏輯長梯面前,難免會感到一絲震撼,和一絲……迷茫。

那我們未來的位置。

又在哪里呢?

以上,既然看到這里了,如果覺得不錯,隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時(shí)間收到推送,也可以給我個(gè)星標(biāo)?~謝謝你看我的文章,我們,下次再見。

>/ 作者:卡茲克

>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@virxact.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
特朗普聲稱:現(xiàn)在與伊朗達(dá)成協(xié)議“比一天前容易多了”

特朗普聲稱:現(xiàn)在與伊朗達(dá)成協(xié)議“比一天前容易多了”

參考消息
2026-03-01 12:58:06
美國軍力全球第一,敢打任何國家?俄潑冷水:這4國你敢打誰?

美國軍力全球第一,敢打任何國家?俄潑冷水:這4國你敢打誰?

近史談
2026-01-19 10:09:51
哈梅內(nèi)伊,突然“回歸天國”

哈梅內(nèi)伊,突然“回歸天國”

中國新聞周刊
2026-03-01 12:28:08
一場34分慘敗,讓開拓者看清楊瀚森,中國球迷開始理解斯普利特

一場34分慘敗,讓開拓者看清楊瀚森,中國球迷開始理解斯普利特

球場沒跑道
2026-03-02 11:15:40
紀(jì)委的朋友告訴我:這三種人,千萬別碰

紀(jì)委的朋友告訴我:這三種人,千萬別碰

細(xì)說職場
2025-11-25 07:09:11
醫(yī)生提醒:無論多壞的肺,只要常吃這5樣,肺一天比一天好

醫(yī)生提醒:無論多壞的肺,只要常吃這5樣,肺一天比一天好

路醫(yī)生健康科普
2026-02-28 23:20:03
徹底決裂!沙特強(qiáng)勢警告伊朗,阿拉伯陣營集體攤牌

徹底決裂!沙特強(qiáng)勢警告伊朗,阿拉伯陣營集體攤牌

老馬拉車莫少裝
2026-02-28 20:35:31
爆笑經(jīng)典閨蜜糗事冷笑話,我有一閨蜜喜歡吃酸的東西一天她去水果店買葡萄吃,老板很熱情的招呼道!

爆笑經(jīng)典閨蜜糗事冷笑話,我有一閨蜜喜歡吃酸的東西一天她去水果店買葡萄吃,老板很熱情的招呼道!

天天明星
2026-03-01 12:13:47
迪拜多地爆炸聲不斷,世界最高樓與導(dǎo)彈“擦肩而過”;全球唯一七星級酒店遇襲,游客被巨大爆炸聲驚醒,震感強(qiáng)烈

迪拜多地爆炸聲不斷,世界最高樓與導(dǎo)彈“擦肩而過”;全球唯一七星級酒店遇襲,游客被巨大爆炸聲驚醒,震感強(qiáng)烈

每日經(jīng)濟(jì)新聞
2026-03-01 15:31:12
美方稱對伊朗軍事行動未涉及核設(shè)施

美方稱對伊朗軍事行動未涉及核設(shè)施

環(huán)球網(wǎng)資訊
2026-03-02 06:12:08
外媒:特朗普對伊朗發(fā)出新威脅

外媒:特朗普對伊朗發(fā)出新威脅

參考消息
2026-03-01 15:52:28
演都不演了!剛復(fù)出就開演唱會,票價(jià)賣到1280,到底誰給的自信?

演都不演了!剛復(fù)出就開演唱會,票價(jià)賣到1280,到底誰給的自信?

科學(xué)發(fā)掘
2026-03-01 21:35:04
擺滿院子的東風(fēng)快遞,美國人看后心里踏實(shí)了:原來是這么造的

擺滿院子的東風(fēng)快遞,美國人看后心里踏實(shí)了:原來是這么造的

趣生活
2026-01-12 21:36:45
從中國男籃驚險(xiǎn)逆轉(zhuǎn)臺北隊(duì)的過程看:周琦在國家隊(duì)尚有一席之地

從中國男籃驚險(xiǎn)逆轉(zhuǎn)臺北隊(duì)的過程看:周琦在國家隊(duì)尚有一席之地

姜大叔侃球
2026-03-01 21:55:19
穩(wěn)中求進(jìn)每月看|春潮澎湃啟新元——2月全國各地經(jīng)濟(jì)社會發(fā)展觀察

穩(wěn)中求進(jìn)每月看|春潮澎湃啟新元——2月全國各地經(jīng)濟(jì)社會發(fā)展觀察

新華社
2026-02-28 22:33:50
自稱無法獲得世界寬恕后,中央媒體對谷愛凌的稱呼發(fā)生變化

自稱無法獲得世界寬恕后,中央媒體對谷愛凌的稱呼發(fā)生變化

陳意小可愛
2026-03-01 13:17:13
已確認(rèn)!南通萬象城某知名火鍋將閉店,會迎來壽司郎嗎?

已確認(rèn)!南通萬象城某知名火鍋將閉店,會迎來壽司郎嗎?

南通濠生活
2026-03-02 10:31:02
總臺記者獲悉:伊朗前總統(tǒng)內(nèi)賈德的死亡消息被其家屬否認(rèn)

總臺記者獲悉:伊朗前總統(tǒng)內(nèi)賈德的死亡消息被其家屬否認(rèn)

極目新聞
2026-03-02 13:29:09
81歲林豆豆現(xiàn)狀:已退休23年,獨(dú)居在北京老房子,用閱讀打發(fā)時(shí)間

81歲林豆豆現(xiàn)狀:已退休23年,獨(dú)居在北京老房子,用閱讀打發(fā)時(shí)間

攬星河的筆記
2025-11-12 12:36:17
小貓坐15小時(shí)車回家過年,下車時(shí)面相老10歲!網(wǎng)友笑瘋:直接孫子變爺爺哈哈

小貓坐15小時(shí)車回家過年,下車時(shí)面相老10歲!網(wǎng)友笑瘋:直接孫子變爺爺哈哈

拜見喵主子
2026-03-01 12:23:37
2026-03-02 14:39:00
數(shù)字生命卡茲克 incentive-icons
數(shù)字生命卡茲克
反復(fù)橫跳于不同的AI領(lǐng)域,努力分享一些很酷的AI干貨
465文章數(shù) 553關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

體育要聞

卡里克主場5連勝!隊(duì)史第2人通過最大考驗(yàn)

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財(cái)經(jīng)要聞

中東局勢影響如何?十大券商策略來了

汽車要聞

預(yù)售11.28萬起 狐全新阿爾法S5標(biāo)配寧德時(shí)代

態(tài)度原創(chuàng)

房產(chǎn)
數(shù)碼
旅游
藝術(shù)
教育

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

數(shù)碼要聞

聯(lián)想公布ThinkBook Modular AI PC Concept模塊化雙屏概念機(jī)

旅游要聞

【花Young貴陽】南明區(qū)永樂鄉(xiāng)萬畝桃花競相綻放

藝術(shù)要聞

2025北京青年美術(shù)作品展 | 油畫作品選刊

教育要聞

【張捷雜談】對涉考舞弊處罰過輕與幕后潛規(guī)則

無障礙瀏覽 進(jìn)入關(guān)懷版