国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek:為了這口醋,包了這頓餃子,為了數(shù)據(jù),我造了模型

0
分享至

原創(chuàng):譚婧

指導(dǎo)教授:王金橋,張家俊

白天有太多干擾,

某日臨睡前,和一位百度的朋友聊幾句,

我說了一句:“不把DeepSeek寫爽,我不想開別的選題?!?/p>

還配上了態(tài)度的表情包,

朋友回復(fù)說,他要笑死了。

DeepSeek那幾篇論文和技術(shù)報(bào)告,

于我而言,??闯P隆?/p>

吃不吃的透是其次,態(tài)度要有,

學(xué)習(xí)是最好的致敬。

思考中,我反復(fù)陷入舊思路,

需要在王金橋,張家俊教授(武漢人工智能研究院)的多次提醒下,重新理解,推理大模型的出現(xiàn),迫使之前玩法都變成“傳統(tǒng)模型”,推理大模型的大門已經(jīng)打開,你進(jìn)不進(jìn),它都在那里。

跪謝DeepSeek,“開源推理大模型”套路開創(chuàng)者,

一把節(jié)約幾年的時(shí)間,

一起跨入“推理大模型”的大門。

一番新景致,好不淋漓暢快。

01

先講,什么是思維鏈吧,

這是推理大模型的一種能力。

好家伙,一句話包括兩個(gè)新名詞:

“思維鏈”“推理大模型”,

熱門話題,很多人都講了,

我不贅述,直接看例子。

對(duì)比,普通模型和有思維鏈能力的模型。

題目:

車起點(diǎn)是A點(diǎn),經(jīng)過5公里后到達(dá)B點(diǎn),

再經(jīng)過3公里后到達(dá)C點(diǎn),

請(qǐng)問車從A到C總距離是多少?

普通模型,直接回答:“8公里”。

答案雖然正確,但沒有一步一步講算的過程。

而有思維鏈(CoT)能力的模型,

回答時(shí),有解題步驟和過程,

給出推理鏈條的各個(gè)環(huán)節(jié)。

回答:

從A到B距離5公里。

從B到C距離3公里。

所以,從A到C總距離是5公里加上3公里,

總共8公里。

推理大模型“給出解題過程”這件事,

在復(fù)雜的問題中顯得尤為重要。

先說什么是“復(fù)雜”?

意味著,當(dāng)我們需要多步推理,

多步解題、長(zhǎng)篇邏輯推導(dǎo)的時(shí)候。

有人認(rèn)為,給正確答案就行了,何必有步驟?

只給答案當(dāng)然不夠,

比如偵探破案,不僅要知道誰是罪犯,

還要知道是怎么推理出來的。

除了說服法官,你還要說服陪審團(tuán),

甚至贏得公眾的理解和支持。

展示推理過程,能幫助別人理解這個(gè)過程,

學(xué)到關(guān)鍵,尤其在復(fù)雜問題中,

步驟和過程比單純答案還能增強(qiáng)我們對(duì)結(jié)果的信任。日后反思,也知道錯(cuò)在哪里。

要我說,既然要順藤摸瓜,

這個(gè)藤和這個(gè)瓜同樣重要。

“藤”在這里是指的兩件事情,

一個(gè)是“推理中的步驟”,也是“訓(xùn)練過程”。

好的,既然推理大模型這么重要,

那么問題來了,怎么得到它?

或者說,怎么得到世間最好的推理大模型?

02

能問出這個(gè)問題,真是志存高遠(yuǎn),

因?yàn)橄嘈?,所以看見?/p>

OpenAI O1做出來了,

DeepSeek也做出來了,

是首個(gè)復(fù)現(xiàn)OpenAI O1模型的開源模型。

國貨之光,當(dāng)之無愧。

有人吐槽,DeepSeek只有模型參數(shù)開源,

訓(xùn)練數(shù)據(jù)和訓(xùn)練過程并未開源。

先反駁一句,

這種開源方式在大模型領(lǐng)域本就主流。

這已經(jīng)很Open了,

比OpenAI不知道Open到哪里去了。

“開源”模型并不意味著啥都告訴你。

那要不要手把手教會(huì)你?

在這個(gè)點(diǎn)上吐槽DeepSeek,完全忍不了。

而且,我在后文中亦會(huì)分析,

這樣“有極高技術(shù)含量,

且依然成謎”的點(diǎn),還有哪些。

前面提到的未開源的“訓(xùn)練過程”,

這是件很學(xué)術(shù),很實(shí)驗(yàn),很工程的事情,

“人話版”就是:“如何得到推理大模型?

DeepSeek得到了,且創(chuàng)新點(diǎn)密度之高,嘆為觀止。

而且會(huì)在整個(gè)訓(xùn)練過程中從頭到尾不斷出現(xiàn),

這樣“創(chuàng)新”含量極高的一個(gè)過程,

其本身也是一種創(chuàng)新。

所以,我想先寫R1模型的訓(xùn)練過程。

而且,訓(xùn)練過程這件事,比蒸餾重要多了。

就技術(shù)含量來講,

“蒸餾”和“訓(xùn)練過程”完全不在一個(gè)級(jí)別上。

在“訓(xùn)練過程”面前,

”蒸餾“充其量是低處好摘的果子。

因?yàn)镽1在V3之后發(fā)布,且R1比V3更好理解,

想吃透,我的方法是:

學(xué)習(xí)順序是倒序。

我寫稿AI深度稿8年,

都沒有信心把這幾個(gè)模型吃透,

過去軟弱的我已經(jīng)死了,現(xiàn)在是更軟弱的我。

話說回來,R1模型的訓(xùn)練過程,論文里雖有描述,

但業(yè)界仍然有不同觀點(diǎn)。

咱們花開兩朵,各表一枝。

先談,我不同意的,

再談,我同意的。

我觀察到,整個(gè)訓(xùn)練過程中的一些中間模型,

它們并沒有被接著訓(xùn)練下去,

其中一些甚至被“舍棄”了,

或者說好聽點(diǎn),“退休”了。

這時(shí)候,應(yīng)該深度思考,

如果他們被構(gòu)建出來之后,

并不參與下一個(gè)訓(xùn)練流程,

那他們被造出來的目的和意義是什么?

想通這點(diǎn),才能算理解了這篇文章的核心。

回到我的結(jié)論,我不認(rèn)為是R1的訓(xùn)練過程是下面這樣。

03

再看第二種,我同意的訓(xùn)練過程,

整個(gè)訓(xùn)練過程,可轉(zhuǎn)化為這樣一套樸素的想法:

以上,是我理解了王金橋和張家俊兩位教授核心觀點(diǎn)后總結(jié)的,

細(xì)心的讀者可能已經(jīng)發(fā)現(xiàn)了,

這個(gè)過程正巧是一個(gè)人類思維鏈。

確實(shí)是用思維鏈解釋思維鏈大模型的思維鏈。

(禁止俄羅斯套娃梗)

04

高質(zhì)量推理數(shù)據(jù)的含金量還在增加

到底怎么理解?

開個(gè)玩笑,拿來300集《名偵探柯南》,

全套《福爾摩斯》,這些也是推理數(shù)據(jù)?

當(dāng)然不是,它們只含有推理的信息。

這么說推理數(shù)據(jù)吧:

是高難度數(shù)據(jù),極難獲得的高質(zhì)量數(shù)據(jù)。

數(shù)據(jù)里面得有完整解題步驟,

得有各種推理方式,

得邏輯有連貫性;

這么好的數(shù)據(jù)哪里找?

回答這個(gè)問題,

先得知道一個(gè)著名的模型叫“R1-Zero”,簡(jiǎn)稱Zero;

這種模型通過純強(qiáng)化學(xué)習(xí)過程開發(fā),

“激發(fā)”?型語?模型推理能?的潛?。

R1論文報(bào)告標(biāo)題里也用的“激發(fā)”一詞。

我管這種訓(xùn)練方法叫純血強(qiáng)化學(xué)習(xí),很特別。

不僅Zero的這個(gè)訓(xùn)練方法太特別了,

而且還有一個(gè)大用,就是造數(shù)據(jù)。

換句話說,整個(gè)過程中,不僅拿Zero來造數(shù)據(jù),

造完數(shù)據(jù)Zero模型雖然已經(jīng)宣布退休了,

但是造Zero模型的方法還在繼續(xù)使用。

所以Zero一定要留下名字。

在易被忽略之處,還有一個(gè)沒有名字的模型,

誠如開發(fā)者所愿,它連名字都不配擁有,

就叫“中間模型”吧,也可以叫“無名模型”。

中間模型存在的意義和價(jià)值,

就是構(gòu)造第二個(gè)微調(diào)階段所需要的高質(zhì)量的數(shù)據(jù)。

而“無名模型”正是構(gòu)建高質(zhì)量(CoT)數(shù)據(jù)的幕后推手。這個(gè)模型可能并不直接負(fù)責(zé)輸出最終的推理鏈,但它為后續(xù)的微調(diào)和優(yōu)化提供了極為關(guān)鍵的支持:高質(zhì)量數(shù)據(jù)。

也就是說為了造數(shù)據(jù),

模型都專門訓(xùn)練了兩種:有名的和無名的。

我不禁喟嘆,DeepSeek:為了造數(shù)據(jù),我造了模型

電影《邪不壓正》里姜文的聲音,飄入腦海:

就是為了這點(diǎn)醋,我才包的這頓餃子。

冷啟動(dòng)(SFT)是什么意思?

一方面是說它用的數(shù)據(jù)特別少,才幾千條。

無論多少,沒有數(shù)據(jù),這件事還是干不了。

這幾千條數(shù)據(jù)誰幫忙造的?

答案是Zero模型。

沒有Zero模型給你造數(shù)據(jù),神仙也干不成。

第一階段先冷啟動(dòng)(SFT),

然后用強(qiáng)化學(xué)習(xí)增強(qiáng)模型的推理能力,

尤其是在數(shù)學(xué),代碼上。

這時(shí)候,事情結(jié)束了嗎?

當(dāng)然沒有,第一階段后面是第二階段,

這句話顯然不是廢話,

因?yàn)榈诙A段對(duì)高質(zhì)量數(shù)據(jù)的要求更大,

你也不能再冷啟動(dòng)一次了,

于是,又進(jìn)行了一次第二階段的SFT和強(qiáng)化學(xué)習(xí)。

細(xì)數(shù)一下,微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)分別做了兩次,前面講了,第二階段的數(shù)據(jù),

比第一階段的數(shù)據(jù)要求更多,

大約60萬高質(zhì)量推理數(shù)據(jù),20萬非推理數(shù)據(jù),

V3還在中間當(dāng)了裁判,

質(zhì)量不行,看不懂的數(shù)據(jù)直接不要了。

這60萬數(shù)據(jù)是精挑細(xì)選后的,

那沒有挑選之前的數(shù)據(jù)哪里來的呢?

那個(gè)無名模型,也就是中間模型,

默默地支撐了。

這里可以插一句:

有極高技術(shù)含量,且依然成謎”的點(diǎn)這里也有,

請(qǐng)問這20萬數(shù)據(jù)的類型配比是啥?

這是一道思考題,也是一道實(shí)踐題。

我們言歸正傳,下面怎么辦呢?

又把V3拿來用了。

這時(shí)候,我們甚至可以再細(xì)數(shù)一下,

V3用一次,V3用兩次,V3用三次,

才得到了R1這個(gè)模型。

所以,R1它就像啥?

就像一個(gè)俄羅斯套娃,不對(duì),是三個(gè)。

要我說,DeepSeek在訓(xùn)練方式上的獨(dú)具創(chuàng)新之處在于,

每個(gè)人都想增強(qiáng)模型的推理能力。

而DeepSeek為它的增強(qiáng)推理能力,

造了一個(gè)模型,又造了“造數(shù)據(jù)的模型”,

還造了造模型造數(shù)據(jù)的方法。

張家俊教授的觀點(diǎn)是:

“DeepSeek他們可能有一個(gè)信念,數(shù)學(xué)和代碼等專用領(lǐng)域的推理能力可以泛化到通用。之前我們見到更多的,是先做通用,然后再訓(xùn)練專用能力成為一個(gè)專用模型,例如通用模型到行業(yè)模型再到場(chǎng)景模型。而這次通用領(lǐng)域推理能力的習(xí)得則采用了相反的思路,先搞定專用領(lǐng)域模型推理能力的學(xué)習(xí)范式,再由專用模型的推理能力牽引泛化至通用領(lǐng)域?!?/strong>

“然后,雖然DeepSeek R1中如何構(gòu)造高質(zhì)量推理和通用數(shù)據(jù)至關(guān)重要,本質(zhì)上R1 Zero是最大的創(chuàng)新。構(gòu)建R1的整個(gè)過程可能也是不斷嘗試和折中的結(jié)果,最理想情況應(yīng)該是希望R1 Zero就能實(shí)現(xiàn)通用領(lǐng)域推理能力的直接泛化,后來發(fā)現(xiàn)Zero只有專用推理能力,而且推理過程語言混雜可讀性差,不過可喜的是能生產(chǎn)比較完整的推理數(shù)據(jù)了,那就退回經(jīng)典的SFT+RL的范式,為了造更高質(zhì)量的推理數(shù)據(jù),就有了第一階段的冷啟動(dòng)+Zero推理方法。”

如此獨(dú)具匠心的設(shè)計(jì),

有“因?yàn)橄嘈潘钥吹健边@樣的信仰,

而我還停留在“因?yàn)榭吹?,所以相信”?/p>

這次就到這里,

很多時(shí)新酷炫的專業(yè)術(shù)語都被我刪減了,

因?yàn)樵诖藭r(shí)此刻,它們都不重要。

這篇科普漫畫看完已經(jīng)發(fā)給我媽了,

又不是多難,別人媽媽會(huì)的,我媽也要會(huì)。

畢竟,她從小也是這么教育我的。

春節(jié)期間,我已經(jīng)在飯桌上被狂轟亂炸了個(gè)遍,

從我媽到七大姑八大姨,

誰不想懂DeepSeek呢。

(完)

One More Thing

我知道有的數(shù)據(jù)團(tuán)隊(duì)在爬我公眾號(hào)上的內(nèi)容,

感謝視其為高質(zhì)量數(shù)據(jù),

說實(shí)話,我不愿意,

而又無力阻止。

我能做的就是,精品和核心內(nèi)容會(huì)更多的向漫畫上遷移,

一方面文章更好看,

另一方面,想把數(shù)據(jù)拿走,

你們就得必須再接一套Caption方案;

效果好不好,不知道了,

反正成本是更高了,

這可以視為,

我對(duì)AI版權(quán)問題有聲的抵抗。

《作者直到最近才費(fèi)勁弄清楚的……》

1.是時(shí)候發(fā)力AI推理了,吳恩達(dá)都說需求遠(yuǎn)超想象

2.AI推理紅海戰(zhàn):百萬Token一元錢,低價(jià)背后藏何種貓膩?

3.質(zhì)疑美國芯片Etched:AI領(lǐng)域最大賭注的盡頭是散熱?

4.機(jī)會(huì)在哪?原理是啥?哈佛輟學(xué)融資1.2億造AI芯片

5.對(duì)抗NVLink簡(jiǎn)史?10萬卡爭(zhēng)端,英偉達(dá)NVL72超節(jié)點(diǎn)挑起

6. 硅谷訪客丨誰在“掏空”深度學(xué)習(xí)框架PyTorch?

長(zhǎng)文系列

1.年終盤點(diǎn):圖文大模型編年簡(jiǎn)史

2.跳槽去搞國產(chǎn)大模型,收入能漲多少?

3.大模型下一場(chǎng)戰(zhàn)事,為什么是AI Agent?

4.假如你家大模型還是個(gè)二傻子,就不用像llya那樣操心AI安全

5.指令數(shù)據(jù):訓(xùn)練大模型的“隱形助力”

6.對(duì)話百度孫珂:想玩好AI Agent,大模型的“外掛”生意怎么做?

7.再造一個(gè)英偉達(dá)?黃仁勛如何看待生物學(xué)與AI大模型的未來?

8. 對(duì)話科大訊飛劉聰:假如對(duì)大模型算法沒把握,錯(cuò)一個(gè)東西,三個(gè)月就過去了

9.美國AI芯片公司“贏了”大模型公司?

10.美國玩大模型那幫人:好幾萬卡集群+超級(jí)節(jié)點(diǎn)

11.如何辨別真假“AI劉強(qiáng)東”?10億參數(shù),數(shù)字人實(shí)時(shí)生成視頻

12.智譜清影做“Stable Diffusion”,生數(shù)科技做“Midjourney”?

聲明:個(gè)人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
全網(wǎng)嘲諷!《浪姐7》開播迎來首位翻車嘉賓,操作敗好感

全網(wǎng)嘲諷!《浪姐7》開播迎來首位翻車嘉賓,操作敗好感

一盅情懷
2026-04-06 15:41:55
上海交大再獲重磅捐贈(zèng) 楊元慶出資2億支持教學(xué)樓重建改造

上海交大再獲重磅捐贈(zèng) 楊元慶出資2億支持教學(xué)樓重建改造

快科技
2026-04-06 18:56:10
特斯拉即將發(fā)布一款重磅車型,太猛了!

特斯拉即將發(fā)布一款重磅車型,太猛了!

花果科技
2026-04-05 23:01:14
這是不是你見過的最美空姐,要說實(shí)話

這是不是你見過的最美空姐,要說實(shí)話

可樂談情感
2026-04-06 18:53:17
毛新宇參觀祖宅時(shí)突然發(fā)現(xiàn)家譜記載:原來毛主席是毛太華第20代孫

毛新宇參觀祖宅時(shí)突然發(fā)現(xiàn)家譜記載:原來毛主席是毛太華第20代孫

老杉說歷史
2026-03-14 20:54:20
地鐵員工大量辭職,直言不僅是因?yàn)楣べY低,3大原因太現(xiàn)實(shí)

地鐵員工大量辭職,直言不僅是因?yàn)楣べY低,3大原因太現(xiàn)實(shí)

探源歷史
2026-04-06 08:51:08
《冬去春來》收官,全員美滿,只有他的結(jié)局最慘,讓人唏噓!

《冬去春來》收官,全員美滿,只有他的結(jié)局最慘,讓人唏噓!

時(shí)間巡查
2026-04-06 17:58:25
雨的父親叫什么?鹽城一圖書館被指“涉黃”

雨的父親叫什么?鹽城一圖書館被指“涉黃”

鹽城123網(wǎng)
2026-04-06 11:05:54
回顧:2012年山東一對(duì)新人蜜月被害,破案后新郎父親說:怎么是你

回顧:2012年山東一對(duì)新人蜜月被害,破案后新郎父親說:怎么是你

歷來都很現(xiàn)實(shí)
2024-08-10 21:00:11
塵埃落定…… 齊達(dá)內(nèi)多年等待,終于圓夢(mèng)!執(zhí)掌法國國家隊(duì)

塵埃落定…… 齊達(dá)內(nèi)多年等待,終于圓夢(mèng)!執(zhí)掌法國國家隊(duì)

夜白侃球
2026-04-05 21:50:34
杜月笙晚年找算命先生算命,算命先生一席話,杜月笙嚇得渾身顫抖

杜月笙晚年找算命先生算命,算命先生一席話,杜月笙嚇得渾身顫抖

千秋文化
2026-04-01 20:28:29
一空姐機(jī)上被打,航司霸氣出面:打我家空姐,拉入黑名單

一空姐機(jī)上被打,航司霸氣出面:打我家空姐,拉入黑名單

中國民航人
2026-04-06 18:10:42
特朗普病重住院?白宮回應(yīng)了!

特朗普病重住院?白宮回應(yīng)了!

達(dá)文西看世界
2026-04-06 11:02:36
《乘風(fēng)2026》李小冉組隊(duì):拒萬千惠選唐藝昕王濛,高情商還是雙標(biāo)

《乘風(fēng)2026》李小冉組隊(duì):拒萬千惠選唐藝昕王濛,高情商還是雙標(biāo)

露珠聊影視
2026-04-06 16:43:43
58歲伊能靜攜秦昊回臺(tái)北,身形似少女,兩人路邊吃手抓餅被認(rèn)出

58歲伊能靜攜秦昊回臺(tái)北,身形似少女,兩人路邊吃手抓餅被認(rèn)出

鄉(xiāng)野小珥
2026-04-05 19:47:13
李訥帶全家去祭拜毛主席,兒媳王偉漂亮懂事,王景清攙扶著李訥

李訥帶全家去祭拜毛主席,兒媳王偉漂亮懂事,王景清攙扶著李訥

大江
2026-03-14 08:17:36
曝字母哥被交易幾成定局!今夏聽取各隊(duì)報(bào)價(jià):四大方案誰更誘人?

曝字母哥被交易幾成定局!今夏聽取各隊(duì)報(bào)價(jià):四大方案誰更誘人?

羅說NBA
2026-04-05 22:14:37
不再隱瞞!畸形兒傳聞后,闞清子哭得一塌糊涂,章小蕙的話暴隱情

不再隱瞞!畸形兒傳聞后,闞清子哭得一塌糊涂,章小蕙的話暴隱情

一盅情懷
2026-04-05 16:29:22
直接返回歐洲!東契奇真的拼了,還不想放棄本賽季

直接返回歐洲!東契奇真的拼了,還不想放棄本賽季

德譯洋洋
2026-04-06 12:15:51
法國冠軍車手銳評(píng)張雪機(jī)車奪冠,7字一針見血,字字直戳國人心窩

法國冠軍車手銳評(píng)張雪機(jī)車奪冠,7字一針見血,字字直戳國人心窩

以茶帶書
2026-04-06 14:11:13
2026-04-06 21:04:49
親愛的數(shù)據(jù) incentive-icons
親愛的數(shù)據(jù)
《我看見了風(fēng)暴:人工智能基建革命》一書作者
693文章數(shù) 219913關(guān)注度
往期回顧 全部

科技要聞

折疊屏iPhone要來了,富士康已在試產(chǎn)!

頭條要聞

專家:美動(dòng)用特種部隊(duì)營救飛行員 更像是地面進(jìn)攻預(yù)演

頭條要聞

專家:美動(dòng)用特種部隊(duì)營救飛行員 更像是地面進(jìn)攻預(yù)演

體育要聞

球員系列賽大滿貫!趙心童10-3世界第一 加冕賽季第4冠

娛樂要聞

唐嫣羅晉新加坡遛娃,6歲女兒身高搶鏡

財(cái)經(jīng)要聞

史詩級(jí)暴跌"一周年" A股接下來如何走?

汽車要聞

阿維塔06T快上市了 旅行車還能這么玩?

態(tài)度原創(chuàng)

親子
房產(chǎn)
時(shí)尚
公開課
軍事航空

親子要聞

中泰小萌娃的快樂日常,簡(jiǎn)單又治愈~

房產(chǎn)要聞

小陽春全面啟動(dòng)!現(xiàn)房,才是這波行情里最穩(wěn)的上車票

再見老錢風(fēng),今年流行的“新自然主義風(fēng)”穿搭太時(shí)髦了!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗:在C-130運(yùn)輸機(jī)殘骸中發(fā)現(xiàn)一具美軍士兵遺體

無障礙瀏覽 進(jìn)入關(guān)懷版