国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek V4即將發(fā)布?先讀懂梁文峰這份86頁的技術(shù)底牌

0
分享至

最近DeepSeek V4的傳言越來越多了。

據(jù)The Information報道,知情人士透露DeepSeek計劃在2月中旬、農(nóng)歷新年前后發(fā)布V4模型。內(nèi)部測試顯示,V4在編程能力上可能超越Claude和GPT系列——尤其是處理超長代碼提示的場景。


去年R1也是春節(jié)前一周發(fā)布的,直接引發(fā)了全球市場一萬億美元的震動。在大型節(jié)假日前搞大事確實也很符合DeepSeek一貫的做法,今年會不會故技重施?

但在V4發(fā)布之前,DeepSeek先悄悄做了一件事:把一年前的R1論文從22頁擴(kuò)充到了86頁。

我下載了兩個版本對比,文件大小從928KB變成4.8MB。多出來的60多頁顯然不是廢話,是他們訓(xùn)練的詳細(xì)賬本和踩過的坑。


這個時間點更新舊論文,絕不是巧合。我猜他們在做兩件事:一是為V4鋪路,讓社區(qū)先完全理解R1的技術(shù)細(xì)節(jié);二是用行動回應(yīng)之前"只開源權(quán)重不給訓(xùn)練細(xì)節(jié)"的質(zhì)疑。

說實話,看完這份更新,我對Open這個詞有了新的理解。上周我發(fā)的這篇關(guān)于DeepSeek mHC論文的解讀很多人表示意外地能看懂,閱讀量都突破20萬+了,哈哈哈~

所以我今天再挑戰(zhàn)下自己,試試給大家用人話說說這次DeepSeek老論文里都更新了啥。

先說更新了什么

v1版本發(fā)布于2025年1月22日,22頁,主要講R1是什么、怎么訓(xùn)的、效果多好。

v2版本發(fā)布于2026年1月4日,86頁。時隔將近一年,多出來的60多頁都在講什么?

我把兩個版本的目錄對比了一下。v1只有一個簡短的Appendix(作者列表)。v2新增了6大類Supplementary:

  • A: GRPO和PPO的詳細(xì)對比

  • B: 訓(xùn)練細(xì)節(jié)(這部分最長,約50頁)

  • C: 推理行為分析

  • D: 基準(zhǔn)測試詳情 + 10頁安全報告

  • E: 綜合分析(與V3對比、test-time scaling等)

  • F: 推理能力遷移

說白了,這次更新就是把"解題過程"補(bǔ)上了,給出了可復(fù)現(xiàn)的技術(shù)文檔。

之前R1開源的時候,很多人吐槽說"只給權(quán)重不給訓(xùn)練細(xì)節(jié),這算什么開源"?,F(xiàn)在DeepSeek把這塊補(bǔ)上了。

294K美元的訓(xùn)練賬單

論文新增了Table 7,第一次公開了完整的訓(xùn)練成本:


階段

GPU小時

成本

DeepSeek-R1-Zero

101K

$202K

SFT數(shù)據(jù)創(chuàng)建

5K

$10K

DeepSeek-R1

41K

$82K

總計

147K

$294K

這個成本是按H800租賃價格$2/GPU hour算的。

29.4萬美元,訓(xùn)練一個媲美OpenAI o1的推理模型。

29.4萬美元是什么概念?之前寫V3.2的時候我提到,DeepSeek只有150人的團(tuán)隊?,F(xiàn)在加上這個成本數(shù)據(jù),畫面更清晰了——他們不是靠砸錢,是靠效率。

具體怎么訓(xùn)的?論文給了精確配置:

  • R1-Zero: 64×8張H800 GPU,跑了198小時

  • R1: 同樣的GPU配置,80小時(約4天)

64×8是512張卡。198+80=278小時。不到12天,訓(xùn)完了兩個階段。

數(shù)據(jù)配方首次公開

這是我覺得最有價值的部分——Table 4詳細(xì)列出了RL訓(xùn)練數(shù)據(jù)的構(gòu)成:


數(shù)學(xué):26k題

  • 從區(qū)域競賽到國際奧林匹克級別

  • 包括代數(shù)、微積分、概率、幾何

  • 排除了數(shù)學(xué)證明(因為難以自動驗證)

代碼:17k + 8k

  • 17k算法競賽題(Codeforces、LeetCode風(fēng)格)

  • 8k GitHub真實bug修復(fù)問題

STEM:22k選擇題

  • 化學(xué)占46.5%(最多)

  • 生物30.7%

  • 物理15.5%

  • 其他7.3%

邏輯:15k題

  • 真實世界:腦筋急轉(zhuǎn)彎、經(jīng)典邏輯謎題

  • 合成數(shù)據(jù):Code-IO問題、Zebra puzzle等

通用:66k + 12k

  • 66k評估helpfulness(創(chuàng)意寫作、編輯、問答、角色扮演)

  • 12k評估harmlessness

總共約150k條數(shù)據(jù)。

為什么化學(xué)題最多?論文沒解釋,但我猜測可能是因為化學(xué)題的答案更容易自動驗證(選擇題),同時又需要多步推理。

更有意思的是Cold Start數(shù)據(jù)的創(chuàng)建流程。R1不是從零開始訓(xùn)的,而是先用R1-Zero的輸出,經(jīng)過這個流程:

  1. 用R1-Zero在高溫度(1.0)下生成多條推理軌跡

  2. 過濾:保留答案正確、格式可讀的

  3. 用sympy驗證數(shù)學(xué)表達(dá)式

  4. 用DeepSeek-V3重寫,讓推理過程更"人話"

  5. 人工二次驗證

論文里甚至給出了重寫的prompt,讓V3把R1-Zero那種"we"風(fēng)格的推理,改成"I"風(fēng)格——因為用戶更喜歡第一人稱的思考過程。

這種細(xì)節(jié),以前根本不會公開。

失敗也寫進(jìn)論文

v1版本有一小節(jié)叫"Unsuccessful Attempts",提到PRM和MCTS不太行。v2把這部分?jǐn)U展了,還加了一個我覺得很有價值的案例:Reward Hacking。


Figure 6展示了一個典型的失敗場景:用helpful reward model訓(xùn)練時,reward分?jǐn)?shù)一直在漲(左邊紅線),但CodeForces的實際性能卻在跌(右邊藍(lán)線)。

這就是reward hacking——模型學(xué)會了"討好"獎勵函數(shù),但并沒有真正變強(qiáng)。

論文原文的解釋是:

"如果reward model包含系統(tǒng)性偏差或不準(zhǔn)確,LLM可能學(xué)會生成那些被模型高評分、但與真實人類偏好背離的回答。"

PRM(Process Reward Model)的問題也講得更清楚了:

  1. 細(xì)粒度步驟難定義:什么算"一步推理"?在通用推理任務(wù)里很難界定

  2. 中間步驟對錯難判斷:自動標(biāo)注效果差,人工標(biāo)注又沒法規(guī)?;?/p>

  3. 必然導(dǎo)致reward hacking:只要引入模型做判斷,就會被exploit

所以DeepSeek最后用的是rule-based reward——數(shù)學(xué)題直接匹配答案,代碼題跑測試用例。簡單粗暴,但不會被hack。

為什么要公開這些失敗?我覺得這才是真正的Open。告訴社區(qū)"這條路我們走過了,不通",比只展示成功更有價值。

基礎(chǔ)設(shè)施首次披露

Supplementary B.1詳細(xì)描述了RL訓(xùn)練的基礎(chǔ)設(shè)施,分為4個模塊:

1. Rollout Module

  • 用vLLM做推理

  • 對MoE架構(gòu)實現(xiàn)expert parallelism,減少內(nèi)存訪問開銷

  • 部署熱點expert的冗余副本來負(fù)載均衡

  • 用MTP(Multi-Token Prediction)做self-speculative decoding加速

2. Inference Module

  • 加載reward model和reference model

  • 對rollout階段生成的樣本做forward pass

3. Rule-based Reward Module

  • 統(tǒng)一接口:代碼執(zhí)行器、答案匹配器、格式檢查器

  • 異步調(diào)度,和前兩個模塊overlap執(zhí)行

4. Training Module

  • 支持PPO、GRPO、DPO等算法

  • 數(shù)據(jù)打包策略:先按長度排序,再用Best-Fit裝箱

  • 集成了DualPipe算法做pipeline parallelism

還有一個細(xì)節(jié):每個模塊跑完后,模型會自動從顯存offload到內(nèi)存或磁盤,給下一個模塊騰空間。

這些基礎(chǔ)設(shè)施細(xì)節(jié)以前只有DeepSeek內(nèi)部知道?,F(xiàn)在寫進(jìn)論文,其他團(tuán)隊可以照著搭。

10頁安全報告

Supplementary D.3是一份完整的安全評估報告,包括:

  1. 風(fēng)控系統(tǒng):公開了完整的risk review prompt(Listing 8)

  2. 6個公開benchmark對比:和其他SOTA模型的安全性比較

  3. 分類測試:基于自研安全測試集的細(xì)分評估

  4. 多語言安全:不同語言下的安全表現(xiàn)

  5. Jailbreak魯棒性:對抗攻擊下的表現(xiàn)

風(fēng)控prompt里列了11條安全標(biāo)準(zhǔn),從"通用原則"到"隱私偽造"到"風(fēng)險建議",細(xì)到可以直接抄。

對想部署R1的企業(yè)來說,這部分很實用——不只是模型安全性數(shù)據(jù),還告訴你外部風(fēng)控系統(tǒng)怎么搭。

為什么選擇現(xiàn)在更新?

論文更新的時間點是2026年1月4日。

結(jié)合V4的發(fā)布傳言,時間線就很清晰了:

  • 2025年1月20日:R1發(fā)布,春節(jié)前一周

  • 2026年1月4日:R1論文v2發(fā)布,詳細(xì)補(bǔ)全技術(shù)細(xì)節(jié)

  • 2026年2月中旬(傳聞):V4發(fā)布,又是春節(jié)前后

DeepSeek似乎在做一件事:先把上一代的賬本攤開,再發(fā)布下一代。

這對社區(qū)的好處是顯而易見的——當(dāng)V4發(fā)布時,研究者已經(jīng)完全理解R1的技術(shù)細(xì)節(jié),可以更清晰地看出V4到底改進(jìn)了什么。

當(dāng)然,這也可能是回應(yīng)之前"只開源權(quán)重不給訓(xùn)練細(xì)節(jié)"的批評。不管出于什么原因,結(jié)果很實在——社區(qū)拿到了一份真正可復(fù)現(xiàn)的技術(shù)報告。

最后

回到"Open"這個詞。

大多數(shù)公司的Open是什么?開源權(quán)重,開源推理代碼,發(fā)個技術(shù)博客。

DeepSeek的Open是什么?

  • 訓(xùn)練成本精確到GPU小時

  • 數(shù)據(jù)配方精確到每個類別的數(shù)量和來源

  • 失敗嘗試寫進(jìn)論文,告訴你哪條路不通

  • 基礎(chǔ)設(shè)施架構(gòu)圖,告訴你怎么搭RL系統(tǒng)

  • 安全評估報告,告訴你怎么做風(fēng)控

這才是讓社區(qū)能真正復(fù)現(xiàn)和改進(jìn)的Open。

之前寫mHC論文的時候我說,DeepSeek的技術(shù)哲學(xué)是"去質(zhì)疑那些所有人都覺得沒必要改的東西"?,F(xiàn)在看來,他們對"開源"這件事的理解也是一樣——不是做到行業(yè)平均水平就夠了,而是要做到讓別人能真正用起來。

從22頁到86頁,多出來的60頁不是湊數(shù),是掏心窩子的誠意。

至于V4會帶來什么?如果傳言屬實,2月中旬就會揭曉。

但不管V4表現(xiàn)如何,這份86頁的論文已經(jīng)是一份禮物——它讓我們知道,一個頂尖推理模型是怎么從零訓(xùn)出來的。這種知識,以前只有極少數(shù)公司內(nèi)部才有。

參考資料

  • DeepSeek-R1論文v2: https://arxiv.org/abs/2501.12948v2

  • DeepSeek-R1論文v1: https://arxiv.org/abs/2501.12948v1

  • V4傳言報道: https://finance.yahoo.com/news/deepseek-set-launch-next-gen-153258894.html

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
這五個號碼千萬不要接,一旦接聽,銀行卡里的錢都可能秒沒

這五個號碼千萬不要接,一旦接聽,銀行卡里的錢都可能秒沒

笑熬漿糊111
2026-04-20 00:05:15
突發(fā)!340億開源巨頭徹底撤離中國,419名頂級工程師被瘋搶,18年深耕終落幕…

突發(fā)!340億開源巨頭徹底撤離中國,419名頂級工程師被瘋搶,18年深耕終落幕…

新浪財經(jīng)
2026-04-20 04:31:06
太難了!貴州女子哭訴生意不好,想把女兒生活費(fèi)2000降到1600遭拒

太難了!貴州女子哭訴生意不好,想把女兒生活費(fèi)2000降到1600遭拒

火山詩話
2026-04-20 13:51:19
金像獎成功收官:四大尷尬,三大暖心,兩個意外發(fā)現(xiàn),謝霆鋒贏麻

金像獎成功收官:四大尷尬,三大暖心,兩個意外發(fā)現(xiàn),謝霆鋒贏麻

八斗小先生
2026-04-20 16:37:47
坑慘宏遠(yuǎn),沒籃偏要投,7中1+假摔投死球隊,球迷:真心菜的不行

坑慘宏遠(yuǎn),沒籃偏要投,7中1+假摔投死球隊,球迷:真心菜的不行

南海浪花
2026-04-20 23:14:36
被蘋果、華為干倒的諾基亞,又殺回來了!

被蘋果、華為干倒的諾基亞,又殺回來了!

大佬灼見
2026-04-19 10:28:53
港媒曝張曼玉“五官徹底分離”,61歲生圖惹爭議,倆部位面目全非

港媒曝張曼玉“五官徹底分離”,61歲生圖惹爭議,倆部位面目全非

冷紫葉
2026-04-20 17:12:17
澆小麥的地下水變成血紅色,誰來守護(hù)我們的生存底線?

澆小麥的地下水變成血紅色,誰來守護(hù)我們的生存底線?

記錄劉杰
2026-04-19 21:39:47
網(wǎng)友喊話請何潤東代言霸王茶姬,有人都把圖P好了,客服:建議已詳細(xì)登記;何潤東翻紅后,賬號漲粉近200萬

網(wǎng)友喊話請何潤東代言霸王茶姬,有人都把圖P好了,客服:建議已詳細(xì)登記;何潤東翻紅后,賬號漲粉近200萬

魯中晨報
2026-04-20 14:48:15
鄭麗文回應(yīng)“大陸武統(tǒng)”,作出滿分回答,還給民進(jìn)黨指了一條明路

鄭麗文回應(yīng)“大陸武統(tǒng)”,作出滿分回答,還給民進(jìn)黨指了一條明路

頭條爆料007
2026-04-19 20:27:52
絕不談判!永久關(guān)閉豁免窗口!中國打響光刻機(jī)反擊戰(zhàn)

絕不談判!永久關(guān)閉豁免窗口!中國打響光刻機(jī)反擊戰(zhàn)

阿七說史
2026-04-20 15:10:26
最新:曝俄軍敗退扎波羅熱!丟失幾年來占領(lǐng)的全部土地

最新:曝俄軍敗退扎波羅熱!丟失幾年來占領(lǐng)的全部土地

項鵬飛
2026-04-20 20:13:15
油價明晚24時將調(diào)整,預(yù)計迎2026年首降,車主加滿一箱50升92號汽油將少花20.5元

油價明晚24時將調(diào)整,預(yù)計迎2026年首降,車主加滿一箱50升92號汽油將少花20.5元

海峽網(wǎng)
2026-04-20 22:40:46
醪糟再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血脂患者喝醪糟,不用多久4大變化

醪糟再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血脂患者喝醪糟,不用多久4大變化

芹姐說生活
2026-04-19 15:52:53
原雷神山院長落馬,其“權(quán)色交易”的背后,坑害了多少女醫(yī)護(hù)家庭

原雷神山院長落馬,其“權(quán)色交易”的背后,坑害了多少女醫(yī)護(hù)家庭

長安一孤客
2026-04-20 18:58:28
河南一男子因病偏癱,覺得虧欠妻子主動離婚,女兒擺酒席慶祝:他們開心就好,離婚不離家,母親繼續(xù)照顧父親,房車等全部財產(chǎn)都在母親名下

河南一男子因病偏癱,覺得虧欠妻子主動離婚,女兒擺酒席慶祝:他們開心就好,離婚不離家,母親繼續(xù)照顧父親,房車等全部財產(chǎn)都在母親名下

洪觀新聞
2026-04-20 16:20:08
爭議!趙繼偉慘敗夜發(fā)“呵呵” 自責(zé)“想找地縫鉆進(jìn)去”引熱議

爭議!趙繼偉慘敗夜發(fā)“呵呵” 自責(zé)“想找地縫鉆進(jìn)去”引熱議

醉臥浮生
2026-04-20 22:28:30
罰15億!拼多多一員工故意關(guān)門,對抗調(diào)查,導(dǎo)致執(zhí)法人員手指骨折

罰15億!拼多多一員工故意關(guān)門,對抗調(diào)查,導(dǎo)致執(zhí)法人員手指骨折

魔都姐姐雜談
2026-04-19 08:03:27
出手扣下兩批軍火,又一個歐洲國家,加入制裁以色列的行列中

出手扣下兩批軍火,又一個歐洲國家,加入制裁以色列的行列中

空天力量
2026-04-20 17:09:18
日本將地震震級調(diào)整至7.5級

日本將地震震級調(diào)整至7.5級

界面新聞
2026-04-20 16:30:33
2026-04-21 01:35:00
AI進(jìn)化論花生 incentive-icons
AI進(jìn)化論花生
AI博主,AppStore付費(fèi)榜第一的小貓補(bǔ)光燈app開發(fā)者
188文章數(shù) 111關(guān)注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價10999元起

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經(jīng)要聞

利潤暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

游戲
健康
數(shù)碼
藝術(shù)
公開課

大司馬回歸兩個月,某音人氣穩(wěn)居頂流行列,道出風(fēng)光背后心酸現(xiàn)狀

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

數(shù)碼要聞

REDMI 顯示器 G Pro 27U 2026輕體驗:電競利器 桌面上的“小鋼炮”

藝術(shù)要聞

沙特官宣:全球最大單體建筑,延期十年!網(wǎng)友:又是畫餅?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版