国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek-R1真算得上開源嗎?

0
分享至

點擊下方“JavaEdge”,選擇“設為星標”

第一時間關注技術干貨!


免責聲明~ 任何文章不要過度深思! 萬事萬物都經(jīng)不起審視,因為世上沒有同樣的成長環(huán)境,也沒有同樣的認知水平,更「沒有適用于所有人的解決方案」; 不要急著評判文章列出的觀點,只需代入其中,適度審視一番自己即可,能「跳脫出來從外人的角度看看現(xiàn)在的自己處在什么樣的階段」才不為俗人。 怎么想、怎么做,全在乎自己「不斷實踐中尋找適合自己的大道」

1 什么是 DeepSeek-R1?

如果你曾經(jīng)為一道棘手的數(shù)學題絞盡腦汁,就會明白多花時間仔細思考是多么重要。OpenAI 的 o1 模型證明,當 LLM 在推理時通過增加計算量進行類似訓練后,它們在數(shù)學、編程和邏輯等推理任務上的表現(xiàn)會顯著提升。

然而,OpenAI 推理模型的訓練方法一直是個秘密。直到上周,DeepSeek 發(fā)布 [DeepSeek-R1]模型,瞬間引爆互聯(lián)網(wǎng)(甚至影響了股市。。

除了性能達到或超越 o1 之外,DeepSeek-R1 的發(fā)布還附帶了詳細的技術報告,揭示了其訓練方法的關鍵步驟。該方法包含多項創(chuàng)新,最引人注目的是使用純強化學習讓基礎語言模型學會推理而無需**任何**人工監(jiān)督。如下圖所示,只要擁有強大的基礎模型和高質(zhì)量的數(shù)據(jù)混合,構建強大的推理模型就變得非常簡單:

不過,DeepSeek-R1 的發(fā)布仍留下幾個未解之謎:

  • 數(shù)據(jù)收集:推理專用數(shù)據(jù)集是如何構建的?

  • 模型訓練:DeepSeek 未公開訓練代碼,因此最佳超參數(shù)設置及其在不同模型系列和規(guī)模間的差異尚不明確。

  • 擴展規(guī)律:訓練推理模型時計算資源和數(shù)據(jù)量之間如何權衡?

這些問題促使業(yè)界啟動了 Open-R1 項目,旨在系統(tǒng)性復現(xiàn) DeepSeek-R1 的數(shù)據(jù)和訓練流程,驗證其聲明,并推動開源推理模型的邊界。通過構建 Open-R1,希望揭示強化學習如何增強推理能力,與開源社區(qū)分享可復現(xiàn)的經(jīng)驗,并為未來模型應用這些技術奠定基礎。

本文深入探討 DeepSeek-R1 的核心要素、計劃復現(xiàn)的部分,及如何參與 Open-R1 項目。

2 他們是如何做到的?

DeepSeek-R1 是基于 [DeepSeek-V3] 打造的推理模型。與所有優(yōu)秀的推理模型一樣,它始于一個強大的基礎模型——DeepSeek-V3 正是如此。這個 671B 的混合專家模型(MoE)性能媲美 Sonnet 3.5 和 GPT-4o 等重量級選手。其訓練成本僅 550 萬美元,這得益于多令牌預測(MTP)、多頭潛在注意力(MLA)等架構改進和大量的硬件優(yōu)化。

DeepSeek 推出了兩個模型:DeepSeek-R1-Zero 和 DeepSeek-R1,分別采用不同的訓練方法。DeepSeek-R1-Zero 完全跳過監(jiān)督微調(diào),僅通過強化學習(RL)和組相對策略優(yōu)化(GRPO)實現(xiàn)高效訓練。簡單的獎勵機制根據(jù)答案的準確性和結(jié)構提供反饋,幫助模型發(fā)展出分步推理和自我驗證等能力,但其回答常缺乏清晰度。

這就是 DeepSeek-R1 的改進之處。它通過"冷啟動"階段在小規(guī)模精編數(shù)據(jù)上進行微調(diào),提升回答的清晰度和可讀性。隨后通過更多 RL 和精煉步驟(包括基于人類偏好和可驗證獎勵的低質(zhì)量輸出過濾),最終形成既擅長推理又能生成優(yōu)雅答案的模型。

這一切聽起來很完美,但還缺少什么?看看拼圖的缺失部分。

3 Open-R1:填補空白

DeepSeek-R1 的發(fā)布對社區(qū)是重大利好,但并非完整開源——雖然模型權重開放,但訓練數(shù)據(jù)集和代碼仍未公開 。

Open-R1 的目標就是填補這些空白,讓整個研究和產(chǎn)業(yè)界都能使用相同配方和數(shù)據(jù)集構建類似或更優(yōu)的模型。通過開源協(xié)作,每個人都可以參與貢獻!

如下圖所示,攻關計劃分三步:

  • 第一步:通過從 DeepSeek-R1 蒸餾高質(zhì)量推理數(shù)據(jù)集,復現(xiàn) R1-Distill 模型

  • 第二步:復現(xiàn) DeepSeek 創(chuàng)建 R1-Zero 的純 RL 流程,需要構建數(shù)學、推理和代碼的大規(guī)模新數(shù)據(jù)集

  • 第三步:展示從基礎模型 → 監(jiān)督微調(diào) → 多階段 RL 訓練的全流程

合成數(shù)據(jù)集將允許任何人通過簡單微調(diào)將現(xiàn)有或新 LLM 轉(zhuǎn)化為推理模型。包含 RL 的訓練方法將成為從零構建類似模型的起點,研究人員可在此基礎上開發(fā)更先進的方法。

社區(qū)不會止步于數(shù)學數(shù)據(jù)集。代碼等傳統(tǒng)領域及醫(yī)學等科學領域都有巨大潛力,推理模型可能產(chǎn)生重大影響。

這個倡議不只是復現(xiàn)結(jié)果,更是與社區(qū)共享洞見。通過記錄有效/無效的方法及其原因,希望幫助他人避免在無效路徑上浪費時間和算力。

關注我,緊跟本系列專欄文章,咱們下篇再續(xù)!

編程嚴選網(wǎng):http://www.javaedge.cn/ 專注分享軟件開發(fā)全場景最佳實踐,點擊文末【閱讀原文】即可直達~ 【編程嚴選】星球

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
交易價值越來越低,凱爾特人到底打算什么時候送走這位后場大將?

交易價值越來越低,凱爾特人到底打算什么時候送走這位后場大將?

稻谷與小麥
2026-01-12 00:43:14
警惕!國內(nèi)高層滲透的間諜,已經(jīng)轉(zhuǎn)向身份普通的保潔員、外賣員等

警惕!國內(nèi)高層滲透的間諜,已經(jīng)轉(zhuǎn)向身份普通的保潔員、外賣員等

扶蘇聊歷史
2026-01-11 08:25:03
收養(yǎng)我19年的姑媽患癌,我?guī)?0萬去醫(yī)院,聽到姑父說:提款機

收養(yǎng)我19年的姑媽患癌,我?guī)?0萬去醫(yī)院,聽到姑父說:提款機

農(nóng)村情感故事
2025-12-17 19:39:43
2026年春節(jié),要暖到離譜?大年初一撞上七九,老輩人:60年頭回見

2026年春節(jié),要暖到離譜?大年初一撞上七九,老輩人:60年頭回見

叮當當科技
2026-01-07 13:58:49
知名網(wǎng)紅被曝負債650萬,已成老賴!

知名網(wǎng)紅被曝負債650萬,已成老賴!

大象新聞
2026-01-10 14:29:06
醫(yī)生緊急提醒:紅霉素軟膏千萬不能隨便用!趕緊告訴家里人

醫(yī)生緊急提醒:紅霉素軟膏千萬不能隨便用!趕緊告訴家里人

39健康網(wǎng)
2026-01-10 20:35:54
28577分!哈登無限接近歷史前十,今夜或?qū)⒊健按篚忯~”奧尼爾

28577分!哈登無限接近歷史前十,今夜或?qū)⒊健按篚忯~”奧尼爾

大眼瞄世界
2026-01-11 10:43:34
存在感實在是太低了!在這樣下去馬刺鋒線大將可能就要被送走了?

存在感實在是太低了!在這樣下去馬刺鋒線大將可能就要被送走了?

稻谷與小麥
2026-01-12 01:17:28
父母若是有以下8種疾病, 子女基本會遺傳

父母若是有以下8種疾病, 子女基本會遺傳

犀利強哥
2026-01-05 07:03:18
入刑!A股迎來巨變!

入刑!A股迎來巨變!

深度知局
2026-01-11 21:20:30
美國網(wǎng)友非常好奇:中國國土那么大,怎么就不能多接收一些難民?

美國網(wǎng)友非常好奇:中國國土那么大,怎么就不能多接收一些難民?

長星寄明月
2026-01-04 20:16:00
美軍沒有政委,為什么能把軍隊管得服服帖帖?

美軍沒有政委,為什么能把軍隊管得服服帖帖?

扶蘇聊歷史
2026-01-06 15:25:46
打平就出線!U23國足成亞洲杯大黑馬:賽后澳大利亞球員低下頭顱

打平就出線!U23國足成亞洲杯大黑馬:賽后澳大利亞球員低下頭顱

足球大腕
2026-01-11 22:02:43
尿是黃色!金子也是黃色!德國男子為了提煉黃金,煮了五千升尿液

尿是黃色!金子也是黃色!德國男子為了提煉黃金,煮了五千升尿液

扶蘇聊歷史
2025-12-25 16:18:51
瑞安代市長,接任市委書記

瑞安代市長,接任市委書記

溫百君
2026-01-11 20:22:44
情況失控!榛樹導彈擊中利沃夫僅數(shù)小時

情況失控!榛樹導彈擊中利沃夫僅數(shù)小時

安安說
2026-01-11 10:46:02
年味越來越淡了!不出意外,今年過年農(nóng)村將出現(xiàn)5大現(xiàn)象,村村都有!

年味越來越淡了!不出意外,今年過年農(nóng)村將出現(xiàn)5大現(xiàn)象,村村都有!

農(nóng)夫也瘋狂
2026-01-10 15:19:45
價格接近“腰斬”!大量上市,浙江老板卻發(fā)愁:賣不出去啊……過年前價格或要漲!

價格接近“腰斬”!大量上市,浙江老板卻發(fā)愁:賣不出去啊……過年前價格或要漲!

環(huán)球網(wǎng)資訊
2026-01-11 16:51:09
近期二手 iPhone 4 居然爆火了,價格翻了幾倍!

近期二手 iPhone 4 居然爆火了,價格翻了幾倍!

XCiOS俱樂部
2026-01-11 21:03:38
廣東108-78遼籃!球員評分:3人滿分,3人良好,1人不合格

廣東108-78遼籃!球員評分:3人滿分,3人良好,1人不合格

多特體育說
2026-01-11 21:39:19
2026-01-12 03:27:00
JavaEdge incentive-icons
JavaEdge
Java 技術
466文章數(shù) 457關注度
往期回顧 全部

科技要聞

“我們與美國的差距也許還在拉大”

頭條要聞

美軍突襲委內(nèi)瑞拉俄制防空系統(tǒng)失聯(lián) 俄方回應

頭條要聞

美軍突襲委內(nèi)瑞拉俄制防空系統(tǒng)失聯(lián) 俄方回應

體育要聞

U23國足形勢:末輪不負泰國即確保晉級

娛樂要聞

留幾手為閆學晶叫屈?稱網(wǎng)友自卑敏感

財經(jīng)要聞

外賣平臺"燒錢搶存量市場"迎來終局?

汽車要聞

2026款宋Pro DM-i長續(xù)航補貼后9.98萬起

態(tài)度原創(chuàng)

藝術
手機
健康
公開課
軍事航空

藝術要聞

25位世界名人告訴你,音樂是人一生能擁有最棒的事!

手機要聞

曝三星Galaxy S26 Ultra支持?eSIM,新機下月見

這些新療法,讓化療不再那么痛苦

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄大使:馬杜羅夫婦被控制時身邊沒人

無障礙瀏覽 進入關懷版