国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

梁文鋒登上《自然》封面,DeepSeek所有的秘密曝光:中文完整版來了

0
分享至

梁文鋒論文登上《自然》封面!DeepSeek-R1訓(xùn)練方法發(fā)布

9月17日,由DeepSeek團(tuán)隊(duì)共同完成、梁文鋒擔(dān)任通訊作者的DeepSeek-R1推理模型研究論文,登上了國際權(quán)威期刊《自然》的封面。



DeepSeek-R1是全球首個(gè)經(jīng)過同行評審的主流大語言模型。Nature評價(jià)道:目前幾乎所有主流的大模型都還沒有經(jīng)過獨(dú)立同行評審,這一空白“終于被DeepSeek打破”。


梁文鋒

DeepSeek-R1包含一個(gè)在人類監(jiān)督下的深入訓(xùn)練階段,以優(yōu)化推理過程。梁文鋒團(tuán)隊(duì)報(bào)告稱,該模型使用了強(qiáng)化學(xué)習(xí)而非人類示例來開發(fā)推理步驟,減少了訓(xùn)練成本和復(fù)雜性。

DeepSeek-R1在被展示優(yōu)質(zhì)的問題解決案例后,會(huì)獲得一個(gè)模板來產(chǎn)生推理過程,即這一模型通過解決問題獲得獎(jiǎng)勵(lì),從而強(qiáng)化學(xué)習(xí)效果。團(tuán)隊(duì)總結(jié)說,未來研究可以聚焦優(yōu)化獎(jiǎng)勵(lì)過程,以確保推理和任務(wù)結(jié)果更可靠。

梁文鋒出生于1985年,廣東湛江人,幻方量化、DeepSeek創(chuàng)始人。2024年12月,梁文鋒和團(tuán)隊(duì)開發(fā)的大模型“DeepSeek-V3”發(fā)布。2025年4月,梁文鋒入選美國《時(shí)代》周刊“2025年全球最具影響力100人”榜單。

DeepSeek是2023年成立于杭州的人工智能公司,由幻方量化孵化。創(chuàng)始團(tuán)隊(duì)由梁文鋒領(lǐng)銜,成員來自頂尖高校與國際機(jī)構(gòu)技術(shù)專家。

(來源:科技日報(bào) 長安街知事 財(cái)聯(lián)社)

【完整中文版】梁文鋒 Nature封面論文 - DeepSeek-R1:通過強(qiáng)化學(xué)習(xí)激勵(lì)大語言模型的推理能力 |附同行評審和回應(yīng)

祝賀梁文鋒和DeepSeek團(tuán)隊(duì), 期待DeepSeek R2早日推出


標(biāo)題: DeepSeek-R1:通過強(qiáng)化學(xué)習(xí)激勵(lì)大語言模型的推理能力

Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Peiyi Wang, Qihao Zhu, Runxin Xu, Ruoyu Zhang, Shirong Ma, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, …Zhen Zhang
《自然》第645卷, 第633–638頁 (2025) 引用本文

摘要

通用推理是人工智能(AI)領(lǐng)域一個(gè)長期存在的艱巨挑戰(zhàn)。近期的突破, 如大型語言模型(LLMs)和思維鏈(CoT)提示等, 已在基礎(chǔ)推理任務(wù)上取得了顯著成功。然而, 這種成功嚴(yán)重依賴于大量的人工標(biāo)注范例, 并且模型的能力對于更復(fù)雜的問題仍然不足。本文中, 我們展示了通過純強(qiáng)化學(xué)習(xí)(RL)可以激勵(lì)LLMs的推理能力, 從而無需人工標(biāo)記的推理軌跡。我們提出的強(qiáng)化學(xué)習(xí)框架促進(jìn)了高級推理模式的涌現(xiàn)式發(fā)展, 例如自我反思、驗(yàn)證和動(dòng)態(tài)策略調(diào)整。因此, 訓(xùn)練后的模型在數(shù)學(xué)、編程競賽和STEM領(lǐng)域等可驗(yàn)證任務(wù)上取得了卓越的性能, 超越了通過傳統(tǒng)監(jiān)督學(xué)習(xí)在人類范例上訓(xùn)練的同類模型。此外, 這些大規(guī)模模型所展現(xiàn)出的涌現(xiàn)式推理模式可以被系統(tǒng)地用于指導(dǎo)和增強(qiáng)較小模型的推理能力。

正文

推理能力是人類智能的基石, 它支撐著從數(shù)學(xué)問題解決到邏輯推演和編程等復(fù)雜的認(rèn)知任務(wù)。人工智能近期的進(jìn)展表明, 當(dāng)LLMs擴(kuò)展到足夠大的規(guī)模時(shí), 可以展現(xiàn)出包括推理能力在內(nèi)的涌現(xiàn)行為。然而, 在預(yù)訓(xùn)練中實(shí)現(xiàn)此類能力通常需要巨大的計(jì)算資源。與此同時(shí), 另一條互補(bǔ)的研究路線表明, 通過思維鏈(CoT)提示可以有效增強(qiáng)LLMs的能力。這項(xiàng)技術(shù)通過提供精心設(shè)計(jì)的少樣本示例或使用極簡提示(如“讓我們一步一步地思考”), 使模型能夠生成中間推理步驟, 從而顯著提升其在復(fù)雜任務(wù)上的性能。同樣, 當(dāng)模型在后訓(xùn)練階段學(xué)習(xí)高質(zhì)量、多步驟的推理軌跡時(shí), 也觀察到了性能的進(jìn)一步提升。盡管這些方法卓有成效, 但它們也存在顯著的局限性。它們對人工標(biāo)注的推理軌跡的依賴減緩了可擴(kuò)展性, 并引入了認(rèn)知偏見。此外, 通過限制模型復(fù)制人類的思維過程, 其性能本質(zhì)上受限于人類提供的范例, 這阻礙了對更優(yōu)越、非類人推理路徑的探索。

為了解決這些問題, 我們旨在探索LLMs在強(qiáng)化學(xué)習(xí)框架下通過自我演進(jìn)發(fā)展推理能力的潛力, 并最大限度地減少對人類標(biāo)記工作的依賴。具體來說, 我們基于DeepSeek-V3 Base, 并使用組相對策略優(yōu)化(Group Relative Policy Optimization, GRPO)作為我們的強(qiáng)化學(xué)習(xí)框架。獎(jiǎng)勵(lì)信號僅基于最終預(yù)測與標(biāo)準(zhǔn)答案的正確性, 而不對推理過程本身施加約束。值得注意的是, 我們繞過了強(qiáng)化學(xué)習(xí)訓(xùn)練前傳統(tǒng)的監(jiān)督微調(diào)(SFT)階段。這一設(shè)計(jì)選擇源于我們的假設(shè), 即人類定義的推理模式可能會(huì)限制模型的探索, 而無限制的強(qiáng)化學(xué)習(xí)訓(xùn)練能更好地激勵(lì)LLMs中新推理能力的涌現(xiàn)。通過下一節(jié)詳述的這一過程, 我們的模型(稱為DeepSeek-R1-Zero)自然地發(fā)展出了多樣化且復(fù)雜的推理行為。為了解決推理問題, 該模型傾向于生成更長的響應(yīng), 在每個(gè)響應(yīng)中都包含了驗(yàn)證、反思和對替代方法的探索。盡管我們沒有明確教導(dǎo)模型如何推理, 但它通過強(qiáng)化學(xué)習(xí)成功地學(xué)會(huì)了更優(yōu)的推理策略。

盡管DeepSeek-R1-Zero展現(xiàn)出卓越的推理能力, 但它也面臨一些挑戰(zhàn), 如可讀性差和語言混用問題, 有時(shí)會(huì)在單個(gè)思維鏈響應(yīng)中混合使用英語和中文。此外, DeepSeek-R1-Zero的基于規(guī)則的強(qiáng)化學(xué)習(xí)訓(xùn)練階段狹隘地專注于推理任務(wù), 導(dǎo)致其在寫作和開放域問答等更廣泛領(lǐng)域的性能受限。為應(yīng)對這些挑戰(zhàn), 我們引入了DeepSeek-R1, 這是一個(gè)通過整合了拒絕采樣、強(qiáng)化學(xué)習(xí)和監(jiān)督微調(diào)的多階段學(xué)習(xí)框架訓(xùn)練出的模型, 詳見“DeepSeek-R1”部分。這一訓(xùn)練流程使DeepSeek-R1能夠繼承其前身DeepSeek-R1-Zero的推理能力, 同時(shí)通過進(jìn)一步的非推理數(shù)據(jù)使模型行為與人類偏好對齊。

為了讓更廣泛的用戶能以更低的能源成本使用強(qiáng)大的人工智能, 我們蒸餾了幾個(gè)較小的模型并將其公之于眾。這些蒸餾后的模型展現(xiàn)出強(qiáng)大的推理能力, 其性能超越了它們原始的指令微調(diào)版本。我們相信, 這些指令微調(diào)版本也將為研究社區(qū)做出巨大貢獻(xiàn), 為理解長思維鏈推理模型的內(nèi)在機(jī)制和推動(dòng)更強(qiáng)大推理模型的開發(fā)提供寶貴資源。我們按照“代碼可用性”部分的描述, 公開了DeepSeek-R1-Zero、DeepSeek-R1、數(shù)據(jù)樣本和蒸餾模型。

DeepSeek-R1-Zero

為實(shí)現(xiàn)DeepSeek-R1-Zero的大規(guī)模強(qiáng)化學(xué)習(xí), 我們采用了一個(gè)高效的強(qiáng)化學(xué)習(xí)流程。具體來說, 我們使用GRPO作為我們的強(qiáng)化學(xué)習(xí)算法, 具體描述見方法部分的“GRPO”。此外, 我們使用基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng)來計(jì)算準(zhǔn)確性和格式獎(jiǎng)勵(lì), 詳細(xì)方法論在方法部分的“獎(jiǎng)勵(lì)設(shè)計(jì)”中概述。此外, 我們的高性能強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施在補(bǔ)充信息的2.1節(jié)中有所描述, 確保了可擴(kuò)展且高效的訓(xùn)練。

具體而言, 我們將強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用于DeepSeek-V3 Base來訓(xùn)練DeepSeek-R1-Zero。在訓(xùn)練過程中, 我們設(shè)計(jì)了一個(gè)簡單的模板, 要求DeepSeek-R1-Zero首先產(chǎn)出推理過程, 然后給出最終答案。提示模板如下:

“用戶與助手之間的一段對話。用戶提出一個(gè)問題, 助手解決它。助手首先在腦海中思考推理過程, 然后向用戶提供答案。推理過程和答案分別被包含在...和...標(biāo)簽內(nèi), 即 此處為推理過程 此處為答案 。用戶:[提示]。助手:”, 其中[提示]在訓(xùn)練時(shí)會(huì)被具體的推理問題替換。我們有意將約束限制在這種結(jié)構(gòu)格式上, 避免任何內(nèi)容上的偏見, 以確保能準(zhǔn)確觀察到模型在強(qiáng)化學(xué)習(xí)過程中的自然演進(jìn)。

圖1a展示了DeepSeek-R1-Zero在整個(gè)強(qiáng)化學(xué)習(xí)訓(xùn)練過程中在美國數(shù)學(xué)邀請賽(AIME)2024基準(zhǔn)測試上的性能軌跡, 其中AIME 2024上的平均pass@1得分顯著提升, 從最初的15.6%躍升至77.9%。此外, 通過使用自洽性解碼, 模型的性能可以進(jìn)一步提高, 準(zhǔn)確率達(dá)到86.7%。這一性能遠(yuǎn)超所有人類參賽者在AIME競賽中的平均表現(xiàn)。除了數(shù)學(xué)競賽, 如補(bǔ)充圖8所示, DeepSeek-R1-Zero在編程競賽以及研究生水平的生物、物理和化學(xué)問題上也取得了卓越的性能。這些結(jié)果突顯了強(qiáng)化學(xué)習(xí)在增強(qiáng)LLMs推理能力方面的有效性。

圖 1:DeepSeek-R1-Zero在整個(gè)訓(xùn)練過程中的準(zhǔn)確率和輸出長度。



DeepSeek-R1-Zero在訓(xùn)練期間的AIME準(zhǔn)確率。AIME以一個(gè)數(shù)學(xué)問題為輸入, 一個(gè)數(shù)字為輸出, 如擴(kuò)展數(shù)據(jù)表1所示。pass@1和cons@16的描述見補(bǔ)充信息4.1節(jié)。基線是人類參與者在AIME競賽中取得的平均分。b, DeepSeek-R1-Zero在強(qiáng)化學(xué)習(xí)過程中對訓(xùn)練集的平均響應(yīng)長度。DeepSeek-R1-Zero自然地學(xué)會(huì)了用更多的思考時(shí)間來解決推理任務(wù)。請注意, 一個(gè)訓(xùn)練步驟指一次策略更新操作。

除了訓(xùn)練過程中推理能力的逐步增強(qiáng), DeepSeek-R1-Zero還隨著強(qiáng)化學(xué)習(xí)訓(xùn)練展現(xiàn)出自我演進(jìn)行為。如圖1b所示, DeepSeek-R1-Zero的思考時(shí)間在整個(gè)訓(xùn)練過程中穩(wěn)步增加, 這完全是由內(nèi)在適應(yīng)而非外部修改驅(qū)動(dòng)的。利用長思維鏈, 模型逐步完善其推理過程, 生成成百上千個(gè)詞元來探索和改進(jìn)其解決問題的策略。

思考時(shí)間的增加有助于復(fù)雜行為的自主發(fā)展。具體來說, DeepSeek-R1-Zero越來越多地展現(xiàn)出高級推理策略, 如擴(kuò)展數(shù)據(jù)圖1a中所示的反思性推理和對替代解決方案的系統(tǒng)性探索, 這極大地提升了其在數(shù)學(xué)和編程等可驗(yàn)證任務(wù)上的性能。值得注意的是, 在訓(xùn)練期間, DeepSeek-R1-Zero展現(xiàn)出一個(gè)“頓悟時(shí)刻”(如表1所示), 其特征是在反思過程中“wait”(等等)一詞的使用突然增加(如擴(kuò)展數(shù)據(jù)圖1b所示)。這個(gè)時(shí)刻標(biāo)志著推理模式的明顯轉(zhuǎn)變, 并清晰地展示了DeepSeek-R1-Zero的自我演進(jìn)過程。

表1:DeepSeek-R1-Zero中間版本一個(gè)有趣的“頓悟時(shí)刻”

問題:如果 a > 1, 那么實(shí)數(shù)解的總和 (\sqrt{{\boldsymbol{a}}{\boldsymbol{-}}\sqrt{{\boldsymbol{a}}{\boldsymbol{+}}{\boldsymbol{x}}}}{\boldsymbol{=}}{\boldsymbol{x}}) 等于多少?

回應(yīng):為了解這個(gè)方程 (\sqrt{a-\sqrt{a+x}}=x), 讓我們從兩邊平方開始…


(a?a+x)2=x2?a?a+x=x2。(a?a+x)2=x2?a?a+x=x2。

重新整理以分離出內(nèi)部的平方根項(xiàng):


(a?x2)2=a+x?a2?2ax2+(x2)2=a+x?x4?2ax2?x+(a2?a)=0(a?x2)2=a+x?a2?2ax2+(x2)2=a+x?x4?2ax2?x+(a2?a)=0

等等, 等等。等等。這是一個(gè)我可以標(biāo)記出來的頓悟時(shí)刻。讓我們一步一步地重新評估, 以確定是否可以得出正確的和…我們從這個(gè)方程開始:(\sqrt{a-\sqrt{a+x}}=x)首先, 讓我們兩邊平方:


a?a+x=x2?a+x=a?x2a?a+x=x2?a+x=a?x2

接下來, 我可以再次對兩邊進(jìn)行平方, 處理這個(gè)方程:……

模型學(xué)會(huì)了用一種擬人化的語氣進(jìn)行反思。這對我們來說也是一個(gè)頓悟時(shí)刻, 讓我們見證了強(qiáng)化學(xué)習(xí)的力量與魅力。

DeepSeek-R1-Zero的自我演進(jìn)突顯了強(qiáng)化學(xué)習(xí)的力量與魅力:我們并非明確教導(dǎo)模型如何解決問題, 而是僅為其提供正確的激勵(lì), 它便能自主地發(fā)展出高級的問題解決策略。這提醒我們強(qiáng)化學(xué)習(xí)在解鎖LLMs更高層次能力方面的潛力, 為未來更自主、更具適應(yīng)性的模型鋪平了道路。

DeepSeek-R1

盡管DeepSeek-R1-Zero展現(xiàn)出強(qiáng)大的推理能力, 但它也存在一些問題。DeepSeek-R1-Zero面臨著可讀性差和語言混用等挑戰(zhàn), 因?yàn)镈eepSeek-V3 Base是在多種語言(尤其是英語和中文)上訓(xùn)練的。為了解決這些問題, 我們開發(fā)了DeepSeek-R1, 其流程如圖2所示。在初始階段, 我們收集了數(shù)千條展現(xiàn)對話式、與人類對齊的思維過程的冷啟動(dòng)數(shù)據(jù), 詳見補(bǔ)充信息2.3.2節(jié)。然后, 使用方法部分“第一階段強(qiáng)化學(xué)習(xí)的訓(xùn)練細(xì)節(jié)”中的超參數(shù)和補(bǔ)充信息2.3.1節(jié)中的數(shù)據(jù)細(xì)節(jié)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練, 以改善模型在對話式思維過程和語言一致性方面的性能。隨后, 我們再次應(yīng)用拒絕采樣和監(jiān)督微調(diào)。這一階段將推理和非推理數(shù)據(jù)集都納入SFT過程, 詳見補(bǔ)充信息2.3.3節(jié), 使模型不僅能在推理任務(wù)上表現(xiàn)出色, 還能展現(xiàn)出高級的寫作能力。為了使模型進(jìn)一步與人類偏好對齊, 我們實(shí)施了第二階段的強(qiáng)化學(xué)習(xí), 旨在增強(qiáng)模型的有用性和無害性, 同時(shí)進(jìn)一步完善其推理能力。獎(jiǎng)勵(lì)模型在方法部分“獎(jiǎng)勵(lì)設(shè)計(jì)”中描述, 強(qiáng)化學(xué)習(xí)的超參數(shù)在方法部分“第二階段強(qiáng)化學(xué)習(xí)的訓(xùn)練細(xì)節(jié)”中提供?傆(xùn)練成本列于補(bǔ)充信息2.4.4節(jié)。

圖 2:DeepSeek-R1的多階段流程。


關(guān)于DeepSeek-V3 Base和DeepSeek-V3的詳細(xì)背景信息見補(bǔ)充信息1.1節(jié)。模型DeepSeek-R1 Dev1、Dev2和Dev3代表此流程中的中間檢查點(diǎn)。

我們在MMLU、MMLU-Redux、MMLU-Pro、DROP、C-Eval、IFEval、FRAMES、GPQA Diamond、SimpleQA、C-SimpleQA、CLUEWSC、AlpacaEval 2.0 (ref. 22)、Arena-Hard、SWE-bench Verified、Aider-Polyglot、LiveCodeBench (2024-08–2025-01)、Codeforces、中國高中數(shù)學(xué)奧林匹克(CNMO 2024)和AIME 2024 (ref. 29)等基準(zhǔn)上評估了我們的模型。這些基準(zhǔn)的細(xì)節(jié)在補(bǔ)充表15-29中提供。

表2總結(jié)了DeepSeek-R1在圖2所述的幾個(gè)發(fā)展階段的性能。DeepSeek-R1-Zero與DeepSeek-R1 Dev1的比較顯示, 在指令遵循方面有顯著提升, 這體現(xiàn)在IF-Eval和Arena-Hard基準(zhǔn)測試上更高的分?jǐn)?shù)。然而, 由于冷啟動(dòng)數(shù)據(jù)集規(guī)模有限, Dev1的推理性能相較于DeepSeek-R1-Zero出現(xiàn)了部分下降, 尤其是在AIME基準(zhǔn)上。相比之下, DeepSeek-R1 Dev2在需要高級推理能力的基準(zhǔn)上表現(xiàn)出顯著的性能提升, 包括那些專注于代碼生成、數(shù)學(xué)問題解決和STEM相關(guān)任務(wù)的基準(zhǔn)。而針對通用任務(wù)的基準(zhǔn), 如AlpacaEval 2.0, 則表現(xiàn)出輕微的改善。這些結(jié)果表明, 面向推理的強(qiáng)化學(xué)習(xí)能顯著增強(qiáng)推理能力, 而對面向用戶偏好的基準(zhǔn)影響有限。

表2:DeepSeek-R1各階段的實(shí)驗(yàn)結(jié)果

模型

DeepSeek-R1-Zero

DeepSeek-R1 Dev1

DeepSeek-R1 Dev2

DeepSeek-R1 Dev3

DeepSeek-R1

通用能力

MMLU (%)

88.7

89.2

89.1

89.589.5

MMLU-Redux (%)

88.5

88.8

88.7

89.3

89.2

MMLU-Pro (%)

64.6

65.1

65.0

65.6

65.5

DROP (F1)

88.1

88.3

88.2

88.2

88.2

C-Eval (驗(yàn)證集, %)

90.7

91.0

90.9

91.191.1

IFEval (%)

77.2

85.8

85.1

86.1

85.9

FRAMES (%)

65.2

65.8

65.5

66.1

66.0

GPQA Diamond (%)

39.5

39.8

39.7

40.1

40.2

SimpleQA (%)

78.4

78.8

78.7

79.2

79.1

C-SimpleQA (%)

83.1

83.5

83.4

83.8

83.7

CLUEWSC (%)

86.8

87.1

87.0

87.3

87.2

AlpacaEval 2.0 (LC 勝率, %)

24.3

25.1

25.3

26.2

51.2

Arena-Hard (勝率, %)

26.1

28.5

28.9

30.1

47.1編程能力

SWE-bench Verified (pass@1, %)

16.7

16.8

17.1

17.3

17.2

Aider-Polyglot (通過率, %)

75.1

75.2

75.5

76.8

76.6

LiveCodeBench (pass@1, %)

41.2

41.3

42.5

42.1

42.3

Codeforces (pass@1)

36.8

36.7

39.5

39.1

39.3

數(shù)學(xué)能力

CNMO 2024 (pass@1)

45.1

44.8

48.1

47.9

48.0

AIME 2024 (pass@1)

77.9

75.3

79.2

78.8

79.0

注:
在DeepSeek-R1的不同版本中, 最高分以粗體突出顯示。 Dev, 開發(fā)版本。 LC, 長度控制。
MMLU (大規(guī)模多任務(wù)語言理解) - 綜合性的知識評估, 涵蓋57個(gè)不同學(xué)科。
MMLU-Redux (MMLU修訂版) - MMLU的修正版本, 旨在提高評測的準(zhǔn)確性。
MMLU-Pro (MMLU專業(yè)版) - MMLU的更具挑戰(zhàn)性的版本, 包含更難的多選題。
DROP (F1) (段落離散推理) - 一項(xiàng)閱讀理解基準(zhǔn), 要求模型在段落中進(jìn)行推理和計(jì)算。
C-Eval (中文評估套件) - 針對中文的綜合性知識評估基準(zhǔn)。
IFEval (指令遵循評估) - 評估模型遵循復(fù)雜和約束性指令的能力。
FRAMES (事實(shí)性評估) - 評估模型回答問題時(shí)的事實(shí)準(zhǔn)確性, 檢測其是否產(chǎn)生幻覺。
GPQA Diamond (研究生水平難題) - 包含難以通過搜索引擎直接找到答案的研究生水平專業(yè)問題。
SimpleQA (簡單問答) - 一個(gè)基于事實(shí)的簡單問答數(shù)據(jù)集。 7
C-SimpleQA (中文簡單問答) - SimpleQA的中文版本, 評估中文事實(shí)性問答能力。
CLUEWSC (中文常識推理-代詞消歧) - 評估模型在中文語境下的常識推理和代詞指代消歧能力。
AlpacaEval 2.0 - 一個(gè)自動(dòng)評估基準(zhǔn), 衡量模型遵循通用指令的質(zhì)量。
Arena-Hard (競技場-困難模式) - 基于真實(shí)世界困難用戶查詢的基準(zhǔn), 通過人類偏好來評估模型性能。
編程能力
SWE-bench Verified (軟件工程基準(zhǔn)) - 評估模型解決真實(shí)世界代碼庫中軟件工程問題(如修復(fù)bug)的能力。
Aider-Polyglot (多語言編程任務(wù)) - 評估模型在多種編程語言中完成實(shí)際編碼任務(wù)的性能。
LiveCodeBench (實(shí)時(shí)編程競賽) - 一個(gè)基于真實(shí)編程競賽問題的基準(zhǔn), 評估模型的實(shí)時(shí)解題能力。
Codeforces (編程競賽平臺) - 使用來自知名編程競賽網(wǎng)站Codeforces的問題來評估算法和編碼能力。
數(shù)學(xué)能力
CNMO 2024 (中國高中數(shù)學(xué)奧林匹克) - 評估模型解決中國高中數(shù)學(xué)奧林匹克競賽級別難題的能力。
AIME 2024 (美國數(shù)學(xué)邀請賽) - 評估模型解決美國數(shù)學(xué)邀請賽(AIME)級別高難度數(shù)學(xué)問題的能力。

DeepSeek-R1 Dev3將推理和非推理數(shù)據(jù)集都整合到SFT流程中, 從而提升了模型在推理和通用語言生成任務(wù)上的熟練度。與Dev2相比, DeepSeek-R1 Dev3在AlpacaEval 2.0和Aider-Polyglot上取得了顯著的性能提升, 這歸功于大規(guī)模非推理語料庫和代碼工程數(shù)據(jù)集的引入。最后, 在DeepSeek-R1 Dev3上使用混合了以推理為中心和通用目的的數(shù)據(jù)進(jìn)行全面的強(qiáng)化學(xué)習(xí)訓(xùn)練, 得到了最終的DeepSeek-R1。由于在前期階段已進(jìn)行了大量的針對性推理強(qiáng)化學(xué)習(xí), 因此在代碼和數(shù)學(xué)基準(zhǔn)上的提升幅度不大。最終版DeepSeek-R1的主要進(jìn)步體現(xiàn)在通用指令遵循和用戶偏好基準(zhǔn)上, 其中AlpacaEval 2.0提升了25%, Arena-Hard提升了17%。

我們還在補(bǔ)充信息4.2節(jié)中將DeepSeek-R1與其他模型進(jìn)行了比較。模型安全性評估在補(bǔ)充信息4.3節(jié)中提供。補(bǔ)充信息第5節(jié)提供了全面的評估分析, 包括與DeepSeek-V3的比較、在全新測試集上的性能評估、按類別劃分的數(shù)學(xué)能力分析以及對測試時(shí)擴(kuò)展行為的探究。補(bǔ)充信息第6節(jié)表明, 強(qiáng)大的推理能力可以遷移到較小的模型中。

倫理與安全聲明

隨著DeepSeek-R1推理能力的提升, 我們深刻認(rèn)識到其潛在的倫理風(fēng)險(xiǎn)。例如, R1可能會(huì)遭受越獄攻擊, 導(dǎo)致生成危險(xiǎn)內(nèi)容, 如制造炸藥的計(jì)劃;而增強(qiáng)的推理能力使得模型能夠提供操作可行性與可執(zhí)行性更強(qiáng)的計(jì)劃。此外, 一個(gè)公開的模型也容易被進(jìn)一步微調(diào), 從而可能破壞其固有的安全保護(hù)措施。

在補(bǔ)充信息4.3節(jié)中, 我們從多個(gè)角度呈現(xiàn)了一份全面的安全報(bào)告, 包括在開源和內(nèi)部安全評估基準(zhǔn)上的表現(xiàn), 以及在多種語言和對抗越獄攻擊時(shí)的安全水平。這些全面的安全分析得出結(jié)論, DeepSeek-R1模型的內(nèi)在安全水平與其他頂尖模型相比, 總體處于中等水平(與GPT-4o (2024-05-13)相當(dāng))。此外, 當(dāng)與風(fēng)險(xiǎn)控制系統(tǒng)結(jié)合使用時(shí), 模型的安全水平能提升至優(yōu)越標(biāo)準(zhǔn)。

結(jié)論、局限性與未來工作

我們介紹了DeepSeek-R1-Zero和DeepSeek-R1, 它們依靠大規(guī)模強(qiáng)化學(xué)習(xí)來激勵(lì)模型的推理行為。我們的結(jié)果表明, 預(yù)訓(xùn)練的檢查點(diǎn)本身就蘊(yùn)含著處理復(fù)雜推理任務(wù)的巨大潛力。我們相信, 解鎖這一潛力的關(guān)鍵不在于大規(guī)模的人工標(biāo)注, 而在于提供困難的推理問題、一個(gè)可靠的驗(yàn)證器以及充足的強(qiáng)化學(xué)習(xí)計(jì)算資源。自我驗(yàn)證和反思等復(fù)雜的推理行為似乎在強(qiáng)化學(xué)習(xí)過程中有機(jī)地涌現(xiàn)出來。

盡管DeepSeek-R1在推理基準(zhǔn)上取得了前沿成果, 但它仍然面臨一些能力上的局限性, 概述如下。

結(jié)構(gòu)化輸出與工具使用
目前, 與現(xiàn)有模型相比, DeepSeek-R1的結(jié)構(gòu)化輸出能力仍有待提高。此外, DeepSeek-R1無法利用搜索引擎和計(jì)算器等工具來提升輸出性能。然而, 由于為結(jié)構(gòu)化輸出和工具使用構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境并不困難, 我們相信這個(gè)問題將在下一版本中得到解決。

令牌效率
與傳統(tǒng)測試時(shí)計(jì)算擴(kuò)展方法(如多數(shù)投票或蒙特卡洛樹搜索(MCTS))不同, DeepSeek-R1在推理時(shí)會(huì)根據(jù)手頭問題的復(fù)雜性動(dòng)態(tài)分配計(jì)算資源。具體來說, 它用較少的令牌解決簡單任務(wù), 但為復(fù)雜任務(wù)生成更多令牌。盡管如此, 在令牌效率方面仍有進(jìn)一步優(yōu)化的空間, 因?yàn)樵陧憫?yīng)較簡單問題時(shí), 仍然觀察到過度推理——表現(xiàn)為過度思考——的實(shí)例。

語言混用
DeepSeek-R1目前針對中文和英文進(jìn)行了優(yōu)化, 這可能導(dǎo)致在處理其他語言的查詢時(shí)出現(xiàn)語言混用問題。例如, 即使查詢的語言不是英語或中文, DeepSeek-R1也可能使用英語進(jìn)行推理和響應(yīng)。我們計(jì)劃在未來的更新中解決這一局限性。這個(gè)局限性可能與基礎(chǔ)檢查點(diǎn)DeepSeek-V3 Base有關(guān), 該模型主要使用中文和英文, 因此在這兩種語言的推理上能取得更好的效果。

提示工程
在評估DeepSeek-R1時(shí), 我們觀察到它對提示很敏感。少樣本提示總是會(huì)降低其性能。因此, 我們建議用戶直接描述問題, 并在零樣本設(shè)置下指定輸出格式以獲得最佳結(jié)果。

軟件工程任務(wù)
由于評估時(shí)間長, 影響了強(qiáng)化學(xué)習(xí)過程的效率, 大規(guī)模強(qiáng)化學(xué)習(xí)尚未廣泛應(yīng)用于軟件工程任務(wù)。因此, DeepSeek-R1在軟件工程基準(zhǔn)上并未展現(xiàn)出比DeepSeek-V3巨大的提升。未來版本將通過對軟件工程數(shù)據(jù)實(shí)施拒絕采樣或在強(qiáng)化學(xué)習(xí)過程中引入異步評估來提高效率, 以解決此問題。

除了具體的能力局限性, 純強(qiáng)化學(xué)習(xí)方法本身也存在固有的挑戰(zhàn):

獎(jiǎng)勵(lì)破解
純強(qiáng)化學(xué)習(xí)的成功依賴于可靠的獎(jiǎng)勵(lì)信號。在本研究中, 我們通過一個(gè)基于規(guī)則的推理領(lǐng)域獎(jiǎng)勵(lì)模型來確保獎(jiǎng)勵(lì)的可靠性。然而, 對于某些任務(wù)(如寫作), 此類可靠的獎(jiǎng)勵(lì)模型難以構(gòu)建。如果獎(jiǎng)勵(lì)信號由模型而非預(yù)定義規(guī)則分配, 那么隨著訓(xùn)練的進(jìn)行, 它變得更容易被利用, 這意味著策略模型可能會(huì)找到捷徑來破解獎(jiǎng)勵(lì)模型。因此, 對于那些無法通過可靠獎(jiǎng)勵(lì)模型進(jìn)行有效評估的復(fù)雜任務(wù), 擴(kuò)展純強(qiáng)化學(xué)習(xí)方法仍然是一個(gè)開放的挑戰(zhàn)。

在這項(xiàng)工作中, 對于無法獲得可靠信號的任務(wù), DeepSeek-R1使用人工標(biāo)注來創(chuàng)建監(jiān)督數(shù)據(jù), 并且僅進(jìn)行數(shù)百步的強(qiáng)化學(xué)習(xí)。我們希望未來能獲得一個(gè)強(qiáng)大的獎(jiǎng)勵(lì)模型來解決此類問題。

隨著像DeepSeek-R1這樣的純強(qiáng)化學(xué)習(xí)方法的出現(xiàn), 未來在解決任何可被驗(yàn)證器有效評估的任務(wù)方面都蘊(yùn)藏著巨大的潛力, 無論這些任務(wù)對人類而言有多復(fù)雜。配備了此類先進(jìn)強(qiáng)化學(xué)習(xí)技術(shù)的機(jī)器有望在這些領(lǐng)域超越人類的能力, 其驅(qū)動(dòng)力在于它們能通過試錯(cuò)迭代優(yōu)化性能。然而, 對于那些構(gòu)建可靠獎(jiǎng)勵(lì)模型本身就很困難的任務(wù), 挑戰(zhàn)依然存在。在這種情況下, 缺乏強(qiáng)大的反饋機(jī)制可能會(huì)減緩進(jìn)展, 這表明未來的研究應(yīng)側(cè)重于開發(fā)創(chuàng)新方法來為這些復(fù)雜的、不易驗(yàn)證的問題定義和完善獎(jiǎng)勵(lì)結(jié)構(gòu)。

此外, 在推理過程中利用工具具有顯著的前景。無論是使用編譯器或搜索引擎等工具來檢索或計(jì)算必要信息, 還是使用生物或化學(xué)試劑等外部工具來在現(xiàn)實(shí)世界中驗(yàn)證最終結(jié)果, 這種工具增強(qiáng)推理的整合都可能極大地?cái)U(kuò)展機(jī)器驅(qū)動(dòng)解決方案的范圍和準(zhǔn)確性。

方法

GRPO
GRPO是我們用來訓(xùn)練DeepSeek-R1-Zero和DeepSeek-R1的強(qiáng)化學(xué)習(xí)算法。它最初被提出是為了簡化訓(xùn)練過程并減少近端策略優(yōu)化(PPO)的資源消耗, PPO在LLMs的強(qiáng)化學(xué)習(xí)階段被廣泛使用。GRPO的流程如擴(kuò)展數(shù)據(jù)圖2所示。

對于每個(gè)問題q, GRPO從舊策略 中采樣一組輸出 , 然后通過最大化以下目標(biāo)來優(yōu)化策略模型 :

其中, 是參考策略, 和 是超參數(shù), 是優(yōu)勢, 使用對應(yīng)于每組輸出的一組獎(jiǎng)勵(lì) 計(jì)算得出:

我們在補(bǔ)充信息1.3節(jié)中對GRPO和PPO進(jìn)行了比較。

獎(jiǎng)勵(lì)設(shè)計(jì)
獎(jiǎng)勵(lì)是訓(xùn)練信號的來源, 決定了強(qiáng)化學(xué)習(xí)優(yōu)化的方向。對于DeepSeek-R1-Zero, 我們使用基于規(guī)則的獎(jiǎng)勵(lì)為數(shù)學(xué)、編程和邏輯推理領(lǐng)域的數(shù)據(jù)提供精確的反饋。對于DeepSeek-R1, 我們擴(kuò)展了這種方法, 結(jié)合了用于推理導(dǎo)向數(shù)據(jù)的基于規(guī)則的獎(jiǎng)勵(lì)和用于通用數(shù)據(jù)的基于模型的獎(jiǎng)勵(lì), 從而增強(qiáng)了學(xué)習(xí)過程在不同領(lǐng)域的適應(yīng)性。

基于規(guī)則的獎(jiǎng)勵(lì)
我們的基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng)主要包括兩種類型的獎(jiǎng)勵(lì):準(zhǔn)確性獎(jiǎng)勵(lì)和格式獎(jiǎng)勵(lì)。

準(zhǔn)確性獎(jiǎng)勵(lì)評估響應(yīng)是否正確。例如, 在具有確定性結(jié)果的數(shù)學(xué)問題中, 模型被要求以指定格式(例如, 在一個(gè)方框內(nèi))提供最終答案, 從而可以進(jìn)行可靠的基于規(guī)則的正確性驗(yàn)證。類似地, 對于代碼競賽的提示, 可以使用編譯器根據(jù)一套預(yù)定義的測試用例來評估模型的響應(yīng), 從而生成關(guān)于正確性的客觀反饋。

格式獎(jiǎng)勵(lì)通過強(qiáng)制執(zhí)行特定的格式要求來補(bǔ)充準(zhǔn)確性獎(jiǎng)勵(lì)模型。特別地, 模型被激勵(lì)將其推理過程封裝在指定的標(biāo)簽內(nèi), 即 和。這確保了模型的思維過程被明確地描繪出來, 增強(qiáng)了可解釋性并便于后續(xù)分析。

準(zhǔn)確性獎(jiǎng)勵(lì)和格式獎(jiǎng)勵(lì)以相同的權(quán)重組合。值得注意的是, 我們避免將神經(jīng)獎(jiǎng)勵(lì)模型——無論是基于結(jié)果還是基于過程的——應(yīng)用于推理任務(wù)。這個(gè)決定是基于我們的觀察, 即神經(jīng)獎(jiǎng)勵(lì)模型在大規(guī)模強(qiáng)化學(xué)習(xí)期間容易受到獎(jiǎng)勵(lì)破解的影響。此外, 重新訓(xùn)練此類模型需要大量的計(jì)算資源, 并給訓(xùn)練流程增加了進(jìn)一步的復(fù)雜性, 從而使整個(gè)優(yōu)化過程變得復(fù)雜。

基于模型的獎(jiǎng)勵(lì)
對于通用數(shù)據(jù), 我們借助獎(jiǎng)勵(lì)模型來捕捉復(fù)雜和細(xì)微場景中的人類偏好。我們基于DeepSeek-V3的流程, 并使用類似的偏好對和訓(xùn)練提示分布。在有用性方面, 我們只關(guān)注最終的摘要, 確保評估強(qiáng)調(diào)響應(yīng)對用戶的用途和相關(guān)性, 同時(shí)最大限度地減少對底層推理過程的干擾。在無害性方面, 我們評估模型的整個(gè)響應(yīng), 包括推理過程和摘要, 以識別和減輕在生成過程中可能出現(xiàn)的任何潛在風(fēng)險(xiǎn)、偏見或有害內(nèi)容。

有用性獎(jiǎng)勵(lì)模型
為了進(jìn)行有用性獎(jiǎng)勵(lì)模型訓(xùn)練, 我們首先使用Arena-Hard提示格式(列于補(bǔ)充信息2.2節(jié))提示DeepSeek-V3來生成偏好對, 其中每對包含一個(gè)用戶查詢和兩個(gè)候選響應(yīng)。對于每個(gè)偏好對, 我們查詢DeepSeek-V3四次, 隨機(jī)將響應(yīng)分配為響應(yīng)A或響應(yīng)B以減輕位置偏差。最終的偏好得分通過平均四次獨(dú)立判斷來確定, 僅保留那些得分差異(Δ)超過1的配對, 以確保有意義的區(qū)分。此外, 為了最小化與長度相關(guān)的偏差, 我們確保整個(gè)數(shù)據(jù)集中被選擇和被拒絕的響應(yīng)具有相當(dāng)?shù)拈L度。我們總共策劃了66,000個(gè)數(shù)據(jù)對用于訓(xùn)練獎(jiǎng)勵(lì)模型。該數(shù)據(jù)集中使用的提示都是非推理問題, 來源于公開可用的開源數(shù)據(jù)集或已明確同意分享其數(shù)據(jù)以用于模型改進(jìn)的用戶。我們的獎(jiǎng)勵(lì)模型架構(gòu)與DeepSeek-R1的架構(gòu)一致, 增加了一個(gè)旨在預(yù)測標(biāo)量偏好分?jǐn)?shù)的獎(jiǎng)勵(lì)頭。

(5)

有用性獎(jiǎng)勵(lì)模型的訓(xùn)練批量大小為256, 學(xué)習(xí)率為 , 并在訓(xùn)練數(shù)據(jù)集上訓(xùn)練一個(gè)epoch。訓(xùn)練期間的最大序列長度設(shè)置為8,192個(gè)詞元, 而在獎(jiǎng)勵(lì)模型推理期間沒有施加明確限制。

安全性獎(jiǎng)勵(lì)模型
為了評估和提高模型安全性, 我們策劃了一個(gè)包含106,000個(gè)提示的數(shù)據(jù)集, 其中模型生成的響應(yīng)根據(jù)預(yù)定義的安全指南被標(biāo)注為“安全”或“不安全”。與有用性獎(jiǎng)勵(lì)模型中使用的成對損失不同, 安全性獎(jiǎng)勵(lì)模型使用逐點(diǎn)方法進(jìn)行訓(xùn)練, 以區(qū)分安全和不安全的響應(yīng)。訓(xùn)練超參數(shù)與有用性獎(jiǎng)勵(lì)模型相同。

(6)

對于通用查詢, 每個(gè)實(shí)例被分類為屬于安全性數(shù)據(jù)集或有用性數(shù)據(jù)集。分配給每個(gè)查詢的通用獎(jiǎng)勵(lì) 對應(yīng)于相關(guān)數(shù)據(jù)集中定義的相應(yīng)獎(jiǎng)勵(lì)。

訓(xùn)練細(xì)節(jié)
DeepSeek-R1-Zero的訓(xùn)練細(xì)節(jié)
為了訓(xùn)練DeepSeek-R1-Zero, 我們將學(xué)習(xí)率設(shè)置為 , KL散度(Kullback–Leibler)系數(shù)設(shè)置為0.001, rollout的采樣溫度設(shè)置為1。對于每個(gè)問題, 我們在第8.2k步之前采樣16個(gè)最大長度為32,768個(gè)詞元的輸出, 之后則為65,536個(gè)詞元。因此, DeepSeek-R1-Zero的性能和響應(yīng)長度在第8.2k步時(shí)都出現(xiàn)了顯著的躍升, 訓(xùn)練總共持續(xù)了10,400步, 相當(dāng)于1.6個(gè)訓(xùn)練epoch。每個(gè)訓(xùn)練步驟包含32個(gè)獨(dú)立問題, 導(dǎo)致每步的訓(xùn)練批量大小為512。每400步, 我們用最新的策略模型替換參考模型。為了加速訓(xùn)練, 每個(gè)rollout生成8,192個(gè)輸出, 這些輸出被隨機(jī)分成16個(gè)小批量, 并且只訓(xùn)練一個(gè)內(nèi)部epoch。

第一階段強(qiáng)化學(xué)習(xí)的訓(xùn)練細(xì)節(jié)
在強(qiáng)化學(xué)習(xí)的第一階段, 我們將學(xué)習(xí)率設(shè)置為 , KL系數(shù)設(shè)置為0.001, GRPO裁剪比率 設(shè)置為10, rollout的采樣溫度設(shè)置為1。對于每個(gè)問題, 我們采樣16個(gè)最大長度為32,768的輸出。每個(gè)訓(xùn)練步驟包含32個(gè)獨(dú)立問題, 導(dǎo)致每步的訓(xùn)練批量大小為512。每400步, 我們用最新的策略模型替換參考模型。為了加速訓(xùn)練, 每個(gè)rollout生成8,192個(gè)輸出, 這些輸出被隨機(jī)分成16個(gè)小批量, 并且只訓(xùn)練一個(gè)內(nèi)部epoch。然而, 為了緩解語言混用問題, 我們在強(qiáng)化學(xué)習(xí)訓(xùn)練期間引入了語言一致性獎(jiǎng)勵(lì), 該獎(jiǎng)勵(lì)計(jì)算為思維鏈中目標(biāo)語言單詞的比例。

(7)

盡管補(bǔ)充信息2.6節(jié)中的消融實(shí)驗(yàn)表明, 這種對齊會(huì)導(dǎo)致模型性能輕微下降, 但該獎(jiǎng)勵(lì)與人類偏好對齊, 使其更具可讀性。我們通過將其直接加到最終獎(jiǎng)勵(lì)中, 將語言一致性獎(jiǎng)勵(lì)應(yīng)用于推理和非推理數(shù)據(jù)。

請注意, 裁剪比率在訓(xùn)練中起著至關(guān)重要的作用。較低的值可能導(dǎo)致大量詞元的梯度被截?cái)? 從而降低模型性能, 而較高的值可能導(dǎo)致訓(xùn)練期間的不穩(wěn)定。本階段使用的強(qiáng)化學(xué)習(xí)數(shù)據(jù)的詳細(xì)信息在補(bǔ)充信息2.3節(jié)中提供。

第二階段強(qiáng)化學(xué)習(xí)的訓(xùn)練細(xì)節(jié)
具體來說, 我們使用獎(jiǎng)勵(lì)信號和多樣化的提示分布相結(jié)合的方式來訓(xùn)練模型。對于推理數(shù)據(jù), 我們遵循DeepSeek-R1-Zero中概述的方法, 該方法使用基于規(guī)則的獎(jiǎng)勵(lì)來指導(dǎo)數(shù)學(xué)、編程和邏輯推理領(lǐng)域的學(xué)習(xí)。在訓(xùn)練過程中, 我們觀察到思維鏈經(jīng)常表現(xiàn)出語言混用, 特別是當(dāng)強(qiáng)化學(xué)習(xí)提示涉及多種語言時(shí)。對于通用數(shù)據(jù), 我們使用獎(jiǎng)勵(lì)模型來指導(dǎo)訓(xùn)練。最終, 獎(jiǎng)勵(lì)信號與多樣化數(shù)據(jù)分布的整合使我們能夠開發(fā)出一個(gè)不僅在推理方面表現(xiàn)出色, 而且優(yōu)先考慮有用性和無害性的模型。給定一批數(shù)據(jù), 獎(jiǎng)勵(lì)可以表述為

(8)

其中
(9)

(10)

強(qiáng)化學(xué)習(xí)的第二階段保留了第一階段的大部分參數(shù), 主要區(qū)別在于將溫度降低到0.7, 因?yàn)槲覀儼l(fā)現(xiàn)此階段較高的溫度會(huì)導(dǎo)致生成內(nèi)容不連貫。該階段共包含1,700個(gè)訓(xùn)練步驟, 其中通用指令數(shù)據(jù)和基于偏好的獎(jiǎng)勵(lì)僅在最后的400步中被引入。我們發(fā)現(xiàn), 使用基于模型的偏好獎(jiǎng)勵(lì)信號進(jìn)行更多訓(xùn)練步驟可能導(dǎo)致獎(jiǎng)勵(lì)破解, 這在補(bǔ)充信息2.5節(jié)中有記錄。

(后續(xù)的Data availabilityAdditional information等部分為元信息、參考文獻(xiàn)和附錄圖表說明, 格式和內(nèi)容保持原文形式, 僅對說明性文字進(jìn)行翻譯。)

數(shù)據(jù)可用性

我們在 https://github.com/deepseek-ai/DeepSeek-R1 (https://doi.org/10.5281/zenodo.15753193) 提供了我們用于拒絕采樣和強(qiáng)化學(xué)習(xí)提示的數(shù)據(jù)樣本。我們完整數(shù)據(jù)生成方法的綜合統(tǒng)計(jì)數(shù)據(jù)和細(xì)節(jié)在補(bǔ)充信息2.3節(jié)中呈現(xiàn)。

代碼可用性

DeepSeek-R1-Zero和DeepSeek-R1的訓(xùn)練權(quán)重在MIT許可下可在 https://github.com/deepseek-ai/DeepSeek-R1 (https://doi.org/10.5281/zenodo.15753193) 獲取。推理腳本發(fā)布于 https://github.com/deepseek-ai/DeepSeek-V3 (https://doi.org/10.5281/zenodo.15753347)。神經(jīng)網(wǎng)絡(luò)是使用PyTorch開發(fā)的, 分布式框架基于我們的內(nèi)部框架HAI-LLM (https://www.high-flyer.cn/en/blog/hai-llm)。推理框架基于vLLM。數(shù)據(jù)分析使用了Python v.3.8 (https://www.python.org/)、NumPy v.1.23.1 (https://github.com/numpy/numpy)、Matplotlib v.3.5.2 (https://github.com/matplotlib/matplotlib) 和 TensorBoard v.2.9.1 (https://github.com/tensorflow/tensorboard)。

參考文獻(xiàn)

  1. 1. Brown, T. B. et al. Language models are few-shot learners. [語言模型是小樣本學(xué)習(xí)者]. In Advances in Neural Information Processing Systems 33 (eds Larochelle, H. et al.) (ACM, 2020).

  2. 2. OpenAI et al. GPT4 technical report. [GPT-4技術(shù)報(bào)告]. Preprint at https://doi.org/10.48550/arXiv.2303.08774 (2024).

  3. 3. Wei, J. et al. Chain-of-thought prompting elicits reasoning in large language models. [思維鏈提示引發(fā)大型語言模型的推理能力]. In Advances in Neural Information Processing Systems 35 (eds Koyejo, S. et al.) 24824–24837 (ACM, 2022).

  4. 4. Wei, J. et al. Emergent abilities of large language models. [大型語言模型的涌現(xiàn)能力]. In Transactions on Machine Learning Research (eds Kamath, G. et al.) (2022).

  5. 5. Kaplan, J. et al. Scaling laws for neural language models. [神經(jīng)語言模型的擴(kuò)展法則]. Preprint at https://doi.org/10.48550/arXiv.2001.08361 (2020).

  6. 6. Kojima, T., Gu, S. S., Reid, M., Matsuo, Y. & Iwasawa, Y. Large language models are zero-shot reasoners. [大型語言模型是零樣本推理者]. In Advances in Neural Information Processing Systems 35 (eds Oh, A. H. et al.) 22199–22213 (ACM, 2022).

  7. 7. Chung, H. W. et al. Scaling instruction-finetuned language models. [擴(kuò)展指令微調(diào)語言模型]. J. Mach. Learn. Res.25, 1–53 (2024).

  8. 8. DeepSeek-AI et al. DeepSeek-V3 technical report. [DeepSeek-V3技術(shù)報(bào)告]. Preprint at https://doi.org/10.48550/arXiv.2412.19437 (2025).

  9. 9. Shao, Z. et al. DeepSeekMath: pushing the limits of mathematical reasoning in open language models. [DeepSeekMath:推動(dòng)開放語言模型中數(shù)學(xué)推理的極限]. Preprint at https://doi.org/10.48550/arXiv.2402.03300 (2024).

  10. 10. Wang, X. et al. Self-consistency improves chain of thought reasoning in language models. [自洽性提升語言模型中的思維鏈推理]. In 11th International Conference on Learning Representations (ICLR, 2023).

  11. 11. Hendrycks, D. et al. Measuring massive multitask language understanding. [衡量大規(guī)模多任務(wù)語言理解能力]. In 9th International Conference on Learning Representations (ICLR, 2021).

  12. 12. Gema, A. P. et al. Are we done with MMLU? [MMLU評測已經(jīng)到頭了嗎?]. In Proc. 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (eds Chiruzzo, L. et al.) Vol. 1 (Long Papers), 5069–5096 (ACL, 2025).

  13. 13. Wang, Y. et al. MMLU-Pro: a more robust and challenging multi-task language understanding benchmark. [MMLU-Pro:一個(gè)更魯棒且更具挑戰(zhàn)性的多任務(wù)語言理解基準(zhǔn)]. In Advances in Neural Information Processing Systems 37 (eds Globersons, A. et al.) 95266–95290 (ACM, 2024).

  14. 14. Dua, D. et al. DROP: a reading comprehension benchmark requiring discrete reasoning over paragraphs. [DROP:一個(gè)需要對段落進(jìn)行離散推理的閱讀理解基準(zhǔn)]. In Proc. 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies Vol. 1 (Long and Short Papers) (eds Burstein, J. et al.) 2368–2378 (ACL, 2019).

  15. 15. Huang, Y. et al. C-EVAL: a multi-level multi-discipline Chinese evaluation suite for foundation models. [C-EVAL:一個(gè)面向基礎(chǔ)模型的多層次、多學(xué)科中文評估套件]. In Advances in Neural Information Processing Systems 36 (eds Oh, A. et al.) 62991–63010 (ACM, 2023).

  16. 16. Zhou, J. et al. Instruction-following evaluation for large language models. [面向大型語言模型的指令遵循能力評估]. Preprint at https://doi.org/10.48550/arXiv.2311.07911 (2023).

  17. 17. Krishna, S. et al. Fact, fetch, and reason: a unified evaluation of retrieval-augmented generation. [事實(shí)、檢索與推理:檢索增強(qiáng)生成的統(tǒng)一評估]. In Proc. 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies Vol. 1 (Long Papers) 4745–4759 (ACL, 2025).

  18. 18. Rein, D. et al. GPQA: a graduate-level Google-proof Q&A benchmark. [GPQA:一個(gè)研究生水平、防搜索引擎的問答基準(zhǔn)]. Preprint at https://doi.org/10.48550/arXiv.2311.12022 (2023).

  19. 19. OpenAI. Introducing SimpleQA; [介紹SimpleQA]. https://openai.com/index/introducing-simpleqa/ (2024).

  20. 20. He, Y. et al. Chinese SimpleQA: a Chinese factuality evaluation for large language models. [中文SimpleQA:一個(gè)面向大型語言模型的中文事實(shí)性評估]. In Proc. 63rd Annual Meeting of the Association for Computational Linguistics Vol. 1 (Long Papers), 19182–19208 (ACL, 2025).

  21. 21. Xu, L. et al. CLUE: a Chinese Language Understanding Evaluation benchmark. [CLUE:中文語言理解評估基準(zhǔn)]. In Proc. 28th International Conference on Computational Linguistics (eds Scott, D. et al.) 4762–4772 (International Committee on Computational Linguistics, 2020).

  22. 22. Dubois, Y., Galambosi, B., Liang, P. & Hashimoto, T. B. Length-controlled AlpacaEval: a simple way to debias automatic evaluators. [長度受控的AlpacaEval:一種為自動(dòng)評估器去偏的簡單方法]. Preprint at https://doi.org/10.48550/arXiv.2404.04475 (2025).

  23. 23. Li, T. et al. From crowdsourced data to high-quality benchmarks: Arena-Hard and BenchBuilder pipeline. [從眾包數(shù)據(jù)到高質(zhì)量基準(zhǔn):Arena-Hard與BenchBuilder流程]. Preprint at https://doi.org/10.48550/arXiv.2406.11939 (2024).

  24. 24. OpenAI. Introducing SWE-bench verified; [介紹SWE-bench verified]. https://openai.com/index/introducing-swe-bench-verified/ (2024).

  25. 25. Aider. Aider LLM leaderboards; [Aider LLM排行榜]. https://aider.chat/docs/leaderboards/ (2024).

  26. 26. Jain, N. et al. LiveCodeBench: holistic and contamination free evaluation of large language models for code. [LiveCodeBench:對大型語言模型代碼能力進(jìn)行全面的、無污染的評估]. In 13th International Conference on Learning Representations (ICLR, 2024).

  27. 27. Mirzayanov, M. Codeforces; [Codeforces編程競賽平臺]. https://codeforces.com/ (2025).

  28. 28. Chinese Mathematical Society (CMS). Chinese National High School Mathematics Olympiad; [中國高中數(shù)學(xué)奧林匹克]. https://www.cms.org.cn/Home/comp/comp/cid/12.html (2024).

  29. 29. Mathematical Association of America. American Invitational Mathematics Examination; [美國數(shù)學(xué)邀請賽]. https://maa.org/maa-invitational-competitions (2024).

  30. 30. OpenAI. Hello GPT-4o; [你好,GPT-4o]. https://openai.com/index/hello-gpt-4o/ (2024).

  31. 31. Schulman, J., Wolski, F., Dhariwal, P., Radford, A. & Klimov, O. Proximal policy optimization algorithms. [近端策略優(yōu)化算法]. Preprint at https://doi.org/10.48550/arXiv.1707.06347 (2017).

  32. 32. Ouyang, L. et al. Training language models to follow instructions with human feedback. [通過人類反饋訓(xùn)練語言模型遵循指令]. In Advances in Neural Information Processing Systems 35 (eds Koyejo, S. et al.) 27730–27744 (ACM, 2022).

  33. 33. Nano et al. deepseek-ai/DeepSeek-R1: v1.0.0. [deepseek-ai/DeepSeek-R1:v1.0.0版]. Zenodo https://doi.org/10.5281/zenodo.15753192 (2025).

  34. 34. Yu, X. et al. deepseek-ai/DeepSeek-V3: v1.0.0. [deepseek-ai/DeepSeek-V3:v1.0.0版]. Zenodo https://doi.org/10.5281/zenodo.15753346 (2025).

  35. 35. Paszke, A. et al. PyTorch: an imperative style, high-performance deep learning library. [PyTorch:一個(gè)命令式風(fēng)格、高性能的深度學(xué)習(xí)庫]. In Advances in Neural Information Processing Systems 32 (eds Wallach, H. M. et al.) 8026–8037 (ACM, 2019).

  36. 36. Kwon, W. et al. Efficient memory management for large language model serving with PagedAttention. [使用PagedAttention為大型語言模型服務(wù)實(shí)現(xiàn)高效內(nèi)存管理]. In Proc. ACM SIGOPS 29th Symposium on Operating Systems Principles 611–626 (ACM, 2023).

致謝

本研究由DeepSeek-AI支持。

作者信息

Fuli Luo
目前地址:獨(dú)立研究員,中國北京

Jinhao Tu
目前地址:建平中學(xué),中國上海

Kai Hu
目前地址:中國科學(xué)技術(shù)大學(xué),中國合肥

Kexin Huang, Wenqin Yu, Xinyuan Li, Yue Gong & Yujia He
目前地址:北京大學(xué),中國北京

Zijun Liu
目前地址:清華大學(xué),中國北京

Ziyang Song
目前地址:Citadel Securities,中國香港特別行政區(qū)

DeepSeek-AI 團(tuán)隊(duì),中國杭州

Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Peiyi Wang, Qihao Zhu, Runxin Xu, Ruoyu Zhang, Shirong Ma, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Hanwei Xu, Honghui Ding, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jingchang Chen, Jingyang Yuan, Jinhao Tu, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaichao You, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Mingxu Zhou, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen Zhang

貢獻(xiàn)

所有作者都對本出版物做出了貢獻(xiàn), 分別參與了數(shù)據(jù)收集與整理、實(shí)驗(yàn)設(shè)計(jì)和構(gòu)建LLM訓(xùn)練框架。作者們還參與了實(shí)驗(yàn)設(shè)置的實(shí)施與測試、強(qiáng)化學(xué)習(xí)過程的優(yōu)化以及結(jié)果分析?茖W(xué)發(fā)現(xiàn)經(jīng)所有貢獻(xiàn)者討論并批準(zhǔn)。本文由合作團(tuán)隊(duì)指定的一個(gè)作者小組撰寫, 并經(jīng)過了內(nèi)部集體審閱過程。所有作者都審閱并批準(zhǔn)了手稿的最終版本。核心貢獻(xiàn)者:D.G., D.Y., H.Z., J.S., R.Z., R.X., Q.Z., S.M., P.W., X.B., X.Z., X.Y., Y.W., Z.F.W., Z.G., Z.S., Z.L., Z.G. 這些被指定為核心貢獻(xiàn)者的作者對這項(xiàng)工作做出了同等貢獻(xiàn), 并按字母順序列出。其余作者也對本研究做出了有意義的貢獻(xiàn), 他們的名字同樣按字母順序列出。

通訊作者

聯(lián)系Wenfeng Liang。

倫理聲明

競爭利益
作者聲明沒有競爭利益, 并且不會(huì)就本手稿內(nèi)容申請專利。

同行評審

同行評審信息
《自然》感謝Edward Beeching、Yarin Gal、José Hernández-Orallo、Daphne Ippolito、Subbarao Kambhampati、Lewis Tunstall、Yiming Zhang和Lexin Zhou對本工作同行評審的貢獻(xiàn)。同行評審報(bào)告可供查閱。

附加信息

出版商說明施普林格·自然對出版地圖和機(jī)構(gòu)附屬關(guān)系中的管轄權(quán)要求保持中立。

擴(kuò)展數(shù)據(jù)圖表

擴(kuò)展數(shù)據(jù)圖1:模型輸出中與推理相關(guān)的語言特征隨訓(xùn)練步驟的演變。


a, 在整個(gè)訓(xùn)練過程中, 模型生成輸出中代表性反思性術(shù)語的頻率。反思性術(shù)語——包括‘wait’(等等)、‘mistake’(錯(cuò)誤)、‘however’(然而)、‘but’(但是)、‘retry’(重試)、‘error’(誤差)、‘verify’(驗(yàn)證)、‘wrong’(錯(cuò)誤)、‘evaluate’(評估)和‘check’(檢查)——由三名人類專家小組識別和整理。每位專家獨(dú)立提出一組表示反思性推理的詞語, 隨后通過共識合并成一個(gè)最終詞匯表。 b, 在訓(xùn)練過程中, 術(shù)語‘wait’(等等)在模型輸出中的頻率。該術(shù)語在初始訓(xùn)練階段幾乎不存在, 在4,000至7,000步之間零星出現(xiàn), 并在8,000步后頻率顯著增加。這些趨勢表明, 隨著訓(xùn)練的進(jìn)行, 出現(xiàn)了時(shí)間推理或自我監(jiān)控行為。

擴(kuò)展數(shù)據(jù)圖2:所提出的用于基于強(qiáng)化學(xué)習(xí)訓(xùn)練的GRPO圖示。



在所提出的框架中, 一個(gè)LLM被用作策略模型, 以根據(jù)給定的查詢q生成響應(yīng){o1, o2,…, oG}。組內(nèi)的每個(gè)響應(yīng)都由一個(gè)獎(jiǎng)勵(lì)模型——無論是學(xué)習(xí)的(基于模型)還是手動(dòng)指定的(基于規(guī)則)——進(jìn)行評估, 以分配一個(gè)標(biāo)量獎(jiǎng)勵(lì)信號。隨后, GRPO根據(jù)每個(gè)組成員被分配的獎(jiǎng)勵(lì)計(jì)算其相對優(yōu)勢。GRPO不依賴于顯式的值函數(shù)(如PPO中那樣), 而是直接從組內(nèi)獎(jiǎng)勵(lì)分布中估計(jì)優(yōu)勢。然后更新策略參數(shù)以最大化預(yù)期獎(jiǎng)勵(lì), 同時(shí)最小化與參考策略的偏離, 通常通過KL散度來量化。通過消除對單獨(dú)值網(wǎng)絡(luò)的需求, GRPO為傳統(tǒng)的行動(dòng)者-評論家方法(如PPO)提供了一個(gè)簡化而有效的替代方案。

提示 (PROMPT)

設(shè) (b \geq 2) 為一個(gè)整數(shù)。如果一個(gè)正整數(shù) (n) 在 (b) 進(jìn)制下表示時(shí)恰好有兩位數(shù),并且這兩位數(shù)之和等于 (\sqrt{n}),則稱 (n) 是b-優(yōu)美數(shù) (b-eautiful)。例如,81 是13-優(yōu)美數(shù),因?yàn)?81 = 63(_\text{13}) 并且 6 + 3 = (\sqrt{81})。

找出滿足以下條件的最小整數(shù) (b \geq 2):存在超過十個(gè)b-優(yōu)美數(shù)

請逐步推理,并將最終答案放在\boxed{}中。

評估 (Evaluation)

解析\boxed{}中的最終答案,并使用基于規(guī)則的評分器來判斷其是否與標(biāo)準(zhǔn)答案相等。根據(jù)需要對數(shù)值進(jìn)行四舍五入,并使用 'SymPy' 庫來解析表達(dá)式。

補(bǔ)充信息

補(bǔ)充信息
補(bǔ)充章節(jié) 1-11,包括補(bǔ)充表 1-29 和補(bǔ)充圖 1-16 —— 詳情請見目錄。

同行評審文件 (Peer Review file) 見附錄

權(quán)利與許可

開放獲取 (Open Access)本文根據(jù)知識共享署名 4.0 國際許可協(xié)議 (Creative Commons Attribution 4.0 International License) 進(jìn)行許可,該協(xié)議允許以任何媒介或格式使用、分享、改編、分發(fā)和復(fù)制本作品,只要您對原作者和來源進(jìn)行適當(dāng)?shù)氖鹈,提供指向知識共享許可協(xié)議的鏈接,并注明是否對內(nèi)容進(jìn)行了修改。本文中的圖像或其他第三方材料均包含在文章的知識共享許可協(xié)議之內(nèi),除非在該材料的版權(quán)說明中另有聲明。如果材料未包含在文章的知識共享許可協(xié)議中,并且您的預(yù)期用途不受法律法規(guī)允許或超出了許可的使用范圍,您將需要直接從版權(quán)所有者那里獲得許可。要查看此許可協(xié)議的副本,請?jiān)L問 http://creativecommons.org/licenses/by/4.0/。

(內(nèi)容來源:Web3天空之城)

為偉大思想而生!

AI+時(shí)代,互聯(lián)網(wǎng)思想(wanging0123),

第一必讀自媒體

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
俄駐委大使披露細(xì)節(jié):為何俄防空系統(tǒng)沒有反應(yīng)

俄駐委大使披露細(xì)節(jié):為何俄防空系統(tǒng)沒有反應(yīng)

魯中晨報(bào)
2026-01-11 15:05:05
人類對閑魚的開發(fā)不足1%,一群神人把我笑發(fā)財(cái)了

人類對閑魚的開發(fā)不足1%,一群神人把我笑發(fā)財(cái)了

另子維愛讀史
2026-01-11 21:09:06
148cm的真人漫畫少女(楪可憐),嬌小身材成為獨(dú)特魅力

148cm的真人漫畫少女(楪可憐),嬌小身材成為獨(dú)特魅力

碧波萬覽
2026-01-11 00:25:06
知名童星剛滿18就立即加入OnlyFans,一天賺290萬美元

知名童星剛滿18就立即加入OnlyFans,一天賺290萬美元

隨波蕩漾的漂流瓶
2026-01-11 18:03:40
1分鐘2神撲!李昊力保球門不失,肋骨險(xiǎn)受傷,媒體人:身價(jià)還得漲

1分鐘2神撲!李昊力保球門不失,肋骨險(xiǎn)受傷,媒體人:身價(jià)還得漲

奧拜爾
2026-01-11 21:00:22
合川千人赴約殺豬飯后續(xù):女子闖大禍,原地嚇呆,文旅連夜下場

合川千人赴約殺豬飯后續(xù):女子闖大禍,原地嚇呆,文旅連夜下場

鋭娛之樂
2026-01-11 22:06:10
日本人開始反思了,日本GDP將損失10%,日本經(jīng)濟(jì)走向連環(huán)塌方

日本人開始反思了,日本GDP將損失10%,日本經(jīng)濟(jì)走向連環(huán)塌方

牛鍋巴小釩
2026-01-12 02:05:36
大反轉(zhuǎn)!上港必走之人又要回來了?滬媒透露球隊(duì)騷操作,球迷熱議

大反轉(zhuǎn)!上港必走之人又要回來了?滬媒透露球隊(duì)騷操作,球迷熱議

羅掌柜體育
2026-01-12 10:01:41
西部最新排名:快船創(chuàng)NBA奇跡,掘金收大禮,獨(dú)行俠提前擺爛

西部最新排名:快船創(chuàng)NBA奇跡,掘金收大禮,獨(dú)行俠提前擺爛

籃球大視野
2026-01-11 15:40:11
警察倒戈,革命衛(wèi)隊(duì)被繳械,伊朗神權(quán)精英們開始偷偷運(yùn)黃金了

警察倒戈,革命衛(wèi)隊(duì)被繳械,伊朗神權(quán)精英們開始偷偷運(yùn)黃金了

知兵
2026-01-10 14:19:56
日軍“大佐”是什么軍銜?為何日軍不想升將官,卻爭著當(dāng)大佐?

日軍“大佐”是什么軍銜?為何日軍不想升將官,卻爭著當(dāng)大佐?

大千世界觀
2026-01-11 18:45:49
表面是說車,實(shí)際是開車,哈哈哈哈哈

表面是說車,實(shí)際是開車,哈哈哈哈哈

深度報(bào)
2026-01-10 22:18:27
電視真的被嚴(yán)重低估了!換個(gè)思路居然好用到驚呆,簡直是人類之光

電視真的被嚴(yán)重低估了!換個(gè)思路居然好用到驚呆,簡直是人類之光

Home范
2026-01-10 14:55:03
廣東昂首離開遼寧出征南京,杜鋒開心,胡明軒受歡迎,王洪澤迷茫

廣東昂首離開遼寧出征南京,杜鋒開心,胡明軒受歡迎,王洪澤迷茫

劉哥談體育
2026-01-12 10:14:25
原國家房改課題組組長孟曉蘇:建議叫停法拍房,有些法拍房折價(jià)50%,連帶周邊房價(jià)全面下跌

原國家房改課題組組長孟曉蘇:建議叫停法拍房,有些法拍房折價(jià)50%,連帶周邊房價(jià)全面下跌

臺州交通廣播
2026-01-11 13:19:25
俄方爆料!“美軍一開始就沒打算讓任何人活下來”

俄方爆料!“美軍一開始就沒打算讓任何人活下來”

浙江之聲
2026-01-11 18:23:51
每日200個(gè)深蹲,送進(jìn)ICU!醫(yī)生提醒:這種健身堪比“自毀”

每日200個(gè)深蹲,送進(jìn)ICU!醫(yī)生提醒:這種健身堪比“自毀”

貓大夫醫(yī)學(xué)科普
2026-01-12 06:49:19
歐洲人販子有多猖狂?被拐賣的烏克蘭女人,下場有多慘?

歐洲人販子有多猖狂?被拐賣的烏克蘭女人,下場有多慘?

跳跳歷史
2025-12-31 10:26:01
中央政法委發(fā)布2025年第四季度見義勇為勇士榜

中央政法委發(fā)布2025年第四季度見義勇為勇士榜

最高人民法院
2026-01-12 09:12:00
法國超熟齡性工作者,88歲還在接客?自稱“越老越搶手”,入行原因太心酸!

法國超熟齡性工作者,88歲還在接客?自稱“越老越搶手”,入行原因太心酸!

新歐洲
2026-01-10 19:38:22
2026-01-12 11:47:00
互聯(lián)網(wǎng)思想 incentive-icons
互聯(lián)網(wǎng)思想
AI時(shí)代,互聯(lián)網(wǎng)思想觀察
2381文章數(shù) 16901關(guān)注度
往期回顧 全部

科技要聞

小米二手車價(jià)大跳水:SU7半年跌5萬元

頭條要聞

媒體:美國"不演了" 特朗普直白表態(tài)震驚世界

頭條要聞

媒體:美國"不演了" 特朗普直白表態(tài)震驚世界

體育要聞

聰明的球員,不是教練教出來的

娛樂要聞

閆學(xué)晶:脫離群眾太久 忘了自己的根

財(cái)經(jīng)要聞

揭秘“穩(wěn)賺不賠”的代工項(xiàng)目騙局

汽車要聞

"家轎之王"變帥了 東風(fēng)日產(chǎn)全新軒逸量產(chǎn)下線

態(tài)度原創(chuàng)

親子
藝術(shù)
教育
健康
軍事航空

親子要聞

人財(cái)兩空!廣東寶媽梁海燕去世,因羊水栓塞導(dǎo)致,十天花費(fèi)超50萬

藝術(shù)要聞

畫完這組畫,他抑郁了,后來自殺了

教育要聞

22分鐘只能背十個(gè)單詞,高二英語50分,如何提高背單詞效率?

血常規(guī)3項(xiàng)異常,是身體警報(bào)!

軍事要聞

俄大使:馬杜羅夫婦被控制時(shí)身邊沒人

無障礙瀏覽 進(jìn)入關(guān)懷版