網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek-V3.2系列最新開(kāi)源，性能直接對(duì)標(biāo)Gemini-3.0-Pro

2025-12-02 20:31:51　來(lái)源: 人工智能學(xué)家

北京舉報(bào)

分享至

來(lái)源：轉(zhuǎn)載自量子位 | 公眾號(hào) QbitAI

衡宇發(fā)自奧特賽德

突襲！

ChatGPT發(fā)布三周年，DeepSeek嚯一下發(fā)出兩個(gè)模型：

DeepSeek-V3.2
DeepSeek-V3.2-Speciale

前者聚焦平衡實(shí)用，適用于日常問(wèn)答、通用Agent任務(wù)、真實(shí)應(yīng)用場(chǎng)景下的工具調(diào)用。

推理達(dá)GPT-5水平，略低于Gemini-3.0-Pro。

后者主打極致推理，推理基準(zhǔn)性能媲美Gemini-3.0-Pro。

還一把斬獲IMO 2025、CMO 2025、ICPC World Finals 2025、IOI 2025金牌。

劃重點(diǎn)，ICPC達(dá)到人類選手第二、IOI人類選手第十名水平。

具體來(lái)說(shuō)，DeepSeek-V3.2側(cè)重于平衡推理能力與輸出長(zhǎng)度，降低計(jì)算開(kāi)銷。

DeepSeek官微推文中寫(xiě)道，“DeepSeek-V3.2模型在Agent評(píng)測(cè)中達(dá)到了當(dāng)前開(kāi)源模型的最高水平”。

該模型其他情況如下：

推理能力比肩GPT-5；
相比Kimi-K2-Thinking大幅縮短輸出長(zhǎng)度，減少用戶等待時(shí)間；
DeepSeek旗下首個(gè)“思考融入工具調(diào)用” 的模型，支持思考/非思考雙模式工具調(diào)用；
基于1800+環(huán)境、85000+復(fù)雜指令的大規(guī)模Agent訓(xùn)練數(shù)據(jù)，泛化能力強(qiáng)。

下圖展示的是DeepSeek-V3.2與其他模型在各類Agent工具調(diào)用評(píng)測(cè)集上的得分

——特別強(qiáng)調(diào)，DeepSeek-V3.2并沒(méi)有針對(duì)這些測(cè)試集的工具做特殊訓(xùn)練。

DeepSeek-V3.2-Speciale是DeepSeek-V3.2的長(zhǎng)思考增強(qiáng)版，融合了DeepSeek-Math-V2的定理證明能力。

在指令跟隨、數(shù)學(xué)證明、邏輯驗(yàn)證方面，DeepSeek-V3.2-Speciale能力出眾，推薦用來(lái)完成高度復(fù)雜數(shù)學(xué)推理、編程競(jìng)賽、學(xué)術(shù)研究類任務(wù)。

特別注明！這個(gè)版本目前沒(méi)有針對(duì)日常對(duì)話與寫(xiě)作做專項(xiàng)優(yōu)化。

而且僅供研究使用，不支持工具調(diào)用。

在高度復(fù)雜任務(wù)上，Speciale模型大幅優(yōu)于標(biāo)準(zhǔn)版本，但消耗的Tokens也顯著更多，成本更高。

目前，DeepSeek的App和Web端，都已經(jīng)更新為正式版DeepSeek-V3.2；Speciale版本目前僅供臨時(shí)API使用。

模型發(fā)布同時(shí)，技術(shù)報(bào)告也已經(jīng)掛出來(lái)了。

論文里透露的技術(shù)細(xì)節(jié)相當(dāng)硬核：

新的稀疏注意力機(jī)制DSA大幅降低計(jì)算復(fù)雜度，強(qiáng)化學(xué)習(xí)訓(xùn)練的計(jì)算量超過(guò)預(yù)訓(xùn)練的10%，還有全新的大規(guī)模Agent任務(wù)合成管線……

具體情況，我們?cè)敿?xì)來(lái)看。

提出DSA高效稀疏注意力機(jī)制，長(zhǎng)文本不再是負(fù)擔(dān)

DeepSeek-V3.2最大的架構(gòu)創(chuàng)新是引入了DSA（DeepSeek Sparse Attention）機(jī)制。

傳統(tǒng)的注意力機(jī)制在處理長(zhǎng)序列時(shí)計(jì)算復(fù)雜度是O(L2)，嚴(yán)重制約了模型的部署效率和后續(xù)訓(xùn)練的可擴(kuò)展性。

DSA讓計(jì)算復(fù)雜度降低到O(L·k)，k遠(yuǎn)小于L。

與此同時(shí)，DSA讓模型在長(zhǎng)上下文任務(wù)中顯著加速推理，且無(wú)明顯性能損失。

支持FP8精度，適配MLA（Multi-Query Attention）架構(gòu)，訓(xùn)練友好。

怎么做到的？

DSA主要包含兩個(gè)組件，一個(gè)叫l(wèi)ightning indexer（閃電索引器），另一個(gè)叫fine-grained token selection（細(xì)粒度token選擇）機(jī)制。

閃電索引器負(fù)責(zé)快速計(jì)算查詢token和歷史token之間的相關(guān)性分?jǐn)?shù)，然后只選擇top-k個(gè)最相關(guān)的token進(jìn)行注意力計(jì)算。

團(tuán)隊(duì)特意選用了ReLU激活函數(shù)來(lái)提升吞吐量。

DeepSeek-V3.1-Terminus開(kāi)始繼續(xù)訓(xùn)練時(shí)，團(tuán)隊(duì)采用了兩階段策略。

第一階段是Dense Warm-up，保持密集注意力，只訓(xùn)練lightning indexer，讓它學(xué)會(huì)對(duì)齊主注意力的分布。

這個(gè)階段只用了1000步，處理了21億個(gè)tokens。

第二階段才引入稀疏機(jī)制，每個(gè)查詢token選擇2048個(gè)鍵值對(duì)，訓(xùn)練了15000步，總共處理了9437億個(gè)tokens。

實(shí)測(cè)效果相當(dāng)給力——

在128k長(zhǎng)度的序列上，DeepSeek-V3.2的推理成本比V3.1-Terminus降低了好幾倍。

H800集群上的測(cè)試顯示，當(dāng)序列長(zhǎng)度達(dá)到128K時(shí)，預(yù)填充階段每百萬(wàn)token的成本從0.7美元降到了0.2美元左右，解碼階段從2.4美元降到了0.8美元。

后訓(xùn)練算力超過(guò)預(yù)訓(xùn)練的10%

值得注意的是，DeepSeek團(tuán)隊(duì)這次在強(qiáng)化學(xué)習(xí)上下了血本。

論文里明確提到，RL訓(xùn)練的計(jì)算預(yù)算已經(jīng)超過(guò)了預(yù)訓(xùn)練成本的10%，這在開(kāi)源模型里相當(dāng)罕見(jiàn)。

DeepSeek在技術(shù)報(bào)告中提到，開(kāi)源模型在post-training階段的計(jì)算資源投入不足，限制了其在困難任務(wù)上的性能。

為此，團(tuán)隊(duì)開(kāi)發(fā)了穩(wěn)定、可擴(kuò)展的RL協(xié)議，使訓(xùn)練后階段的計(jì)算預(yù)算超過(guò)了預(yù)訓(xùn)練成本的10%，從而解鎖了模型的先進(jìn)能力。

展開(kāi)講講——

為了穩(wěn)定地?cái)U(kuò)展RL計(jì)算規(guī)模，團(tuán)隊(duì)在GRPO（Group Relative Policy Optimization）算法基礎(chǔ)上做了好幾項(xiàng)改進(jìn)。

首先是無(wú)偏KL估計(jì)，修正了原始的K3估計(jì)器，消除了系統(tǒng)性誤差。

原來(lái)的估計(jì)器在某些情況下會(huì)給出無(wú)界的梯度權(quán)重，導(dǎo)致訓(xùn)練不穩(wěn)定。

其次是離線序列掩碼策略。

在實(shí)際訓(xùn)練中，為了提高效率通常會(huì)生成大批量的rollout數(shù)據(jù)，然后分成多個(gè)mini-batch進(jìn)行梯度更新。這種做法本身就引入了off-policy行為。

團(tuán)隊(duì)通過(guò)計(jì)算數(shù)據(jù)采樣策略和當(dāng)前策略之間的KL散度，把那些偏離太遠(yuǎn)的負(fù)樣本序列給mask掉，避免它們干擾訓(xùn)練。

團(tuán)隊(duì)還特別針對(duì)MoE模型設(shè)計(jì)了Keep Routing操作。

推理框架和訓(xùn)練框架的實(shí)現(xiàn)差異可能導(dǎo)致同樣的輸入激活不同的專家，這會(huì)造成參數(shù)空間的突變。通過(guò)保存推理時(shí)的路由路徑并在訓(xùn)練時(shí)強(qiáng)制使用相同路徑，確保了參數(shù)優(yōu)化的一致性。

在具體訓(xùn)練上，團(tuán)隊(duì)采用了專家蒸餾的策略。

先為每個(gè)任務(wù)訓(xùn)練專門(mén)的模型，包括數(shù)學(xué)、編程、通用邏輯推理、通用Agent任務(wù)、Agent編程和Agent搜索這6個(gè)領(lǐng)域，每個(gè)領(lǐng)域都支持思考和非思考兩種模式。

然后用這些專家模型生成特定領(lǐng)域的數(shù)據(jù)來(lái)訓(xùn)練最終模型。

Agent能力的突破

此外，此次新模型在Agent任務(wù)上的突破也讓人眼前一亮。

這次團(tuán)隊(duì)找到了讓模型同時(shí)具備推理和工具使用能力的方法。

在思考上下文管理方面，團(tuán)隊(duì)發(fā)現(xiàn)DeepSeek-R1那種每次開(kāi)啟新對(duì)話就丟棄推理內(nèi)容的策略，實(shí)在是太——浪費(fèi)token了。

于是設(shè)計(jì)了新的管理機(jī)制：

只有在引入新的用戶消息時(shí)才丟棄歷史推理內(nèi)容，如果只是添加工具相關(guān)消息，推理內(nèi)容會(huì)被保留。即使推理痕跡被刪除，工具調(diào)用歷史和結(jié)果也會(huì)保留在上下文中。

冷啟動(dòng)階段，DeepSeek-V3.2團(tuán)隊(duì)采用了巧妙的prompt設(shè)計(jì)。

團(tuán)隊(duì)通過(guò)精心設(shè)計(jì)的系統(tǒng)提示，讓模型學(xué)會(huì)在推理過(guò)程中自然地插入工具調(diào)用。

比如在處理編程競(jìng)賽題目時(shí)，系統(tǒng)會(huì)明確要求模型先思考再給出答案，并用特殊標(biāo)簽標(biāo)記推理路徑。

最硬核的是團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)自動(dòng)環(huán)境合成pipeline，生成了1827個(gè)任務(wù)導(dǎo)向的環(huán)境和85000個(gè)復(fù)雜提示。

以旅行規(guī)劃為例，模型需要在滿足各種約束條件下規(guī)劃三天的行程，包括不重復(fù)城市、根據(jù)酒店價(jià)格調(diào)整餐廳和景點(diǎn)預(yù)算等復(fù)雜邏輯。

雖然在巨大的組合空間中找到滿足所有約束的方案很困難，但驗(yàn)證給定方案是否滿足約束相對(duì)簡(jiǎn)單，這種”難解易驗(yàn)”的特性非常適合RL訓(xùn)練。

在代碼Agent方面，團(tuán)隊(duì)從GitHub挖掘了數(shù)百萬(wàn)個(gè)issue-PR對(duì)，經(jīng)過(guò)嚴(yán)格篩選和自動(dòng)環(huán)境構(gòu)建，成功搭建了數(shù)萬(wàn)個(gè)可執(zhí)行的軟件問(wèn)題解決環(huán)境，涵蓋Python、Java、JavaScript等多種語(yǔ)言。

搜索Agent則采用多Agentpipeline生成訓(xùn)練數(shù)據(jù)，先從大規(guī)模網(wǎng)絡(luò)語(yǔ)料中采樣長(zhǎng)尾實(shí)體，再通過(guò)問(wèn)題構(gòu)建、答案生成和驗(yàn)證等步驟產(chǎn)生高質(zhì)量數(shù)據(jù)。

評(píng)測(cè)結(jié)果顯示，DeepSeek-V3.2在SWE-Verified上達(dá)到73.1%的解決率，在Terminal Bench 2.0上準(zhǔn)確率46.4%，都大幅超越了現(xiàn)有開(kāi)源模型。

在MCP-Universe和Tool-Decathlon等工具使用基準(zhǔn)測(cè)試上，DeepSeek-V3.2也展現(xiàn)出了接近閉源模型的性能。

這些提升，證明了模型能夠?qū)⑼评聿呗苑夯接?xùn)練時(shí)未見(jiàn)過(guò)的Agent場(chǎng)景。

One More Thing

技術(shù)報(bào)告最后，研究人員坦誠(chéng)地指出了一些局限性。

由于總訓(xùn)練FLOPs較少，DeepSeek-V3.2的世界知識(shí)廣度仍落后于領(lǐng)先的閉源模型。

Token效率也是個(gè)挑戰(zhàn)。通常情況下，本次上新的兩個(gè)模型需要生成更長(zhǎng)的軌跡，才能達(dá)到Gemini-3.0-Pro的輸出質(zhì)量。

但團(tuán)隊(duì)發(fā)話了，這些都是未來(lái)版本的改進(jìn)方向。

不過(guò)——

DeepSeek啊DeepSeek，我們心心念念的R2，什么時(shí)候給抬上來(lái)?。。。?！

閱讀最新前沿科技趨勢(shì)報(bào)告，請(qǐng)?jiān)L問(wèn)歐米伽研究所的“未來(lái)知識(shí)庫(kù)”

https://wx.zsxq.com/group/454854145828

未來(lái)知識(shí)庫(kù)是“ 歐米伽未來(lái)研究所”建立的在線知識(shí)庫(kù)平臺(tái)，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能，數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來(lái)趨勢(shì)。目前擁有超過(guò)8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問(wèn)https://wx.zsxq.com/group/454854145828進(jìn)入。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.