国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek-V3.2系列最新開(kāi)源,性能直接對(duì)標(biāo)Gemini-3.0-Pro

0
分享至


來(lái)源:轉(zhuǎn)載自 量子位 | 公眾號(hào) QbitAI

衡宇 發(fā)自 奧特賽德

突襲!

ChatGPT發(fā)布三周年,DeepSeek嚯一下發(fā)出兩個(gè)模型:

  • DeepSeek-V3.2

  • DeepSeek-V3.2-Speciale

前者聚焦平衡實(shí)用,適用于日常問(wèn)答、通用Agent任務(wù)、真實(shí)應(yīng)用場(chǎng)景下的工具調(diào)用。

推理達(dá)GPT-5水平,略低于Gemini-3.0-Pro。

后者主打極致推理,推理基準(zhǔn)性能媲美Gemini-3.0-Pro。

還一把斬獲IMO 2025、CMO 2025、ICPC World Finals 2025、IOI 2025金牌。

劃重點(diǎn),ICPC達(dá)到人類選手第二、IOI人類選手第十名水平。


具體來(lái)說(shuō),DeepSeek-V3.2側(cè)重于平衡推理能力與輸出長(zhǎng)度,降低計(jì)算開(kāi)銷。

DeepSeek官微推文中寫(xiě)道,“DeepSeek-V3.2模型在Agent評(píng)測(cè)中達(dá)到了當(dāng)前開(kāi)源模型的最高水平”。

該模型其他情況如下:

  • 推理能力比肩GPT-5;

  • 相比Kimi-K2-Thinking大幅縮短輸出長(zhǎng)度,減少用戶等待時(shí)間;

  • DeepSeek旗下首個(gè)“思考融入工具調(diào)用” 的模型,支持思考/非思考雙模式工具調(diào)用;

  • 基于1800+環(huán)境、85000+復(fù)雜指令的大規(guī)模Agent訓(xùn)練數(shù)據(jù),泛化能力強(qiáng)。

下圖展示的是DeepSeek-V3.2與其他模型在各類Agent工具調(diào)用評(píng)測(cè)集上的得分

——特別強(qiáng)調(diào),DeepSeek-V3.2并沒(méi)有針對(duì)這些測(cè)試集的工具做特殊訓(xùn)練。


DeepSeek-V3.2-Speciale是DeepSeek-V3.2的長(zhǎng)思考增強(qiáng)版,融合了DeepSeek-Math-V2的定理證明能力。

在指令跟隨、數(shù)學(xué)證明、邏輯驗(yàn)證方面,DeepSeek-V3.2-Speciale能力出眾,推薦用來(lái)完成高度復(fù)雜數(shù)學(xué)推理、編程競(jìng)賽、學(xué)術(shù)研究類任務(wù)。

特別注明!這個(gè)版本目前沒(méi)有針對(duì)日常對(duì)話與寫(xiě)作做專項(xiàng)優(yōu)化。

而且僅供研究使用,不支持工具調(diào)用。

在高度復(fù)雜任務(wù)上,Speciale模型大幅優(yōu)于標(biāo)準(zhǔn)版本,但消耗的Tokens也顯著更多,成本更高。


目前,DeepSeek的App和Web端,都已經(jīng)更新為正式版DeepSeek-V3.2;Speciale版本目前僅供臨時(shí)API使用。

模型發(fā)布同時(shí),技術(shù)報(bào)告也已經(jīng)掛出來(lái)了。

論文里透露的技術(shù)細(xì)節(jié)相當(dāng)硬核:

新的稀疏注意力機(jī)制DSA大幅降低計(jì)算復(fù)雜度,強(qiáng)化學(xué)習(xí)訓(xùn)練的計(jì)算量超過(guò)預(yù)訓(xùn)練的10%,還有全新的大規(guī)模Agent任務(wù)合成管線……

具體情況,我們?cè)敿?xì)來(lái)看。

提出DSA高效稀疏注意力機(jī)制,長(zhǎng)文本不再是負(fù)擔(dān)

DeepSeek-V3.2最大的架構(gòu)創(chuàng)新是引入了DSA(DeepSeek Sparse Attention)機(jī)制。

傳統(tǒng)的注意力機(jī)制在處理長(zhǎng)序列時(shí)計(jì)算復(fù)雜度是O(L2),嚴(yán)重制約了模型的部署效率和后續(xù)訓(xùn)練的可擴(kuò)展性。

DSA讓計(jì)算復(fù)雜度降低到O(L·k),k遠(yuǎn)小于L。

與此同時(shí),DSA讓模型在長(zhǎng)上下文任務(wù)中顯著加速推理,且無(wú)明顯性能損失。

支持FP8精度,適配MLA(Multi-Query Attention)架構(gòu),訓(xùn)練友好。


怎么做到的?

DSA主要包含兩個(gè)組件,一個(gè)叫l(wèi)ightning indexer(閃電索引器),另一個(gè)叫fine-grained token selection(細(xì)粒度token選擇)機(jī)制。

閃電索引器負(fù)責(zé)快速計(jì)算查詢token和歷史token之間的相關(guān)性分?jǐn)?shù),然后只選擇top-k個(gè)最相關(guān)的token進(jìn)行注意力計(jì)算。

團(tuán)隊(duì)特意選用了ReLU激活函數(shù)來(lái)提升吞吐量。

DeepSeek-V3.1-Terminus開(kāi)始繼續(xù)訓(xùn)練時(shí),團(tuán)隊(duì)采用了兩階段策略。

第一階段是Dense Warm-up,保持密集注意力,只訓(xùn)練lightning indexer,讓它學(xué)會(huì)對(duì)齊主注意力的分布。

這個(gè)階段只用了1000步,處理了21億個(gè)tokens。

第二階段才引入稀疏機(jī)制,每個(gè)查詢token選擇2048個(gè)鍵值對(duì),訓(xùn)練了15000步,總共處理了9437億個(gè)tokens。

實(shí)測(cè)效果相當(dāng)給力——

在128k長(zhǎng)度的序列上,DeepSeek-V3.2的推理成本比V3.1-Terminus降低了好幾倍。

H800集群上的測(cè)試顯示,當(dāng)序列長(zhǎng)度達(dá)到128K時(shí),預(yù)填充階段每百萬(wàn)token的成本從0.7美元降到了0.2美元左右,解碼階段從2.4美元降到了0.8美元。


后訓(xùn)練算力超過(guò)預(yù)訓(xùn)練的10%

值得注意的是,DeepSeek團(tuán)隊(duì)這次在強(qiáng)化學(xué)習(xí)上下了血本。

論文里明確提到,RL訓(xùn)練的計(jì)算預(yù)算已經(jīng)超過(guò)了預(yù)訓(xùn)練成本的10%,這在開(kāi)源模型里相當(dāng)罕見(jiàn)。


DeepSeek在技術(shù)報(bào)告中提到,開(kāi)源模型在post-training階段的計(jì)算資源投入不足,限制了其在困難任務(wù)上的性能。

為此,團(tuán)隊(duì)開(kāi)發(fā)了穩(wěn)定、可擴(kuò)展的RL協(xié)議,使訓(xùn)練后階段的計(jì)算預(yù)算超過(guò)了預(yù)訓(xùn)練成本的10%,從而解鎖了模型的先進(jìn)能力。

展開(kāi)講講——

為了穩(wěn)定地?cái)U(kuò)展RL計(jì)算規(guī)模,團(tuán)隊(duì)在GRPO(Group Relative Policy Optimization)算法基礎(chǔ)上做了好幾項(xiàng)改進(jìn)。

首先是無(wú)偏KL估計(jì),修正了原始的K3估計(jì)器,消除了系統(tǒng)性誤差。

原來(lái)的估計(jì)器在某些情況下會(huì)給出無(wú)界的梯度權(quán)重,導(dǎo)致訓(xùn)練不穩(wěn)定。

其次是離線序列掩碼策略。

在實(shí)際訓(xùn)練中,為了提高效率通常會(huì)生成大批量的rollout數(shù)據(jù),然后分成多個(gè)mini-batch進(jìn)行梯度更新。這種做法本身就引入了off-policy行為。

團(tuán)隊(duì)通過(guò)計(jì)算數(shù)據(jù)采樣策略和當(dāng)前策略之間的KL散度,把那些偏離太遠(yuǎn)的負(fù)樣本序列給mask掉,避免它們干擾訓(xùn)練。

團(tuán)隊(duì)還特別針對(duì)MoE模型設(shè)計(jì)了Keep Routing操作。

推理框架和訓(xùn)練框架的實(shí)現(xiàn)差異可能導(dǎo)致同樣的輸入激活不同的專家,這會(huì)造成參數(shù)空間的突變。通過(guò)保存推理時(shí)的路由路徑并在訓(xùn)練時(shí)強(qiáng)制使用相同路徑,確保了參數(shù)優(yōu)化的一致性。

在具體訓(xùn)練上,團(tuán)隊(duì)采用了專家蒸餾的策略。

先為每個(gè)任務(wù)訓(xùn)練專門(mén)的模型,包括數(shù)學(xué)、編程、通用邏輯推理、通用Agent任務(wù)、Agent編程和Agent搜索這6個(gè)領(lǐng)域,每個(gè)領(lǐng)域都支持思考和非思考兩種模式。

然后用這些專家模型生成特定領(lǐng)域的數(shù)據(jù)來(lái)訓(xùn)練最終模型。


Agent能力的突破

此外,此次新模型在Agent任務(wù)上的突破也讓人眼前一亮。

這次團(tuán)隊(duì)找到了讓模型同時(shí)具備推理和工具使用能力的方法


在思考上下文管理方面,團(tuán)隊(duì)發(fā)現(xiàn)DeepSeek-R1那種每次開(kāi)啟新對(duì)話就丟棄推理內(nèi)容的策略,實(shí)在是太——浪費(fèi)token了。

于是設(shè)計(jì)了新的管理機(jī)制:

只有在引入新的用戶消息時(shí)才丟棄歷史推理內(nèi)容,如果只是添加工具相關(guān)消息,推理內(nèi)容會(huì)被保留。即使推理痕跡被刪除,工具調(diào)用歷史和結(jié)果也會(huì)保留在上下文中。

冷啟動(dòng)階段,DeepSeek-V3.2團(tuán)隊(duì)采用了巧妙的prompt設(shè)計(jì)。

團(tuán)隊(duì)通過(guò)精心設(shè)計(jì)的系統(tǒng)提示,讓模型學(xué)會(huì)在推理過(guò)程中自然地插入工具調(diào)用。

比如在處理編程競(jìng)賽題目時(shí),系統(tǒng)會(huì)明確要求模型先思考再給出答案,并用特殊標(biāo)簽標(biāo)記推理路徑。

最硬核的是團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)自動(dòng)環(huán)境合成pipeline,生成了1827個(gè)任務(wù)導(dǎo)向的環(huán)境和85000個(gè)復(fù)雜提示。

以旅行規(guī)劃為例,模型需要在滿足各種約束條件下規(guī)劃三天的行程,包括不重復(fù)城市、根據(jù)酒店價(jià)格調(diào)整餐廳和景點(diǎn)預(yù)算等復(fù)雜邏輯。



雖然在巨大的組合空間中找到滿足所有約束的方案很困難,但驗(yàn)證給定方案是否滿足約束相對(duì)簡(jiǎn)單,這種”難解易驗(yàn)”的特性非常適合RL訓(xùn)練。

在代碼Agent方面,團(tuán)隊(duì)從GitHub挖掘了數(shù)百萬(wàn)個(gè)issue-PR對(duì),經(jīng)過(guò)嚴(yán)格篩選和自動(dòng)環(huán)境構(gòu)建,成功搭建了數(shù)萬(wàn)個(gè)可執(zhí)行的軟件問(wèn)題解決環(huán)境,涵蓋Python、Java、JavaScript等多種語(yǔ)言。

搜索Agent則采用多Agentpipeline生成訓(xùn)練數(shù)據(jù),先從大規(guī)模網(wǎng)絡(luò)語(yǔ)料中采樣長(zhǎng)尾實(shí)體,再通過(guò)問(wèn)題構(gòu)建、答案生成和驗(yàn)證等步驟產(chǎn)生高質(zhì)量數(shù)據(jù)。

評(píng)測(cè)結(jié)果顯示,DeepSeek-V3.2在SWE-Verified上達(dá)到73.1%的解決率,在Terminal Bench 2.0上準(zhǔn)確率46.4%,都大幅超越了現(xiàn)有開(kāi)源模型。

在MCP-Universe和Tool-Decathlon等工具使用基準(zhǔn)測(cè)試上,DeepSeek-V3.2也展現(xiàn)出了接近閉源模型的性能。

這些提升,證明了模型能夠?qū)⑼评聿呗苑夯接?xùn)練時(shí)未見(jiàn)過(guò)的Agent場(chǎng)景。


One More Thing

技術(shù)報(bào)告最后,研究人員坦誠(chéng)地指出了一些局限性。

由于總訓(xùn)練FLOPs較少,DeepSeek-V3.2的世界知識(shí)廣度仍落后于領(lǐng)先的閉源模型。

Token效率也是個(gè)挑戰(zhàn)。通常情況下,本次上新的兩個(gè)模型需要生成更長(zhǎng)的軌跡,才能達(dá)到Gemini-3.0-Pro的輸出質(zhì)量。

但團(tuán)隊(duì)發(fā)話了,這些都是未來(lái)版本的改進(jìn)方向。

不過(guò)——

DeepSeek啊DeepSeek,我們心心念念的R2,什么時(shí)候給抬上來(lái)?。。。?!

閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問(wèn)歐米伽研究所的“未來(lái)知識(shí)庫(kù)”

https://wx.zsxq.com/group/454854145828


未來(lái)知識(shí)庫(kù)是“ 歐米伽 未來(lái)研究所”建立的在線知識(shí)庫(kù)平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來(lái)趨勢(shì)。目前擁有超過(guò)8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問(wèn)https://wx.zsxq.com/group/454854145828進(jìn)入。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
央行:提高中長(zhǎng)期資金投資A股規(guī)模,下周又要回調(diào)了

央行:提高中長(zhǎng)期資金投資A股規(guī)模,下周又要回調(diào)了

東方豪俠
2025-12-27 11:38:50
今冬最冷時(shí)間表出爐,何時(shí)最冷?2026年春節(jié)冷不冷?早看早知道

今冬最冷時(shí)間表出爐,何時(shí)最冷?2026年春節(jié)冷不冷?早看早知道

好賢觀史記
2025-12-25 10:07:03
朱孝天1分鐘視頻報(bào)價(jià)17萬(wàn)

朱孝天1分鐘視頻報(bào)價(jià)17萬(wàn)

雷達(dá)財(cái)經(jīng)
2025-12-26 10:12:02
新加坡開(kāi)始對(duì)中國(guó)海南封關(guān)展開(kāi)反擊!

新加坡開(kāi)始對(duì)中國(guó)海南封關(guān)展開(kāi)反擊!

時(shí)分秒說(shuō)
2025-12-27 11:42:18
一場(chǎng)1-0!讓曼聯(lián)進(jìn)前5,歐冠近在咫尺:和切爾西同分,3豪門(mén)爭(zhēng)四

一場(chǎng)1-0!讓曼聯(lián)進(jìn)前5,歐冠近在咫尺:和切爾西同分,3豪門(mén)爭(zhēng)四

體育知多少
2025-12-27 08:15:48
“請(qǐng)的阿姨一口剩菜都不吃?”高薪保姆的分寸感,刺痛多少雇主?

“請(qǐng)的阿姨一口剩菜都不吃?”高薪保姆的分寸感,刺痛多少雇主?

另子維愛(ài)讀史
2025-12-26 16:05:01
大家斷崖式衰老都是在多少歲? 網(wǎng)友的回答很扎心了,滿是無(wú)奈

大家斷崖式衰老都是在多少歲? 網(wǎng)友的回答很扎心了,滿是無(wú)奈

另子維愛(ài)讀史
2025-12-26 16:31:13
突然關(guān)停,人去樓空!上海家長(zhǎng)崩潰:幾萬(wàn)元要不回,還要請(qǐng)假帶娃

突然關(guān)停,人去樓空!上海家長(zhǎng)崩潰:幾萬(wàn)元要不回,還要請(qǐng)假帶娃

新民晚報(bào)
2025-12-27 15:09:34
徐湖平家掛兩幅“湖平如鏡”:一個(gè)是陳立夫?qū)懙?,一個(gè)是范增寫(xiě)的

徐湖平家掛兩幅“湖平如鏡”:一個(gè)是陳立夫?qū)懙?,一個(gè)是范增寫(xiě)的

漢史趣聞
2025-12-25 10:41:03
顛覆認(rèn)知!剛剛,美國(guó)發(fā)現(xiàn)新物質(zhì)形態(tài),破解磁性超導(dǎo)百年死結(jié)!

顛覆認(rèn)知!剛剛,美國(guó)發(fā)現(xiàn)新物質(zhì)形態(tài),破解磁性超導(dǎo)百年死結(jié)!

徐德文科學(xué)頻道
2025-12-26 23:28:49
5-2!斯諾克再爆冷門(mén):中國(guó)00后女選手4連鞭!贏了世錦賽7冠王

5-2!斯諾克再爆冷門(mén):中國(guó)00后女選手4連鞭!贏了世錦賽7冠王

球場(chǎng)沒(méi)跑道
2025-12-27 16:08:45
49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當(dāng)年小燕子徹底涼透了

49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當(dāng)年小燕子徹底涼透了

阿纂看事
2025-12-12 09:18:29
親密接觸中的罕見(jiàn)身體鎖死現(xiàn)象

親密接觸中的罕見(jiàn)身體鎖死現(xiàn)象

特約前排觀眾
2025-12-27 00:05:08
全球4大豆腐渣工程!我國(guó)為何獨(dú)占2席,基建狂魔到底怎么了?

全球4大豆腐渣工程!我國(guó)為何獨(dú)占2席,基建狂魔到底怎么了?

顧史
2025-12-16 20:39:48
前國(guó)羽“一姐”宣布懷孕,曾兩奪世界冠軍,25歲就退役原因太悲情

前國(guó)羽“一姐”宣布懷孕,曾兩奪世界冠軍,25歲就退役原因太悲情

科學(xué)發(fā)掘
2025-12-27 14:07:42
電風(fēng)扇的回歸 為火箭帶來(lái)了什么 烏度卡為何敢瘋狂整活

電風(fēng)扇的回歸 為火箭帶來(lái)了什么 烏度卡為何敢瘋狂整活

大話火箭隊(duì)
2025-12-27 16:25:45
指導(dǎo)老師回應(yīng)“溫醫(yī)大本科生連發(fā)40多篇SCI論文”:他能力的確很突出,目前的輿論對(duì)學(xué)生不公平

指導(dǎo)老師回應(yīng)“溫醫(yī)大本科生連發(fā)40多篇SCI論文”:他能力的確很突出,目前的輿論對(duì)學(xué)生不公平

大象新聞
2025-12-27 10:45:03
數(shù)據(jù)帝:哈登締造NBA近20年紀(jì)錄 2米16中鋒狂飆9三分復(fù)制詹庫(kù)

數(shù)據(jù)帝:哈登締造NBA近20年紀(jì)錄 2米16中鋒狂飆9三分復(fù)制詹庫(kù)

銜春信
2025-12-27 16:36:25
白嫖攝影師后續(xù):女子身份被扒,同事曝更多惡心事,原來(lái)是慣犯

白嫖攝影師后續(xù):女子身份被扒,同事曝更多惡心事,原來(lái)是慣犯

鋭娛之樂(lè)
2025-12-26 12:34:51
你相信相由心生嗎?網(wǎng)友:上了歲數(shù)能感覺(jué)出來(lái),很多東西都在臉上

你相信相由心生嗎?網(wǎng)友:上了歲數(shù)能感覺(jué)出來(lái),很多東西都在臉上

解讀熱點(diǎn)事件
2025-12-25 00:05:12
2025-12-27 18:31:00
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4423文章數(shù) 37357關(guān)注度
往期回顧 全部

科技要聞

小米也漲價(jià)了!業(yè)界稱終端再不漲明年必虧

頭條要聞

男子戒毒后隨領(lǐng)導(dǎo)出差被警察帶走驗(yàn)?zāi)?回家后工作沒(méi)了

頭條要聞

男子戒毒后隨領(lǐng)導(dǎo)出差被警察帶走驗(yàn)?zāi)?回家后工作沒(méi)了

體育要聞

NBA教練圈的布朗尼,花了22年證明自己

娛樂(lè)要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財(cái)經(jīng)要聞

注意,開(kāi)始拉物價(jià)了!

汽車要聞

好音響比大屏更重要?車企開(kāi)始“聽(tīng)”用戶的

態(tài)度原創(chuàng)

房產(chǎn)
數(shù)碼
時(shí)尚
本地
軍事航空

房產(chǎn)要聞

年銷20億+!中交·藍(lán)色港灣用好房子致敬好生活

數(shù)碼要聞

華為Mate 70 Air 16GB內(nèi)存版今日開(kāi)售 配麒麟9020A

從0度穿到20度,這件衣服才是今年冬天的“頂流”!

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬(wàn)年史書(shū)

軍事要聞

英法德三國(guó)領(lǐng)導(dǎo)人通話 重申對(duì)烏支持

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版