国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

開源和閉源模型的差距在拉大:這是 DeepSeek 論文揭示的殘酷真相

0
分享至


12月2日,DeepSeek 發(fā)布了 V3.2 技術(shù)報(bào)告。在這篇論文里,他們做了一件罕見的事:明確指出開源大模型與閉源模型的性能差距不是在縮小,而是在擴(kuò)大。

這是基于大量實(shí)測(cè)數(shù)據(jù)的冷靜判斷。

1

差距正在拉大,這是事實(shí)

2024年,當(dāng) DeepSeek、Qwen、GLM 等開源模型接連發(fā)布時(shí),社區(qū)充滿樂觀情緒。"8個(gè)月時(shí)間差"的說(shuō)法廣為流傳,許多人相信開源正在追上閉源。但進(jìn)入2025年,情況發(fā)生了變化。

DeepSeek 在論文引言部分直言不諱地寫道:“過(guò)去幾個(gè)月出現(xiàn)了明顯的分化。雖然開源社區(qū)持續(xù)進(jìn)步,但閉源專有模型的性能提升速度顯著更快。結(jié)果是,兩者的差距非但沒有縮小,反而在擴(kuò)大,閉源系統(tǒng)在復(fù)雜任務(wù)上展現(xiàn)出越來(lái)越強(qiáng)的優(yōu)勢(shì)。”

這個(gè)觀察有數(shù)據(jù)支撐。論文對(duì)比了 DeepSeek V3.2 與 GPT-5、Gemini 3.0 Pro 在多個(gè)基準(zhǔn)測(cè)試上的表現(xiàn)。在 MMLU-Pro(多學(xué)科知識(shí)測(cè)試)中,DeepSeek V3.2 得分 85.0,GPT-5 是 87.5,而 Gemini 3.0 Pro 達(dá)到了 90.1。在 GPQA Diamond(研究生級(jí)別科學(xué)問(wèn)題)測(cè)試中,三者的得分分別是 82.4、85.7 和 91.9。


更明顯的差距體現(xiàn)在 HLE(Human Last Exam,極難的文本推理測(cè)試)中。DeepSeek V3.2 的得分是 25.1,GPT-5 是 26.3,而 Gemini 3.0 Pro 高達(dá) 37.7——這個(gè)差距已經(jīng)不是"接近"能形容的了。

值得注意的是,DeepSeek V3.2 已經(jīng)是目前最強(qiáng)的開源模型,在大部分開源模型的對(duì)比中都處于領(lǐng)先位置。但即便如此,它與頂級(jí)閉源模型之間仍然存在明顯差距,尤其是在需要深度推理和復(fù)雜任務(wù)處理的場(chǎng)景中。

1

差距為何在拉大?三個(gè)結(jié)構(gòu)性問(wèn)題

論文通過(guò)系統(tǒng)分析,識(shí)別出限制開源模型在復(fù)雜任務(wù)上能力的三個(gè)關(guān)鍵缺陷。這些不是表面問(wèn)題,而是深層次的結(jié)構(gòu)性困境。

第一個(gè)問(wèn)題在于架構(gòu)層面。

開源模型普遍依賴傳統(tǒng)的 vanilla attention 機(jī)制,這種機(jī)制在處理長(zhǎng)序列時(shí)效率極低。

論文指出,這種架構(gòu)上的依賴"嚴(yán)重限制了長(zhǎng)序列的效率,對(duì)可擴(kuò)展部署和有效的后訓(xùn)練構(gòu)成了實(shí)質(zhì)性障礙"。當(dāng)閉源模型已經(jīng)在探索更高效的注意力機(jī)制時(shí),開源模型還在用五年前的技術(shù)架構(gòu),這本身就是一個(gè)巨大的劣勢(shì)。

第二個(gè)問(wèn)題是資源投入的鴻溝,尤其體現(xiàn)在后訓(xùn)練階段。

后訓(xùn)練是讓模型從"會(huì)說(shuō)話"變成"會(huì)思考"的關(guān)鍵環(huán)節(jié),需要通過(guò)強(qiáng)化學(xué)習(xí)讓模型學(xué)會(huì)推理、工具使用和遵循復(fù)雜指令。論文透露,DeepSeek V3.2 的后訓(xùn)練計(jì)算預(yù)算超過(guò)了預(yù)訓(xùn)練成本的 10%。要知道,預(yù)訓(xùn)練本身就是天價(jià)投入,而大部分開源模型的后訓(xùn)練預(yù)算可能連 1% 都不到。這種資源投入上的差距,直接導(dǎo)致了性能上的代際差異。

第三個(gè)問(wèn)題是 AI Agent 能力的滯后。

在真實(shí)應(yīng)用場(chǎng)景中,開源模型的泛化能力和指令理解能力明顯落后。論文引用了三個(gè)關(guān)鍵的 Agent 測(cè)評(píng)基準(zhǔn):在 MCP-Mark 中,DeepSeek V3.2 得分 45.9,Gemini 3.0 Pro 是 51.0;在 MCP-Universe 中,前者是 80.3,后者是 87.9;在 Tool-Decathlon 中,差距更加明顯。這些數(shù)字背后反映的是開源模型在復(fù)雜多輪交互、工具調(diào)用、長(zhǎng)期規(guī)劃等場(chǎng)景下的能力不足。

論文總結(jié)道:"開源模型在泛化能力和指令跟隨能力方面展現(xiàn)出明顯滯后,這阻礙了它們?cè)趯?shí)際部署中的有效性。"這是一個(gè)誠(chéng)實(shí)且殘酷的判斷。

1

DeepSeek 的應(yīng)對(duì):技術(shù)路線的根本性改變

認(rèn)識(shí)到問(wèn)題后,DeepSeek 沒有選擇簡(jiǎn)單地堆砌參數(shù)或增加數(shù)據(jù)量,而是在三個(gè)核心維度上進(jìn)行了根本性的技術(shù)創(chuàng)新。

在架構(gòu)層面,DeepSeek 引入了 DSA(DeepSeek Sparse Attention)機(jī)制。

傳統(tǒng)注意力機(jī)制的計(jì)算復(fù)雜度是 O(L2),序列長(zhǎng)度翻倍,計(jì)算量就要翻四倍。DSA 通過(guò)"閃電索引器"(Lightning Indexer)快速計(jì)算每個(gè) token 的重要性評(píng)分,然后只選擇 top-k 個(gè)最重要的 token 參與注意力計(jì)算(論文中 k=2048),將復(fù)雜度從 O(L2) 降至 O(L×k)。

這個(gè)改進(jìn)不僅僅是理論上的優(yōu)化。論文通過(guò)實(shí)測(cè)數(shù)據(jù)表明,在 128K 上下文長(zhǎng)度下,DSA 大幅降低了推理成本,而性能幾乎沒有損失。更令人意外的是,在 AA-LCR(長(zhǎng)文本推理基準(zhǔn))和 Fiction.liveBench(小說(shuō)理解測(cè)試)中,V3.2 的表現(xiàn)甚至優(yōu)于使用傳統(tǒng)注意力機(jī)制的 V3.1。這證明 DSA 不僅更快,在某些場(chǎng)景下質(zhì)量還更好。


在資源投入層面,DeepSeek 做出了超常規(guī)的決定。

論文明確寫道:"近幾個(gè)月來(lái),性能提升與擴(kuò)展的 RL 訓(xùn)練預(yù)算持續(xù)相關(guān),該預(yù)算已超過(guò)預(yù)訓(xùn)練成本的 10%。"這個(gè)數(shù)字在開源界極為罕見。具體來(lái)說(shuō),DeepSeek 為數(shù)學(xué)、編程、推理、Agent 等六大領(lǐng)域分別訓(xùn)練了專家模型,每個(gè)都單獨(dú)進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練。在持續(xù)預(yù)訓(xùn)練階段,模型經(jīng)歷了 943.7B tokens 的訓(xùn)練(在 128K 上下文長(zhǎng)度下),然后采用 GRPO(Group Relative Policy Optimization)算法進(jìn)行混合訓(xùn)練,整合推理、Agent 和人類對(duì)齊三類任務(wù)。

在 Agent 能力強(qiáng)化方面,DeepSeek 開發(fā)了系統(tǒng)化的任務(wù)合成流程。

他們合成了超過(guò) 1800 個(gè)多樣化環(huán)境和 85,000 條復(fù)雜提示,涵蓋各種真實(shí)場(chǎng)景。具體包括 24,667 個(gè)代碼 Agent 任務(wù)、50,275 個(gè)搜索 Agent 任務(wù)、4,417 個(gè)通用 Agent 任務(wù)和 5,908 個(gè)代碼解釋器任務(wù)。這些合成數(shù)據(jù)不是隨機(jī)生成的,而是通過(guò)冷啟動(dòng)階段學(xué)習(xí)推理與工具使用的統(tǒng)一模式,然后在規(guī)?;A段系統(tǒng)地生成高質(zhì)量訓(xùn)練場(chǎng)景。

效果是顯著的。在 Agent 相關(guān)的測(cè)試中,DeepSeek V3.2 顯著縮小了與閉源模型的差距,在 MCP-Universe 上達(dá)到了 80.3% 的成功率,雖然仍低于 Gemini 的 87.9%,但已經(jīng)是開源模型中的最佳表現(xiàn)。論文總結(jié)說(shuō):“DeepSeek V3.2 成為 Agent 場(chǎng)景中極具成本效益的選擇,顯著縮小了開源與前沿閉源模型之間的性能差距?!?/p>

論文最后寫了一句耐人尋味的話:"如果 Gemini 3.0 證明了持續(xù)擴(kuò)展預(yù)訓(xùn)練的潛力,DeepSeek V3.2-Speciale 則證明了在大規(guī)模上下文環(huán)境中強(qiáng)化學(xué)習(xí)的可擴(kuò)展性。"言下之意很明顯:閉源巨頭有資源堆預(yù)訓(xùn)練,但開源可以找到自己的路——通過(guò)更高效的架構(gòu)和更科學(xué)的后訓(xùn)練,用更少的資源實(shí)現(xiàn)接近的效果。

這或許是開源 AI 唯一的生存之道:不是硬碰硬拼資源,而是拼技術(shù)路線的創(chuàng)新。至少在這一次,DeepSeek 證明了這條路是走得通的。


論文鏈接:https://arxiv.org/html/2512.02556v1

整理:周華香

點(diǎn)個(gè)愛心,再走 吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
向太曝馬伊琍已再婚:當(dāng)年文章過(guò)不了心理那關(guān)

向太曝馬伊琍已再婚:當(dāng)年文章過(guò)不了心理那關(guān)

娛樂看阿敞
2025-12-12 15:50:00
第一集太火爆了,又一部生猛韓劇誕生!

第一集太火爆了,又一部生猛韓劇誕生!

熱薦電影
2025-12-25 23:59:41
丈夫在我55歲退休當(dāng)天提離婚,轉(zhuǎn)頭將初戀進(jìn)門,得病后又找我復(fù)婚

丈夫在我55歲退休當(dāng)天提離婚,轉(zhuǎn)頭將初戀進(jìn)門,得病后又找我復(fù)婚

溫情郵局
2025-05-03 15:29:09
瘋狂!山東高速男籃新賽季引發(fā)球迷不滿,怒吼聲震天!

瘋狂!山東高速男籃新賽季引發(fā)球迷不滿,怒吼聲震天!

魯源侃球
2025-12-26 06:00:03
銀行問(wèn)你取錢干什么?記住這3句“萬(wàn)能話術(shù)”,讓柜員閉嘴

銀行問(wèn)你取錢干什么?記住這3句“萬(wàn)能話術(shù)”,讓柜員閉嘴

巢客HOME
2025-07-23 09:30:03
鬧大了!中J某局的員工在網(wǎng)上掀桌子了!

鬧大了!中J某局的員工在網(wǎng)上掀桌子了!

黯泉
2025-12-24 20:53:06
俄軍工廠老板在紅場(chǎng)自焚:軍火訂單翻十倍卻成死亡陷阱

俄軍工廠老板在紅場(chǎng)自焚:軍火訂單翻十倍卻成死亡陷阱

桂系007
2025-12-25 22:43:02
朱孝天嫉妒心藏不住了!公開嘲諷阿信“又老又丑”,評(píng)論區(qū)已淪陷

朱孝天嫉妒心藏不住了!公開嘲諷阿信“又老又丑”,評(píng)論區(qū)已淪陷

楓塵余往逝
2025-12-20 20:24:53
古天樂解釋:為何沒找江華演《尋秦記》電影!

古天樂解釋:為何沒找江華演《尋秦記》電影!

我愛追港劇
2025-12-25 23:42:36
國(guó)家出手!宮魯鳴打壓球員真相大白,幕后黑手被揪,王思雨太無(wú)辜

國(guó)家出手!宮魯鳴打壓球員真相大白,幕后黑手被揪,王思雨太無(wú)辜

大眼妹妹
2025-12-26 00:41:25
地主傻兒子往井里扔金條,土匪洗劫一空,他指著井底:這是后路

地主傻兒子往井里扔金條,土匪洗劫一空,他指著井底:這是后路

牛魔王與芭蕉扇
2025-12-22 16:51:33
倪妮太豪!在北京家里過(guò)圣誕,意外曝光內(nèi)景,難怪她看不上馮紹峰

倪妮太豪!在北京家里過(guò)圣誕,意外曝光內(nèi)景,難怪她看不上馮紹峰

陳意小可愛
2025-12-25 11:21:45
大勝!杜蘭特31+6,謝潑德28+6再超神下去,火箭能讓聯(lián)盟大結(jié)局

大勝!杜蘭特31+6,謝潑德28+6再超神下去,火箭能讓聯(lián)盟大結(jié)局

巴叔GO聊體育
2025-12-25 14:20:55
越南最大企業(yè)集團(tuán)Vingroup申請(qǐng)撤回南北高鐵項(xiàng)目投資登記

越南最大企業(yè)集團(tuán)Vingroup申請(qǐng)撤回南北高鐵項(xiàng)目投資登記

界面新聞
2025-12-25 16:11:38
6.8萬(wàn)㎡胖東來(lái)新店試業(yè)!現(xiàn)場(chǎng)排隊(duì)數(shù)百米,開業(yè)前于東來(lái)與員工“蹦迪”燃爆全場(chǎng)

6.8萬(wàn)㎡胖東來(lái)新店試業(yè)!現(xiàn)場(chǎng)排隊(duì)數(shù)百米,開業(yè)前于東來(lái)與員工“蹦迪”燃爆全場(chǎng)

中國(guó)零售信息
2025-12-23 23:35:55
鄭州高新區(qū)通報(bào)“一學(xué)校學(xué)生意外墜樓”:已成立聯(lián)合調(diào)查組

鄭州高新區(qū)通報(bào)“一學(xué)校學(xué)生意外墜樓”:已成立聯(lián)合調(diào)查組

上觀新聞
2025-12-25 07:32:05
2026年如果房?jī)r(jià)繼續(xù)下跌,我國(guó)有一半的家庭或?qū)⒚媾R三個(gè)現(xiàn)實(shí)壓力

2026年如果房?jī)r(jià)繼續(xù)下跌,我國(guó)有一半的家庭或?qū)⒚媾R三個(gè)現(xiàn)實(shí)壓力

裝修秀
2025-12-11 11:20:03
樸孝敏白絨裙驚艷全場(chǎng)!肉絲美腿殺瘋了,簡(jiǎn)直好看到犯規(guī)?

樸孝敏白絨裙驚艷全場(chǎng)!肉絲美腿殺瘋了,簡(jiǎn)直好看到犯規(guī)?

娛樂領(lǐng)航家
2025-12-25 23:00:03
1981年,華國(guó)鋒并未辭去所有職位,仍留著一個(gè)關(guān)鍵職務(wù)直到2002年

1981年,華國(guó)鋒并未辭去所有職位,仍留著一個(gè)關(guān)鍵職務(wù)直到2002年

賈文彬的史書
2025-12-25 17:28:15
任素汐獎(jiǎng)杯斷裂視頻刷屏:無(wú)辜大眼“再給我一個(gè)吧”,網(wǎng)友笑翻了

任素汐獎(jiǎng)杯斷裂視頻刷屏:無(wú)辜大眼“再給我一個(gè)吧”,網(wǎng)友笑翻了

亡海中的彼岸花
2025-12-23 20:25:47
2025-12-26 06:51:00
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來(lái)的基礎(chǔ),歡迎來(lái)到這個(gè)星球。
2741文章數(shù) 10422關(guān)注度
往期回顧 全部

科技要聞

小米17Ultra發(fā)布,徠卡2億像素 ,6999元起

頭條要聞

韓國(guó)"最毒"財(cái)閥千金被捕 韓國(guó)人稱"經(jīng)過(guò)她身邊就會(huì)死"

頭條要聞

韓國(guó)"最毒"財(cái)閥千金被捕 韓國(guó)人稱"經(jīng)過(guò)她身邊就會(huì)死"

體育要聞

約基奇有多喜歡馬?

娛樂要聞

朱孝天把阿信好意當(dāng)球踢!

財(cái)經(jīng)要聞

新規(guī)來(lái)了,年化超24%的小貸被即刻叫停

汽車要聞

速來(lái)!智界在上海西岸準(zhǔn)備了年末潮流盛典

態(tài)度原創(chuàng)

游戲
本地
手機(jī)
親子
公開課

逆水寒頂流主播沉迷倩女!三界的魅力藏不住了

本地新聞

這輩子要積多少德,下輩子才能投胎到德國(guó)當(dāng)狗

手機(jī)要聞

行業(yè)唯一徠卡2億像素連續(xù)光變長(zhǎng)焦!小米17 Ultra星空綠圖賞

親子要聞

首都兒研所又出狠貨「兒童霜」!新華網(wǎng)力薦,北京媽媽排隊(duì)買...

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版