国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

V3.2逼近Gemini 3,DeepSeek硬氣喊話:接下來我要堆算力了

0
分享至


作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com

就在上周,OpenAI前首席科學家、現SSI CEO Ilya Sutskever在最新播客訪談中拋出一個重磅觀點,過去五年的“age of scaling”正在走到頭,預訓練數據是有限的,單純用更多GPU堆更大模型,哪怕再放大100 倍,也未必能帶來質變。所以我們又回到了以研究為核心的時代,只不過這次有了巨大的算力”,這一表態(tài)被視作對Scaling Law撞墻論的強力佐證。

然而僅過了幾天,12月1日,DeepSeek用V3.2和V3.2-Speciale的發(fā)布,給出了一個不同的答案。

模型發(fā)布后,DeepSeek研究員Zhibin Gou在X上發(fā)文:

“如果Gemini-3證明了持續(xù)擴展預訓練的可能性,DeepSeek-V3.2-Speciale則證明了在大規(guī)模上下文環(huán)境中強化學習的可擴展性。我們花了一年時間將DeepSeek-V3推向極限,得出的經驗是:訓練后的瓶頸需通過優(yōu)化方法和數據來解決,而非僅等待更好的基礎模型?!?/b>

他還補了一句:

“持續(xù)擴大模型規(guī)模、數據量、上下文和強化學習。別讓那些'遭遇瓶頸'的雜音阻擋你前進?!?/b>


這是DeepSeek團隊少有的發(fā)聲,而這一幕頗有意味,當行業(yè)在討論Scaling Law是否撞墻時,DeepSeek用實打實的模型喊話,想證明Scaling沒死,只是換了戰(zhàn)場。

雖然行業(yè)普遍認同后訓練的重要性,但敢把相當于預訓練成本10%以上的算力預算砸在RL上的企業(yè)仍屬少數。DeepSeek是真正把這條路線工程化、規(guī)?;拇?。

這次發(fā)布的兩個模型正是這條路線的產物,V3.2定位日常主力,對標GPT-5;Speciale定位極限推理,對標Gemini 3.0 Pro,并拿下四枚國際競賽金牌。


技術報告Introduction部分有句話值得注意,“過去幾個月,開源社區(qū)雖然在持續(xù)進步,但閉源模型的性能軌跡正在以更陡峭的速度加速。差距不是在收窄,而是在擴大?!蓖瑫r點出了當前開源模型的三個核心短板:

過度依賴普通注意力機制導致長序列效率低下、后訓練算力投入不足、Agent場景下的泛化能力差。但DeepSeek的態(tài)度很明確,問題有解,而V3.2就是他們給出的答案。

1

V3.2:高效主力,把自我進化用在通用效率上

V3.2是9月發(fā)布的實驗版V3.2-Exp的正式繼任者,目標是平衡推理能力與輸出成本。

在推理類Benchmark測試中,V3.2達到了GPT-5水平:AIME 2025數學競賽93.1%(GPT-5為94.6%),HMMT 2025二月賽92.5%(GPT-5為88.3%),LiveCodeBench代碼評測83.3%(GPT-5為84.5%)。相比Kimi-K2-Thinking,V3.2在保持相近性能的同時,輸出Token量大幅降低——嚴格的Token約束和長度懲罰讓它更省、更快、更便宜。


V3.2在架構上的核心改動是引入了DeepSeek Sparse Attention(DSA)。這項技術在9月的V3.2-Exp中首次亮相,用稀疏注意力替代傳統(tǒng)的全量注意力,將計算復雜度從O(L2)降到O(Lk)。

V3.2-Exp上線兩個月后,DeepSeek通過多個維度確認了DSA的有效性:標準Benchmark與V3.1-Terminus基本持平,ChatbotArena的Elo評分接近,第三方長上下文評測反而高出4分。這意味著DeepSeek在底層架構創(chuàng)新上走對了路,稀疏注意力可以在不損失性能的前提下大幅提升效率。


V3.2還有一個重要突破,這是DeepSeek首個將“思考”與“工具調用”融合的模型。之前的推理模型(包括OpenAI的o系列)在思考模式下無法調用工具,V3.2打破了這個限制,同時支持思考模式和非思考模式的工具調用。


技術報告中篇幅最大的部分是Agent能力的訓練方法。DeepSeek構建了一套大規(guī)模的Agent任務合成流水線,覆蓋1800+環(huán)境和85000+復雜指令。

這套流水線的核心設計哲學是“難解答,易驗證”。以報告中的旅行規(guī)劃任務為例:復雜約束組合讓搜索空間巨大,但驗證方案是否滿足約束卻很簡單。這種特性天然適合強化學習,模型可以通過大量嘗試獲得明確的對錯反饋,不需要人工標注。


效果驗證很有說服力,只用合成數據做RL的模型,在Tau2Bench、MCP-Mark等Agent基準上顯著提升,而只在真實環(huán)境做RL的模型,這些指標幾乎沒有變化。

值得注意的是,官方特別強調,V3.2并沒有針對這些測試集的工具進行特殊訓練,但在Agent評測中仍達到開源最高水平。這說明模型的泛化能力是真實的,不是靠刷榜優(yōu)化出來的。

1

V3.2-Speciale:極限推理,把自我驗證用在高階邏輯上

Speciale是V3.2的"長思考增強版"。如果說V3.2通過嚴格的Token約束來優(yōu)化效率,Speciale則反其道而行——放寬長度限制,鼓勵模型進行更深度的推理。

技術報告中的Table 3很有意思:同樣的任務,Speciale的輸出Token量顯著高于其他模型。比如在AIME 2025上,GPT-5 High輸出13k tokens,Gemini 3.0 Pro輸出15k,而Speciale輸出23k;在Codeforces上差距更大,Speciale輸出77k tokens,是Gemini的3.5倍。

雖然Speciale的Token輸出量極大,但得益于DeepSeek的定價策略和DSA帶來的效率提升,即便算上這些額外的"思考過程",其最終使用成本依然碾壓對手:比GPT-5便宜約25倍($0.4 vs $10),比Gemini 3.0 Pro便宜約30倍($12),比Claude Opus 4.5便宜約62倍($25)。

Speciale的意義不只是“讓模型想更久”,而是驗證了一個重要的假設,對推理“過程”的監(jiān)督,能否從數學證明泛化到更廣泛的領域?

上周剛發(fā)布的DeepSeekMath-V2提出了“生成器-驗證器”雙模型架構,生成器負責產出證明,驗證器評估證明的嚴謹性和完整性,驗證結果作為reward信號反饋給生成器。這套機制的關鍵創(chuàng)新在于如何保持“生成-驗證差距”,當生成器變強后,驗證器也需要同步提升。DeepSeek的解決方案是動態(tài)擴展驗證計算,用更多計算資源自動標注“難以驗證”的證明,持續(xù)合成高難度訓練數據,實現模型的可持續(xù)自我進化。

Speciale整合了Math-V2的數據集和獎勵方法,不只追求最終答案正確,更追求推理過程的嚴謹性和完整性。它將這套原本用于數學定理證明的“過程監(jiān)督”,成功遷移到了代碼生成和通用邏輯任務中。 這意味著“自我驗證”不是數學領域的特例,而是一種可泛化的能力提升范式。結果也相當不錯:


1

不缺算力的DeepSeek會帶來什么?

有網友評論說,每篇DeepSeek論文最重要的部分永遠是“結論、局限性與未來工作”部分。這次的技術報告也不例外,他們說:“首先,由于總訓練FLOPs較少,DeepSeek-V3.2 的世界知識廣度仍落后于領先的閉源模型。我們計劃在后續(xù)版本中,通過擴大預訓練算力來彌補這一知識差距?!?/b>


報告中承認,由于總訓練 FLOPs 較少,V3.2 的世界知識廣度仍落后于 Gemini 3.0 Pro。但 DeepSeek 的選擇并不是等待一個更大的基礎模型,而是先把方法論打磨到極致,用一年時間,通過合成數據、自我驗證和大規(guī)模 RL,把后訓練的上限真正跑出來。

從這次的發(fā)布也能看出這條路線的成果:

  • V3.2 將“自我進化式工程”(高 RL 預算、合成數據閉環(huán))應用在通用效率上;

  • Speciale 則把過程獎勵與自我驗證機制推向高階邏輯推理。

兩者共同指向同一個方向:未來的模型不再依賴人力堆砌,而是依靠自我博弈實現持續(xù)演進。

下一步就是擴大預訓練算力來彌補知識差距。這也讓人聯想,一是如果DeepSeek真把算力補上來,會發(fā)生什么?二是,這些新的算力資源從哪里來?

回頭看過去一年的技術路徑,Janus的多模態(tài)統(tǒng)一架構、OCR的視覺壓縮記憶、NSA的長上下文效率、Math-V2的自我驗證……這些創(chuàng)新都是在V3這個基座上迭代出來的。

那么,一個參數更大、訓練 FLOPs 更多的 V4,再疊加這些已經驗證有效的方法論,會出現怎樣的化學反應?

一個合理、甚至是大膽的預期是,當 V4 或 R2 到來時,我們看到的可能已經不是傳統(tǒng)意義上的“更強語言模型”,而是一個能夠感知多模態(tài)環(huán)境、具備更長期記憶、并能在真實交互中持續(xù)進化的系統(tǒng)。如今發(fā)生在合成環(huán)境中的自我博弈,未來可能會延伸到真實環(huán)境的在線學習。

而在算力上,在今天英偉達頻繁形容其中國市場份額已經歸零的背景下,繼續(xù)scaling需要的算力資源看起來不太能夠靠H800們提供,下一代模型會用什么樣的更大的算力資源訓練,如果這些算力缺口可以被補齊,完全形態(tài)的DeepSeek下一代模型會是什么樣?這些顯然更重要,也更讓人產生聯想。


點個愛心,再走 吧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
太幻滅了!章小蕙參加呂良偉70歲生日宴,真人又老又胖,頸紋好深

太幻滅了!章小蕙參加呂良偉70歲生日宴,真人又老又胖,頸紋好深

娛圈小愚
2025-12-25 14:15:00
馬刺三殺雷霆豪取8連勝!文班19+11 ??怂?9分 SGA19中7

馬刺三殺雷霆豪取8連勝!文班19+11 ??怂?9分 SGA19中7

云隱南山
2025-12-26 06:17:03
目前廣東隊很像上賽季16連勝的上海隊

目前廣東隊很像上賽季16連勝的上海隊

大眼瞄世界
2025-12-25 22:01:27
王君正率中共代表團訪問馬來西亞、斯里蘭卡

王君正率中共代表團訪問馬來西亞、斯里蘭卡

新華社
2025-12-25 17:45:02
鄭麗文滿意度出爐,盧秀燕力挺江啟臣或落空!傅崐萁再獲重用!

鄭麗文滿意度出爐,盧秀燕力挺江啟臣或落空!傅崐萁再獲重用!

陳博世財經
2025-12-25 14:31:54
被捧為“神藥”的它,說明書要改了!小心抑郁、自殺傾向……

被捧為“神藥”的它,說明書要改了!小心抑郁、自殺傾向……

環(huán)球網資訊
2025-12-25 19:54:52
僅剩6天!深圳一、二檔醫(yī)保報銷額度即將清零重置!

僅剩6天!深圳一、二檔醫(yī)保報銷額度即將清零重置!

深圳本地寶
2025-12-25 22:40:52
“南京義烏商品城”2026年1月1日起更名為“江寧大學城商業(yè)廣場”

“南京義烏商品城”2026年1月1日起更名為“江寧大學城商業(yè)廣場”

現代快報
2025-12-25 20:38:39
常規(guī)賽第6輪|四連勝!多點開花! 浙江方興渡大勝遼寧本鋼

常規(guī)賽第6輪|四連勝!多點開花! 浙江方興渡大勝遼寧本鋼

浙江廣廈籃球俱樂部
2025-12-25 22:54:22
你是咋意識到自己沒見過世面的?網友:書里的楊桃饞了我二十多年

你是咋意識到自己沒見過世面的?網友:書里的楊桃饞了我二十多年

解讀熱點事件
2025-10-06 00:05:03
中國的社零增速,已經連降了6個月,轉負甚至就在眼前

中國的社零增速,已經連降了6個月,轉負甚至就在眼前

子業(yè)一說財經
2025-12-23 15:21:31
第一批免簽去俄羅斯的中產傻眼了

第一批免簽去俄羅斯的中產傻眼了

風向觀察
2025-12-16 18:26:08
當白菜買呢?傳阿里巴巴將采購五萬顆MI308芯片

當白菜買呢?傳阿里巴巴將采購五萬顆MI308芯片

熱點科技
2025-12-24 14:00:34
北京連下六道指令,陜西硬抗整整四年,最高指示:讓749局來

北京連下六道指令,陜西硬抗整整四年,最高指示:讓749局來

小哥很OK
2025-12-12 14:33:01
傷病猛于虎!膝蓋外掰+三核心倒下,西部最慘球隊無爭議啊

傷病猛于虎!膝蓋外掰+三核心倒下,西部最慘球隊無爭議啊

球童無忌
2025-12-25 21:18:28
特朗普大消息,支持率大幅下降接近歷史最低!美聯儲降1月息懸了

特朗普大消息,支持率大幅下降接近歷史最低!美聯儲降1月息懸了

前沿天地
2025-12-26 05:44:37
12.26日早評|突然漲價!光伏大消息,A股周五加油!

12.26日早評|突然漲價!光伏大消息,A股周五加油!

龍行天下虎
2025-12-26 03:06:36
博主:海牛門將韓镕澤、成都中場嚴鼎皓即將加盟遼寧鐵人

博主:海牛門將韓镕澤、成都中場嚴鼎皓即將加盟遼寧鐵人

懂球帝
2025-12-26 00:29:13
陳都靈小腳丫好白嫩干凈

陳都靈小腳丫好白嫩干凈

東方不敗然多多
2025-12-26 00:11:14
要不是有喜馬拉雅山攔著,這回中國倒大霉了!

要不是有喜馬拉雅山攔著,這回中國倒大霉了!

霹靂炮
2025-12-25 22:40:44
2025-12-26 07:32:49
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎,歡迎來到這個星球。
2741文章數 10422關注度
往期回顧 全部

數碼要聞

2.59萬-5.19萬!小米米家中央空調Pro雙風輪系列發(fā)布:最高8匹一拖六

頭條要聞

韓國"最毒"財閥千金被捕 韓國人稱"經過她身邊就會死"

頭條要聞

韓國"最毒"財閥千金被捕 韓國人稱"經過她身邊就會死"

體育要聞

約基奇有多喜歡馬?

娛樂要聞

朱孝天把阿信好意當球踢!

財經要聞

新規(guī)來了,年化超24%的小貸被即刻叫停

科技要聞

小米17Ultra發(fā)布,徠卡2億像素 ,6999元起

汽車要聞

速來!智界在上海西岸準備了年末潮流盛典

態(tài)度原創(chuàng)

旅游
數碼
親子
藝術
軍事航空

旅游要聞

2℃天安門實錄:游客全副武裝,只為這抹紅!

數碼要聞

年終復盤不用愁,鴻蒙電腦讓高效貫穿每一刻

親子要聞

首都兒研所又出狠貨「兒童霜」!新華網力薦,北京媽媽排隊買...

藝術要聞

William Dyce:19世紀蘇格蘭重要的畫家

軍事要聞

澤連斯基版“和平計劃”透露哪些信息

無障礙瀏覽 進入關懷版