国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek-3.2年終壓軸,追上OpenAI,遇上Gemini,算力正在影響后勁

0
分享至

DeepSeek全年壓軸的來了。

今天,它同時發(fā)布了兩個正式版模型:DeepSeek-V3.2 ,與GPT-5有得一拼;和 DeepSeek-V3.2-Speciale,勝過GPT-5,推理熟練程度達到了Gemini-3.0-Pro的水平 ,在國際奧數(shù)等比賽中達到金牌水準(zhǔn)。

經(jīng)過整整一年,DeepSeek從年初以最快的速度和最低的成本復(fù)刻出推理模型o1,到年底追上OpenAI,號稱推理模型全球領(lǐng)先。不過,它以后需要對標(biāo)更強的Gemini、對標(biāo)它長期學(xué)習(xí)的DeepMind了。而且,算力正在限制中國開源模型進一步追趕的后勁,在預(yù)訓(xùn)練和后訓(xùn)練方面已經(jīng)表現(xiàn)出來。

今年,雖然沒有發(fā)布期待中的V4,但是,DeepSeek用V3一直打到年底,也基本完成了使命。正如它所說:“DeepSeek-V3.2 模型在智能體評測中達到了當(dāng)前開源模型的最高水平,大幅縮小了開源模型與閉源模型的差距!痹诠_的推理類基準(zhǔn)測試中,DeepSeek-V3.2 達到了 GPT-5的水平,僅略低于 Gemini-3.0-Pro。


DeepSeek-V 3.2-Speciale,要展示出它才是2025年真正的學(xué)霸。在Gemini和OpenAI先后都達到了奧數(shù)等一系列中學(xué)生頂級競賽冠軍水平之后,Speciale也迅速展示出,它在國際、中國、美國一系列最頂級的競賽中,都可以達到最高水平。


中國的開源模型,以往與美國先進閉源模型相比,在回答相同難度的問題時,耗費的token。

這一次,它部分改掉了“啰嗦”的毛病。大家以后日常使用的V3.2 ,在問答和通用智能體任務(wù)中,可以平衡推理能力與輸出長度。相比 Kimi-K2-Thinking,V3.2的輸出長度大幅降低,顯著減少了計算開銷與用戶等待時間。

不過它也提醒,在高度復(fù)雜任務(wù)上,Speciale模型大幅優(yōu)于標(biāo)準(zhǔn)版本,但消耗的Tokens也顯著更多,成本更高。目前,DeepSeek-V3.2-Speciale僅供研究使用,不支持工具調(diào)用,暫未針對日常對話與寫作任務(wù)進行專項優(yōu)化。

好在通過DSA(DeepSeek稀疏注意力)機制,DeepSeek能控制住推理中的每百萬token成本。結(jié)合優(yōu)化實現(xiàn),DSA在長上下文場景中實現(xiàn)了端到端的顯著加速。下圖展示了DeepSeek-V3.1-Terminus 與 DeepSeek-V3.2 的 token 計算成本隨序列中 token 位置的變化關(guān)系。這些成本數(shù)據(jù)來自H800GPU真實部署服務(wù)的基準(zhǔn)測試估算,租賃價格為每GPU小時2美元。


DeepSeek指出,盡管中國正在主導(dǎo)的開源社區(qū)很熱鬧,如 MiniMax、月之暗面、智譜等,仍在持續(xù)推進研究和模型能力,但美國的閉源的專有大模型(Anthropic、DeepMind、OpenAI)的性能曲線“在近幾個月以更陡峭的速度加速攀升!

人們一直以為,開源模型將逐步逼近并最終追平閉源模型,但實際上,開源模型與閉源模型之間的性能差距并沒有收斂,反而呈現(xiàn)出擴大的趨勢。DeepSeek警告中國開源模型:“在越來越復(fù)雜的任務(wù)中,專有閉源系統(tǒng)展現(xiàn)出了顯著更強的能力優(yōu)勢,并在處理高復(fù)雜、多步驟、交互式問題時體現(xiàn)出的領(lǐng)先幅度在擴大!

DeepSeek分析了開源模型的三項關(guān)鍵缺陷:第一,在架構(gòu)層面,開源模型對原版注意力機制(vanilla attention mechanisms)的主要依賴,極大地限制了其在處理長序列任務(wù)中的效率。這種低效性成為可擴展部署和有效后訓(xùn)練的重大障礙。第二,在資源配置方面,開源模型在后訓(xùn)練階段缺乏足夠的計算資源投入,從而限制了其在高難任務(wù)上的表現(xiàn)。最后,在AI智能體方面,開源模型在泛化能力和指令追隨能力上明顯落后于閉源的專有模型,這阻礙了其在真實部署中的實際效果。

為了解決這些關(guān)鍵的局限,DeepSeek首先提出了DSA,大幅降低計算復(fù)雜度,有效緩解了效率瓶頸,即便在長上下文場景中也能保持模型性能。第二,開發(fā)了一套穩(wěn)定且可擴展的強化學(xué)習(xí)協(xié)議,使得在后訓(xùn)練階段可以大幅擴展計算投入。值得注意的是,該框架分配的后訓(xùn)練計算預(yù)算超過了預(yù)訓(xùn)練成本的10%,從而解鎖了更高級的能力。

但更重要的是,V3.2首次將思考融入工具使用,并且同時支持思考模式與非思考模式的工具調(diào)用!拔覀兲岢隽艘环N大規(guī)模Agent訓(xùn)練數(shù)據(jù)合成方法,構(gòu)造了大量「難解答,易驗證」的強化學(xué)習(xí)任務(wù)(1800+ 環(huán)境,85,000+ 復(fù)雜指令),大幅提高了模型的泛化能力。”

如下表所示,V3.2 在智能體評測中達到了當(dāng)前開源模型的最高水平。值得說明的是,它并沒有針對這些測試集的工具進行特殊訓(xùn)練,所以“我們相信,V3.2 在真實應(yīng)用場景中能夠展現(xiàn)出較強的泛化性。”


智能體能力,光當(dāng)學(xué)霸拼考分不行,還要看下實際解決問題的能力。V3.2還特意演示了一個旅行助手提供的杭州西溪濕地的旅游攻略生成過程。那些動不動能解奧數(shù)題的智能體,目前面對的最大挑戰(zhàn),其實是能不能讓外賣小哥送上一杯奶茶。智能體完成真實世界里真實任務(wù)的能力,正在日益變得比獲得高分更重要。

DeepSeek也承認(rèn)了自己的不足,尤其是與Gemini-3.0-Pro等前沿閉源模型相比,仍然存在一些局限。

第一,由于總體訓(xùn)練FLOPs更少,V3.2在世界知識的覆蓋廣度上仍落后于領(lǐng)先的專有閉源模型。我們計劃在后續(xù)迭代中通過擴大預(yù)訓(xùn)練算力規(guī)模來彌補這一知識差距。

第二,token效率仍然是一項挑戰(zhàn)。V3.2通常需要更長的生成軌跡(即更多tokens)才能達到像Gemini-3.0-Pro這樣的模型所具備的輸出質(zhì)量。未來的工作將聚焦于提升模型推理鏈的智能密度,以改善效率。

第三,在解決復(fù)雜任務(wù)的能力上,它的表現(xiàn)仍不及前沿模型,這驅(qū)使我們繼續(xù)改進基礎(chǔ)模型并優(yōu)化后訓(xùn)練方法。

參考

V3.2技術(shù)報告

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
株洲殺豬宴失控!央視新華社接連怒批,句句戳心窩,這下麻煩大了

株洲殺豬宴失控!央視新華社接連怒批,句句戳心窩,這下麻煩大了

以茶帶書
2026-01-24 23:18:39
中國隊丟冠僅1夜,隊長赴英超!王鈺棟遭批:態(tài)度有問題 基本廢了

中國隊丟冠僅1夜,隊長赴英超!王鈺棟遭批:態(tài)度有問題 基本廢了

侃球熊弟
2026-01-25 10:37:48
1970年陳獨秀女兒被批斗后,打算偷渡香港,結(jié)果剛上岸就遇到警察

1970年陳獨秀女兒被批斗后,打算偷渡香港,結(jié)果剛上岸就遇到警察

鑒史錄
2026-01-22 18:43:41
日媒:最新民調(diào)顯示高市內(nèi)閣支持率暴跌10%,解散眾議院決定引不滿

日媒:最新民調(diào)顯示高市內(nèi)閣支持率暴跌10%,解散眾議院決定引不滿

環(huán)球網(wǎng)資訊
2026-01-25 16:06:11
美國“退群”,加州“入群”

美國“退群”,加州“入群”

極目新聞
2026-01-24 18:34:19
太猛了,特斯拉中國官宣降價!

太猛了,特斯拉中國官宣降價!

XCiOS俱樂部
2026-01-24 20:44:49
美國放話:誰敢攔截軍售,就是宣戰(zhàn)!中國用實力劃下紅線!

美國放話:誰敢攔截軍售,就是宣戰(zhàn)!中國用實力劃下紅線!

華山穹劍
2026-01-23 20:19:29
多地將器官捐獻納入“見義勇為”評定,專家稱概念擴展需審慎

多地將器官捐獻納入“見義勇為”評定,專家稱概念擴展需審慎

澎湃新聞
2026-01-24 22:55:05
隊記:這應(yīng)該是詹姆斯第一次意識到,自己已經(jīng)不再受湖人高層歡迎

隊記:這應(yīng)該是詹姆斯第一次意識到,自己已經(jīng)不再受湖人高層歡迎

移動擋拆
2026-01-25 06:41:41
廣州人注意!陽性率上升,傳染性強!目前暫無疫苗或者特效藥!

廣州人注意!陽性率上升,傳染性強!目前暫無疫苗或者特效藥!

羊城攻略
2026-01-24 22:58:42
張宗遜明明戰(zhàn)功高、資歷老,卻沒能評上大將,這事兒和惹惱兩大元帥毫無關(guān)系,真正原因另有他處

張宗遜明明戰(zhàn)功高、資歷老,卻沒能評上大將,這事兒和惹惱兩大元帥毫無關(guān)系,真正原因另有他處

清風(fēng)鑒史
2025-12-24 13:59:10
殺豬宴后呆呆首場直播:辟謠不是23歲而是91年,未婚,并未入編!

殺豬宴后呆呆首場直播:辟謠不是23歲而是91年,未婚,并未入編!

天天熱點見聞
2026-01-25 08:46:20
平均每人負(fù)債1300萬,書記吳仁寶去世10年后,華西村的現(xiàn)況如何?

平均每人負(fù)債1300萬,書記吳仁寶去世10年后,華西村的現(xiàn)況如何?

哄動一時啊
2026-01-24 21:29:54
離譜!挪威帝王蟹堆成山,中國人買一只卻要花上千,原因太現(xiàn)實

離譜!挪威帝王蟹堆成山,中國人買一只卻要花上千,原因太現(xiàn)實

掉了顆大白兔糖
2026-01-25 07:34:58
2025年新生兒僅有792萬,一個重要原因是育兒的廉價勞動力已經(jīng)不足了

2025年新生兒僅有792萬,一個重要原因是育兒的廉價勞動力已經(jīng)不足了

風(fēng)向觀察
2026-01-25 12:07:51
美國運動員霍諾德成功徒手攀爬508米高臺北101,耗時約1小時31分鐘

美國運動員霍諾德成功徒手攀爬508米高臺北101,耗時約1小時31分鐘

瀟湘晨報
2026-01-25 12:00:17
突發(fā)!美聯(lián)儲,大消息!

突發(fā)!美聯(lián)儲,大消息!

魏家東
2026-01-25 14:29:25
A股:人民日報罕見就股市發(fā)聲!證監(jiān)會監(jiān)管升溫,下周迎更大級別變盤

A股:人民日報罕見就股市發(fā)聲!證監(jiān)會監(jiān)管升溫,下周迎更大級別變盤

股市皆大事
2026-01-25 16:52:15
日本U23主帥:面對更年長、對抗強硬的中國隊,我們踢出了該有的水平

日本U23主帥:面對更年長、對抗強硬的中國隊,我們踢出了該有的水平

懂球帝
2026-01-25 01:51:15
安東尼奧即將成為國奧主帥,兩年后將挑戰(zhàn)40年魔咒

安東尼奧即將成為國奧主帥,兩年后將挑戰(zhàn)40年魔咒

澎湃新聞
2026-01-25 14:07:05
2026-01-25 19:07:00
未盡研究 incentive-icons
未盡研究
新能源、人工智能、合成生物、地緣X
292文章數(shù) 61關(guān)注度
往期回顧 全部

科技要聞

黃仁勛在上海逛菜市場,可能惦記著三件事

頭條要聞

游客自稱爬衡山時掛脖子上80克金牌遺失 價值超10萬元

頭條要聞

游客自稱爬衡山時掛脖子上80克金牌遺失 價值超10萬元

體育要聞

中國足球不會一夜變強,但他們已經(jīng)創(chuàng)造歷史

娛樂要聞

王玉雯方嚴(yán)正聲明 劇方回應(yīng):涉事人員已被開除

財經(jīng)要聞

隋廣義等80人被公訴 千億騙局進入末路

汽車要聞

別克至境E7內(nèi)飾圖曝光 新車將于一季度正式發(fā)布

態(tài)度原創(chuàng)

親子
數(shù)碼
手機
教育
公開課

親子要聞

她是折翼的蝴蝶寶貝,卻也是被父母捧在手心的無價之寶!素材來源

數(shù)碼要聞

AMD核顯規(guī)劃分化,中端APU將沿用RDNA3.5舊架構(gòu)直至2029年

手機要聞

榮耀泡泡瑪特聯(lián)名手機今日開售:首銷即引爆,線下再現(xiàn)排隊熱潮

教育要聞

看似復(fù)雜,尖子生一個技巧口算

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版