国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ChatGPT 三周年遭 DeepSeek 暴擊,23 頁技術(shù)報告藏著開源登頂?shù)娜棵孛?/h1>
0
分享至

ChatGPT 誕生三周年之際,DeepSeek 送上「慶生禮物」。

:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。這兩個模型不僅在推理能力上直逼 GPT-5 和 Gemini-3.0-Pro,更重要的是,它們解決了一個困擾開源模型很久的問題:

怎么讓 AI 既會深度思考,又會熟練使用工具?


新模型省流版如下

DeepSeek-V3.2(標準版):主打性價比與日常使用,推理能力達到 GPT-5 水平,比 Kimi-K2-Thinking 輸出更短、更快且更省成本,并首次實現(xiàn)「邊思考邊用工具」。官網(wǎng)、APP、API 均已升級到該版本,適用于日常問答、寫作和 Agent 任務。

DeepSeek-V3.2-Speciale(終極增強版):面向 AI 能力上限探索,性能媲美 Gemini-3.0-Pro,在 2025 IMO、IOI、ICPC 中均獲金牌(IOI 排人類第 10,ICPC 排第 2)。僅提供臨時 API,思考鏈長、Token 消耗大、成本高,不支持工具調(diào)用,也未優(yōu)化日常對話,服務至 2025 年 12 月 15 日截止。

兩個模型的權(quán)重都已經(jīng)在 HuggingFace 和 ModelScope 上開源,你可以下載到本地部署。

慢、笨、呆?DeepSeek V3.2 上新黑科技

過去幾個月,AI 圈出現(xiàn)了一個明顯的趨勢:閉源模型越跑越快,開源模型卻有點跟不上節(jié)奏了。DeepSeek 團隊分析后發(fā)現(xiàn),開源模型在處理復雜任務時有三個核心瓶頸:架構(gòu)問題、資源分配以及智能體能力。

針對這三個問題,DeepSeek 這次拿出了三個大招。

如果你用過一些 AI 模型處理超長文檔,可能會發(fā)現(xiàn)速度越來越慢,甚至直接卡死。這就是傳統(tǒng)注意力機制的鍋。

傳統(tǒng)注意力機制的邏輯是:每個字都要和之前所有的字計算相關(guān)性。文檔越長,計算量就越大。就像你在一個有 1000 人的微信群里找人聊天,每次說話前都要挨個確認這 1000 個人是不是你要找的那個,這顯然是一件十分費勁的事情。

DeepSeek 這次引入的 DSA(稀疏注意力機制)換了個思路:不需要關(guān)注每一個字,只關(guān)注那些真正重要的部分。


它的核心是一個叫「閃電索引器」的東西。

這個索引器會快速給每個字打個分,然后只挑出分數(shù)最高的那些字來計算注意力。就像你在 1000 人的群里,先用搜索功能篩出名字里帶「張」的,然后再從這 50 個人里找你要的那個張三,效率立馬上去了。

更聰明的是,閃電索引器使用的計算資源很少,而且支持 FP8 精度計算 (一種低精度但高效的計算方式),所以它本身不會成為新的性能瓶頸。

實際效果呢?V3.2 支持 128K 上下文長度,相當于一本中篇小說的長度,但處理速度和效率都大幅提升。而且根據(jù)官方在各種場景下的測試,DSA 版本的表現(xiàn)完全不輸傳統(tǒng)注意力機制,有些場景甚至更好。

V3.2 是在上一版 V3.1-Terminus 的基礎(chǔ)上,通過持續(xù)訓練引入 DSA 的。整個過程分兩個階段,都用了和 V3.1-Terminus 擴展到 128K 時一模一樣的數(shù)據(jù)分布,保證了模型能力的平滑過渡。


此外,光有好架構(gòu)還不夠,訓練也得跟上。

開源模型和閉源模型之間的另一道鴻溝在于:開源模型在訓練后期投入的計算資源太少了。就像蓋房子,預算花完了,裝修就隨便搞搞,最后住進去發(fā)現(xiàn)到處是問題。

技術(shù)報告顯示,DeepSeek 在后訓練階段投入的計算預算超過了預訓練成本的 10%。但砸錢也是門技術(shù)活。DeepSeek 構(gòu)建了一個「穩(wěn)定且可擴展的強化學習訓練框架」,這個框架有兩個特點。

一是穩(wěn)定。強化學習訓練本身就不太穩(wěn)定,容易出現(xiàn)訓練崩潰、性能波動等問題。DeepSeek 的框架能在大規(guī)模計算下保持訓練穩(wěn)定,這本身就是技術(shù)突破。

二是可擴展。這個框架允許后訓練階段的計算預算大幅超過傳統(tǒng)做法,從而釋放出模型的高級能力。

具體訓練流程分兩步走。

第一步是「專家蒸餾」。他們在數(shù)學、編程、邏輯推理、智能體任務等六大專業(yè)領(lǐng)域,分別訓練出專用的專家模型。每個專家模型都在大規(guī)模強化學習計算下訓練完成,而且分別針對「思維模式」(長鏈式思考) 和「非思維模式」(直接回答) 生成訓練數(shù)據(jù)。


專家模型訓練好后,就用它們來生成最終模型的訓練數(shù)據(jù)。實驗結(jié)果顯示,用這些專家蒸餾數(shù)據(jù)訓練出的模型,性能只是略低于對應的專家模型,而且這點差距在后續(xù)的強化學習訓練中可以被抹平。

第二步是「混合強化學習訓練」。DeepSeek 繼續(xù)使用 GRPO(Group Relative Policy Optimization) 作為主要訓練算法,把推理任務、智能體任務和人類偏好對齊任務統(tǒng)一整合到一個強化學習階段。

這種統(tǒng)一訓練的好處是既能提升不同任務領(lǐng)域的性能,又能避免傳統(tǒng)多階段訓練中常見的「災難性遺忘」問題。你可以把它理解為:AI 在學新技能的同時,不會把舊技能忘掉。

在推理和智能體任務中,他們用基于規(guī)則的結(jié)果獎勵、輸出長度懲罰、語言一致性獎勵來引導模型學習。而在通用任務中,則用生成式獎勵模型,根據(jù)每個提示分別定義評價標準。

V3.2 就是在這種混合強化學習下,經(jīng)過上千步訓練得到的穩(wěn)定版本。而 Speciale 版本則更激進,它只在推理任務數(shù)據(jù)上訓練,降低了輸出長度懲罰,還引入了 DeepSeekMath-V2 的數(shù)據(jù)集和獎勵機制,進一步增強數(shù)學證明能力。

結(jié)果就是:V3.2 的推理能力直接追上了 GPT-5,而 Speciale 版本因為放開了思考長度限制,性能更是逼近 Gemini-3.0-Pro。

思考+工具調(diào)用:AI 學會「邊想邊做」了

以前的 DeepSeek 模型有個尷尬的問題:進入「思考模式」后,就不能調(diào)用搜索、代碼執(zhí)行等工具了。就像一個人陷入沉思后,手就不會動了。這顯然不符合我們解決復雜問題的方式。

現(xiàn)實中我們遇到難題時,往往是邊想邊查資料,邊分析邊驗證,思考和行動是交織在一起的。AI 也應該如此。

DeepSeek 團隊發(fā)現(xiàn),如果直接復刻 DeepSeek-R1 的策略 (收到第二輪消息后丟棄此前的推理內(nèi)容),會嚴重降低 Token 使用效率。這種方法會迫使模型在每次調(diào)用工具時都要從頭開始重復推理整個問題,造成資源浪費。


他們專門為工具調(diào)用場景設計了一套「思考上下文管理機制」。

核心邏輯是:只有在用戶發(fā)出新消息時,歷史推理內(nèi)容才會被清除。如果只是追加了工具相關(guān)的信息 (比如工具輸出結(jié)果),則保留此前的推理內(nèi)容,讓推理過程可以持續(xù)。

同時,當推理內(nèi)容被移除時,工具調(diào)用歷史和工具返回的結(jié)果仍會保留在上下文中,確保模型在后續(xù)推理中仍能基于已有信息進行判斷。

這樣一來,AI 就可以:先思考一會兒,調(diào)用工具 (比如搜索、運行代碼),看到結(jié)果后繼續(xù)思考,再調(diào)用工具,如此往復。而且歷史推理內(nèi)容會保留,不需要每次調(diào)工具后都從頭重新思考。

官方給的例子很生動:規(guī)劃一個復雜的三天旅行,要滿足各種預算約束、評分要求、不重復原則。比如第二天,如果訂了豪華酒店 (800 元以上),那午餐晚餐總費用不能超過 350 元,餐廳評分都要 4.0 分以上,下午景點門票要低于 120 元。如果是中高檔酒店 (500 到 800 元),至少一家餐廳評分要達到 4.0 分,景點門票要低于 180 元。

這種任務需要 AI 反復查詢酒店、餐廳、景點信息,同時進行邏輯推理和約束檢查。V3.2 可以邊搜索邊思考,最終給出完美答案。


不過要注意一點:有些智能體框架 (比如 Roo Code 或 Terminus) 是通過用戶消息來模擬工具交互的。這種架構(gòu)由于其上下文管理方式,可能無法充分利用推理內(nèi)容保留機制的優(yōu)勢。對于這類系統(tǒng),官方建議優(yōu)先使用「非思維模式」。

V3.2 的思考模式已經(jīng)支持 Claude Code,可以在命令行工具中使用。但 Cline、RooCode 等使用非標準工具調(diào)用的組件還不太適配,使用時要注意。

在實現(xiàn)「思考+工具調(diào)用」的過程中,DeepSeek 還做了一個巧妙的設計叫「冷啟動」??紤]到手頭已有兩類數(shù)據(jù) (一種是帶推理過程的非智能體數(shù)據(jù),另一種是沒有推理過程的智能體任務數(shù)據(jù)),他們通過精心設計提示詞把兩者結(jié)合起來。

他們認為,模型已經(jīng)具備了較強的指令理解能力,只需通過明確的指令,就能讓模型在推理過程中自然地整合工具的執(zhí)行。這使得「工具使用」可以無縫融入到「推理過程」之中,實現(xiàn)冷啟動階段的能力融合。

大規(guī)模智能體任務:讓 AI 自己訓練自己

在提升大模型能力這件事上,DeepSeek 走了一條不太一樣的路——不是人類教 AI,而是讓 AI 自己訓練自己。

他們搭建了一條大規(guī)模的智能體任務流水線,創(chuàng)造了超過 1800 個虛擬環(huán)境和 8 萬多條任務。這些任務有個共同特點:難解答,但容易驗證。什么意思?就是題目很復雜,但答案對不對,一查就知道。這樣一來,AI 就可以無限制地刷題、改題、復盤,不斷強化自己的推理能力。


在這條流水線上,不同智能體扮演著不同角色:有的負責從互聯(lián)網(wǎng)挖掘知識、提出問題;有的負責生成各種答案;還有的負責驗證答案是否正確。只有通過驗證的數(shù)據(jù),才會進入訓練集。這讓模型越訓越聰明,而且不會學偏。

更硬核的是代碼領(lǐng)域。DeepSeek 直接從 GitHub 上抓取真實的 Issue 和修復補丁,讓智能體搭建測試環(huán)境、安裝依賴、運行測試用例,確保修 bug 真的有效、沒有引入新問題。經(jīng)過這一輪又一輪的自動化淬火,模型在多種編程語言里獲得了可實戰(zhàn)的能力。

最后,是最令人驚嘆的部分——通用智能體。它不僅能解題,還能自動生成任務、工具和驗證邏輯。給它一個任務類型,比如旅行規(guī)劃,它會自己搜集數(shù)據(jù)、生成工具、提升難度、迭代解法,直到形成完整的任務體系。最終,它創(chuàng)造出上千個環(huán)境和任務,真正實現(xiàn)了 AI 生成訓練 AI 的世界。

一句話總結(jié):DeepSeek 把訓練過程從「人喂數(shù)據(jù)」變成了「AI 創(chuàng)造數(shù)據(jù)、驗證數(shù)據(jù)、用數(shù)據(jù)變強」。這不僅提升了模型的邏輯能力,也讓 AI 開始具備一種以前不存在的特征——自我進化。

測試結(jié)果有多炸裂?


在推理能力測試上,V3.2 在 MMLU-Pro、GPQA Diamond、LiveCodeBench 等多個基準測試中的表現(xiàn)可與 GPT-5 和 Kimi-k2-thinking 媲美。而 Speciale 版本在這些測試中的得分則接近甚至超過 Gemini-3.0-Pro。


在智能體能力測試上,V3.2 在開源模型中達到了最高水平,大幅縮小了與閉源模型的差距。在 τ2-Bench 測試中,V3.2 讓模型本身充當用戶智能體,在航空類別得了 63.8 分,零售類別 81.1 分,電信類別 96.2 分。


對于 MCP 基準測試,他們使用函數(shù)調(diào)用格式。

測試過程中發(fā)現(xiàn) V3.2 經(jīng)常進行冗余的自我驗證操作,導致生成的操作軌跡過長。這種行為在 MCP-Mark GitHub 和 Playwright 評估等任務中,容易使上下文長度超出 128K 的限制,從而影響最終性能表現(xiàn)。

不過通過引入上下文管理策略,可以進一步提升模型表現(xiàn)。

即便存在這個問題,V3.2 的整體表現(xiàn)仍顯著優(yōu)于當前所有開源模型。而且這些基準測試中使用的環(huán)境和工具集,并未出現(xiàn)在模型的強化學習訓練階段,說明 V3.2 具備將推理策略泛化到「領(lǐng)域外智能體任務」的能力。

Speciale 版本的表現(xiàn)更是驚人。它通過支持更多推理 Token,取得了超越 Gemini-3.0-Pro 的性能。在未進行任何專項訓練的前提下,就在 2025 年 IOI、ICPC 世界總決賽拿到金牌水平的成績。

在 ICPC 世界總決賽中,Speciale 排名第 2;在 IOI 中排名第 10。而且結(jié)合 DeepSeekMath-V2 的方法后,Speciale 在復雜數(shù)學證明任務中的表現(xiàn)也非常出色,在 2025 年 IMO 和 CMO 也達到金牌門檻。


官方評估的是 CMO 2025 的英文版本。IMO 2025 與 CMO 2025 的題目及模型推理代碼已經(jīng)在 GitHub 上開源。

不過 Speciale 的 Token 使用效率顯著低于 Gemini-3.0-Pro。在訓練官方版本 V3.2 時,他們引入了更嚴格的 Token 限制,以降低部署成本與響應延遲,在性能與效率之間找到最優(yōu)平衡。

為驗證「AI 訓練 AI」到底有沒有用,他們做了兩組實驗。

第一組從合成的智能體任務里隨機抽了 50 個實例,讓各種前沿模型去做題,結(jié)果 V3.2-Exp 只答對了 12%,閉源最強也只有 62%,這說明這些任務不是「拼字游戲」,是真的難。

第二組實驗更狠,他們把 V3.2 的基礎(chǔ)模型放進去,只用合成任務做強化學習,不引入鏈式思考或其他訓練數(shù)據(jù)。最后結(jié)果顯示:基于合成數(shù)據(jù)的大規(guī)模強化學習顯著提升了模型在泛化任務上的表現(xiàn)。


那么 DeepSeek V3.2 還有改進空間嗎?

有的。

官方承認,V3.2 與頂級閉源模型 (比如 Gemini-3.0-Pro) 仍存在一定差距。

訓練總浮點運算量更少,導致 V3.2 在世界知識覆蓋廣度方面仍略顯不足。他們計劃在未來版本中通過擴大預訓練階段的計算資源投入,來逐步彌補這個短板。

Token 效率也是一個挑戰(zhàn)。和 Gemini-3.0-Pro 等模型相比,V3.2 往往需要更長的生成路徑 (也就是更多的 Token) 才能達到相似的輸出質(zhì)量。未來的工作重點之一,是優(yōu)化模型推理鏈中的「智能密度」,提升效率。

在解決復雜任務方面,V3.2 仍然不及最前沿模型,這也促使他們進一步優(yōu)化底層基礎(chǔ)模型與后訓練方法。(所以這是不是在暗示 V4? )


但考慮到這是開源模型,V3.2 的表現(xiàn)已經(jīng)相當炸裂了。

從 R1 到現(xiàn)在的 V3.2,DeepSeek 一直在證明一件事:開源模型不是閉源的廉價替代品,而是可以真正接近甚至超越閉源模型的存在。

這次 V3.2 的發(fā)布,不僅在推理能力上追平了 GPT-5,還實現(xiàn)了「思考+工具調(diào)用」的完美融合,同時在世界級競賽中拿到金牌。

更重要的是,這一切都是開源的。

任何人都可以部署到自己的服務器上,研究它的架構(gòu),甚至基于它做二次開發(fā)。AI 的未來,可能真的屬于開源。

技術(shù)報告已發(fā)布,感興趣的讀者可以在 DeepSeek 官網(wǎng)或 HuggingFace 查看完整論文:

DeepSeek-V3.2:https://huggingface.co/deepseek-ai/DeepSeek-V3.2

DeepSeek-V3.2-Speciale:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale

技術(shù)報告:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

歡迎加入 APPSO AI 社群,一起暢聊 AI 產(chǎn)品,獲取,解鎖更多 AI 新知

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關(guān)鏈接)


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
終局通告!高市政府希望送回大熊貓,中方對日判斷出錯了?

終局通告!高市政府希望送回大熊貓,中方對日判斷出錯了?

貓眼觀史
2025-12-19 22:27:11
退休金多少才能養(yǎng)活自己?3位老人同時說出這個數(shù),你達標了嗎?

退休金多少才能養(yǎng)活自己?3位老人同時說出這個數(shù),你達標了嗎?

蟬吟槐蕊
2025-12-19 11:20:22
突然爆火!浙大博士在杭州花40萬元買車庫,一批年輕人跑來上班,沒工資卻天天加班到凌晨……

突然爆火!浙大博士在杭州花40萬元買車庫,一批年輕人跑來上班,沒工資卻天天加班到凌晨……

環(huán)球網(wǎng)資訊
2025-12-17 17:49:28
“春季躁動”!緊盯三大主線,這份潛力股名單請收好

“春季躁動”!緊盯三大主線,這份潛力股名單請收好

證券市場周刊
2025-12-19 21:12:46
一夜消息:哈登或被交易,保羅下家概率出爐,水花有望再合體

一夜消息:哈登或被交易,保羅下家概率出爐,水花有望再合體

冷月小風風
2025-12-19 10:11:49
鄭麗文提名人選出爐,江啟臣未在名單中,盧秀燕動作耐人尋味!

鄭麗文提名人選出爐,江啟臣未在名單中,盧秀燕動作耐人尋味!

南宮一二
2025-12-19 13:53:50
11月中國訪日游客:56.3萬人次, 同比增長3%

11月中國訪日游客:56.3萬人次, 同比增長3%

新浪財經(jīng)
2025-12-17 20:01:07
萬豐海岸城檀府開盤55天去化率5%,陳波面臨考驗

萬豐海岸城檀府開盤55天去化率5%,陳波面臨考驗

地產(chǎn)K線官方
2025-12-19 16:21:07
楊鳴遞交“上訴”,意味深長,裁判無情徹底摧毀國籃顏面與尊嚴

楊鳴遞交“上訴”,意味深長,裁判無情徹底摧毀國籃顏面與尊嚴

煙潯渺渺
2025-12-20 05:34:43
斯諾克賽程:決出4強,中國3將對陣冠軍選手,2大TOP16登場!

斯諾克賽程:決出4強,中國3將對陣冠軍選手,2大TOP16登場!

劉姚堯的文字城堡
2025-12-19 08:44:14
究竟哪來這等膽量,愛沙尼亞向中國劃紅線,不切割俄國絕不談!

究竟哪來這等膽量,愛沙尼亞向中國劃紅線,不切割俄國絕不談!

天氣觀察站
2025-12-20 05:41:34
深度 | 光通信產(chǎn)業(yè)鏈,核心看這 8 大上市公司

深度 | 光通信產(chǎn)業(yè)鏈,核心看這 8 大上市公司

飛跑的鹿
2025-12-19 21:20:35
有事求中國,無事賣中國!如何應對兩面派鄰國?3招可化解于無形

有事求中國,無事賣中國!如何應對兩面派鄰國?3招可化解于無形

何氽簡史
2025-11-29 17:41:48
權(quán)威發(fā)布!2025年中國百強中學名單出爐!江蘇5所中學上榜!

權(quán)威發(fā)布!2025年中國百強中學名單出爐!江蘇5所中學上榜!

南京擇校
2025-12-17 07:08:50
釋永信被女徒弟爆料,凌晨4點去他房間,拿到皈依證就算師徒關(guān)系

釋永信被女徒弟爆料,凌晨4點去他房間,拿到皈依證就算師徒關(guān)系

漢史趣聞
2025-07-30 09:57:38
21分,賈明儒霸屏,賽后看看媒體專家咋說,山西男籃發(fā)文

21分,賈明儒霸屏,賽后看看媒體專家咋說,山西男籃發(fā)文

格斗江湖人
2025-12-20 05:19:03
1984年,葉劍英病情危重,中央已安排追悼會,危機時刻鐘南山一舉扭轉(zhuǎn)局面

1984年,葉劍英病情危重,中央已安排追悼會,危機時刻鐘南山一舉扭轉(zhuǎn)局面

文史明鑒
2025-12-19 18:18:20
比發(fā)福更可怕的是“中國式大媽三件套”,油膩又顯老,廉價感十足

比發(fā)福更可怕的是“中國式大媽三件套”,油膩又顯老,廉價感十足

地球記
2025-12-05 17:15:09
北京沒想到,天津也沒想到,現(xiàn)在的雄安,怎么突然這么火了!

北京沒想到,天津也沒想到,現(xiàn)在的雄安,怎么突然這么火了!

吃貨的分享
2025-12-19 16:01:22
被批“對美國不感恩”,谷愛凌回懟!

被批“對美國不感恩”,谷愛凌回懟!

湖報體育
2025-12-19 23:51:41
2025-12-20 07:04:49

AppSo incentive-icons
AppSo
讓智能手機更好用的秘密
5942文章數(shù) 26728關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時刻"還未到來

頭條要聞

普京:俄方愿在烏克蘭選舉期間暫時停止打擊

頭條要聞

普京:俄方愿在烏克蘭選舉期間暫時停止打擊

體育要聞

“惡龍”埃托奧,正在毀滅喀麥隆足球

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔心的事還是發(fā)生

財經(jīng)要聞

日元加息,恐慌來了?貨幣三國殺

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

數(shù)碼
藝術(shù)
旅游
本地
公開課

數(shù)碼要聞

機械大師E06臥式ITX機箱上市:支持200mm長半高顯卡,298元

藝術(shù)要聞

60幅流失海外的中國畫,件件精品

旅游要聞

打開深圳冬天的方式 來沙井“蠔”運當頭

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風骨

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版