国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek的小更新,暴打了OpenAI,追上了Gemini。

0
分享至


壞消息,開源模型和閉源模型的差距越來越大了。

好消息,DeepSeek 又出手了。

12 月 1 日,DeepSeek 發(fā)布了兩款新模型 —— DeepSeek V3.2 和 DeepSeek-V3.2-Speciale。


前者和 GPT-5 能打的有來有回,后面的高性能版更是直接把 GPT 爆了,開始和閉源模型天花板 —— Gemini 打了個五五開。

還在IMO 2025(國際數(shù)學(xué)奧林匹克)、CMO 2025(中國數(shù)學(xué)奧林匹克)等一系列比賽中拿下金牌。


這是這家公司今年第九次發(fā)布模型,雖然大家期待的 R2 還沒有來。


所以,DeepSeek 是怎么用更小的數(shù)據(jù),更少的顯卡,做出能和國際巨頭來抗衡的模型?

我們翻開了他們的論文,想把這件事給大家講清楚。

為了做到這個目標(biāo),DeepSeek 又整了不少新招:

先是把咱們的老朋友 DSA —— 稀疏注意力給轉(zhuǎn)正了。


這東西在之前的 V3.2-EXP 版本里出現(xiàn)過,當(dāng)時(shí)只是測了一下 DSA 會不會影響模型的性能,現(xiàn)在是真的把這玩意給放到了主力模型上。


大家平時(shí)和大模型聊天的時(shí)候會發(fā)現(xiàn),你在一個對話框里聊的越多,模型就越容易胡言亂語。

甚至聊的太多了,還會直接不讓你聊了。


這是因?yàn)榇竽P驮淖⒁饬C(jī)制導(dǎo)致的問題,在這套老邏輯的影響下,每個 token 出來,都要和前面的每一個 token 互相算在一起做一次計(jì)算。


這就導(dǎo)致了句子增長一倍,模型的計(jì)算量就得增加到原來的四倍,如果邊長到原來的三倍,計(jì)算量就變成了原來的九倍,非常麻煩。

DeepSeek 想這樣不行啊,于是就給大模型里加了固定頁數(shù)的目錄(稀疏注意力),相當(dāng)于幫模型劃重點(diǎn)了。

而在有了目錄之后,以后每次只需要計(jì)算這個 token 和這些目錄的關(guān)系就行了,相當(dāng)于就是看書先讀目錄,看完目錄,對哪一章感興趣,再去仔細(xì)看這章的內(nèi)容就好。


這樣一來,就能讓大模型讀長文的能力變的更強(qiáng)。

在下面這張圖里可以看到,隨著句子越來越長,傳統(tǒng)的 V3.1 的推理成本是越來越高。

但是用上了稀疏注意力的 3.2 則沒什么變化。。。


屬于是超級省錢冠軍了。

另一方面,DeepSeek 開始重視起了開源模型的后訓(xùn)練工作。

大模型這一套從預(yù)訓(xùn)練開始,到考試打分的過程,其實(shí)有點(diǎn)像是我們?nèi)祟悘男W(xué)開始,一路讀書讀到高考的過程。

前面的大規(guī)模預(yù)訓(xùn)練,相當(dāng)于從小學(xué)到高二,把所有課本、練習(xí)冊、卷子全過一遍,這一步大家都差不多,不管是閉源模型,還是開源模型,都在老老實(shí)實(shí)的念書。

但到了高考沖刺階段就不一樣了,在模型的后訓(xùn)練階段,閉源模型一般都會請名師,猛刷題,開始搞起各種強(qiáng)化學(xué)習(xí),最后讓模型來考一個不錯的成果。

但開源模型在這塊花的心思就比較少了,按照 DeepSeek 的說法,過去的開源模型在訓(xùn)練后階段計(jì)算投入普遍偏低。

這就導(dǎo)致這些模型可能基礎(chǔ)能力是已經(jīng)到位的了,但就是難題刷少了,結(jié)果導(dǎo)致考出來的成績不太好。

于是,DeepSeek 決定這次自己也要上名師輔導(dǎo)班,設(shè)計(jì)了一套新的強(qiáng)化學(xué)習(xí)協(xié)議,在預(yù)訓(xùn)練結(jié)束后,花了超過總訓(xùn)練算力的 10% 來給模型開小灶,把之前缺的這塊給補(bǔ)上。

同時(shí)還推出了個能思考超長時(shí)間的特殊版本 ——DeepSeek V3.2 Speciale

這玩意的思路是這樣的:

過去的大模型因?yàn)樯舷挛拈L度有限制,所以在訓(xùn)練的時(shí)候都會做一些標(biāo)注懲罰的工作,如果模型深度思考的內(nèi)容太長了,那就會扣分。

而到了 DeepSeek V3.2 Speciale 這兒,所以 DeepSeek 干脆取消掉了這個扣分項(xiàng),反而鼓勵模型想思考多久就思考多久,想怎么思考就怎么思考。

最終,讓這個全新的 DeepSeek V3.2 Speciale 成功的和前幾天爆火的 Gemini 3 打的有來有回。


此外DeepSeek 還很重視模型在智能體方面能力。

一方面,為了提高模型的基礎(chǔ)能力,DeepSeek 構(gòu)建了一個虛擬環(huán)境,合成了成千上萬條數(shù)據(jù)來輔助訓(xùn)練。

DeepSeek-V3.2 用 24667 個真實(shí)代碼環(huán)境任務(wù)、50275 個真實(shí)搜索任務(wù)、4417 個合成通用 agent 場景、5908 個真實(shí)的代碼解釋任務(wù)做后訓(xùn)練。


另一方面,DeepSeek 還優(yōu)化了模型使用各種工具的流程。

以前幾代 DeepSeek 的一個典型毛病是:會把思考和用工具給分開。

模型一旦去調(diào)用外部工具,前面那段思考基本就算寫完收工了,等工具查完結(jié)果再回來,它往往又要重新鋪一遍思路。


這就導(dǎo)致一種很蠢的體驗(yàn)——哪怕只是去查一下“今天幾月幾號” 這種小事,模型也會從頭開始重建整套推理鏈,非常浪費(fèi)時(shí)間。。。

在 V3.2 這里,DeepSeek 忍不了了,直接把這套邏輯推翻重做。

現(xiàn)在的規(guī)則變成:在一整串工具調(diào)用的過程中,模型的“思考過程”會一直保留下來,只有當(dāng)用戶發(fā)來一條新的提問時(shí),才會重置這一輪推理;而工具的調(diào)用記錄和結(jié)果,會像聊天記錄一樣一直留在上下文里。


通過這修改模型架構(gòu),重視后訓(xùn)練,強(qiáng)化 Agent 能力的三板斧,DeepSeek 才終于讓自己的新模型,有了能和世界頂尖開源模型再次一戰(zhàn)的能力。

當(dāng)然,即使做了這么多改進(jìn),DeepSeek 的表現(xiàn)也算不上完美。

但托尼最喜歡 DeepSeek 的一點(diǎn),就是他們愿意承認(rèn)自己的不足。

而且還會直接在論文里寫出來。

比如這次論文就提到了,這次的 DeepSeek V3.2 Speciale 雖然能和谷歌的 Gemini 3 Pro 來打的五五開。


但是要回答相同的問題,DeepSeek 需要花費(fèi)更多的 token。

我自己也測試了一下,從“人類的最終考試” 的題庫里隨便抽了道題目,同時(shí)丟給 Gemini 3 Pro 和 DeepSeek V3.2 Speciale 這兩個模型。


題目是: 蜂鳥類在足形目中獨(dú)特地?fù)碛须p側(cè)成對的橢圓形骨,這是一種嵌入在膨脹的十字翼腱膜的尾狀骨中,嵌入壓低多粒骨的尾狀骨。這塊籽骨支撐著多少對對腱?請用數(shù)字回答。

結(jié)果發(fā)現(xiàn) Gemini 只要 4972 個 Tokens 就能把問題給答出來。


而到了 DeepSeek 這邊,則用了 8077 個 Tokens 才把問題給搞明白。


光看用量的話,DeepSeek 的的 Tokens 消耗量高了快六成,確實(shí)是有不小的差距。


但是話又說回來了。

DeepSeek 雖然消耗的 token 多,但是人家價(jià)格便宜啊。。。

還是剛才那個問題,我回頭仔細(xì)看了眼賬單。

DeepSeek 8000 多個 tokens,花了我 0.0032 美元。

但谷歌這邊,5000 個 tokens 不到,給我干掉了 0.06 刀?這塊要比 DeepSeek 高了有 20 倍了。


從這個角度上來看,怎么感覺還是 DeepSeek 更香一些。。。

最后,讓我們回到論文的開頭。

正如 DeepSeek 所言,最近半年來,開源模型和閉源模型的差距正在不斷加大。


但他們還是用自己的方式,在不斷追趕這份差距。

而 DeepSeek 的各種節(jié)省算力,節(jié)約數(shù)據(jù)的操作,其實(shí)讓我想到了上個月,一場關(guān)于 Ilya Sutskever 的訪談。


這位 OpenAI 曾經(jīng)的靈魂人物認(rèn)為,只靠一味的給模型堆參數(shù),是沒有未來的。

AlexNet只用了兩塊GPU。Transformer剛出現(xiàn)時(shí)的實(shí)驗(yàn)規(guī)模,大多在8~64塊GPU范圍內(nèi)。按今天的標(biāo)準(zhǔn)看,那甚至相當(dāng)于幾塊GPU的規(guī)模,ResNet也一樣。沒有哪篇論文靠龐大的集群才能完成。

比起算力的堆砌,對算法的研究也一樣重要。

這正是 DeepSeek 在做的事情。

從 V2 的 MoE,到 V3 的多頭潛在注意力(MLA),再到如今 DeepSeek Math V2 的自驗(yàn)證機(jī)制,V3.2 的稀疏注意力(DSA)。

DeepSeek 展現(xiàn)給我們進(jìn)步,從來都不是單一的,依靠堆砌參數(shù)規(guī)模所帶來的提升。

而是在想辦法,如何用有限的數(shù)據(jù),來堆積出更多的智能。

巧婦狂作無米之炊

所以,R2 什么時(shí)候來呢?

撰文:早起

編輯:江江 & 面線

美編:煥妍

圖片、資料來源:DeepSeek 官網(wǎng)、論文


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
回天乏術(shù)!衛(wèi)星圖像證實(shí)俄潛艇遭重創(chuàng):碼頭現(xiàn)9米混凝土彈坑!

回天乏術(shù)!衛(wèi)星圖像證實(shí)俄潛艇遭重創(chuàng):碼頭現(xiàn)9米混凝土彈坑!

軍迷戰(zhàn)情室
2025-12-17 21:26:46
不要做“精神芬蘭人”,哪怕他們坐商務(wù)艙

不要做“精神芬蘭人”,哪怕他們坐商務(wù)艙

觀察者網(wǎng)
2025-12-18 13:55:08
網(wǎng)傳宋丹丹年輕時(shí)曾追求過許亞軍,端著飯盒追,卻還是被對方拒絕

網(wǎng)傳宋丹丹年輕時(shí)曾追求過許亞軍,端著飯盒追,卻還是被對方拒絕

小徐講八卦
2025-12-19 12:08:43
社會主義中國不能允許如此大規(guī)模當(dāng)?shù)?>
    </a>
        <h3>
      <a href=凱利經(jīng)濟(jì)觀察
2025-12-18 09:35:23
足協(xié)一抓就差!U15東亞杯從4-2到0-3:恒大足校含金量嗖嗖往上升

足協(xié)一抓就差!U15東亞杯從4-2到0-3:恒大足校含金量嗖嗖往上升

足球大腕
2025-12-18 20:30:12
奔馳搭載吉利發(fā)動機(jī) 中國動力首次搭上德系車

奔馳搭載吉利發(fā)動機(jī) 中國動力首次搭上德系車

中車網(wǎng)評
2025-12-18 08:42:48
日本當(dāng)紅女星深田恭子,婚前背叛富豪男友,出軌著名導(dǎo)演共度春宵

日本當(dāng)紅女星深田恭子,婚前背叛富豪男友,出軌著名導(dǎo)演共度春宵

我真的服
2025-12-19 15:16:10
出嫁前3天彩禮漲到28.8萬后續(xù):男方堅(jiān)持退婚,女子曝光已社死

出嫁前3天彩禮漲到28.8萬后續(xù):男方堅(jiān)持退婚,女子曝光已社死

千言娛樂記
2025-12-13 18:34:13
雷達(dá)數(shù)據(jù)顯示美軍戰(zhàn)機(jī)在委內(nèi)瑞拉首都附近空域活動

雷達(dá)數(shù)據(jù)顯示美軍戰(zhàn)機(jī)在委內(nèi)瑞拉首都附近空域活動

極目新聞
2025-12-19 12:40:19
照片曝光!尹錫悅曾修建“秘密通道”掩蓋“上班遲到”,此前他多次被批“上班遲到下班卡點(diǎn)”、一個月曾遲到10次

照片曝光!尹錫悅曾修建“秘密通道”掩蓋“上班遲到”,此前他多次被批“上班遲到下班卡點(diǎn)”、一個月曾遲到10次

極目新聞
2025-12-19 10:33:43
印度首富300斤兒子款待梅西,邀球星去動物園,漂亮妻胯是真寬

印度首富300斤兒子款待梅西,邀球星去動物園,漂亮妻胯是真寬

觀察鑒娛
2025-12-18 09:33:39
黃牛加價(jià),排隊(duì)5小時(shí)!二三十塊一個面包貴不貴?

黃牛加價(jià),排隊(duì)5小時(shí)!二三十塊一個面包貴不貴?

揚(yáng)子晚報(bào)
2025-12-19 15:20:32
2026年慢病新規(guī)!對60/80歲以上老人開藥有精準(zhǔn)傾斜

2026年慢病新規(guī)!對60/80歲以上老人開藥有精準(zhǔn)傾斜

慧眼看世界哈哈
2025-12-17 05:55:37
僅26歲帥哥睡夢中離世,開奔馳家境好,媽媽含淚:8點(diǎn)發(fā)現(xiàn)人沒了

僅26歲帥哥睡夢中離世,開奔馳家境好,媽媽含淚:8點(diǎn)發(fā)現(xiàn)人沒了

鋭娛之樂
2025-12-19 08:16:38
搶手!中國男足4大悍將轉(zhuǎn)會,1人曾打服日本球隊(duì),如今成自由球員

搶手!中國男足4大悍將轉(zhuǎn)會,1人曾打服日本球隊(duì),如今成自由球員

國足風(fēng)云
2025-12-19 16:00:14
全家移民真相大白2年,享正師級待遇的潘長江,已走上另一條大道

全家移民真相大白2年,享正師級待遇的潘長江,已走上另一條大道

以茶帶書
2025-08-07 19:42:40
米體:國米已前往沙特,小因扎吉希望與國米球員及管理層會面

米體:國米已前往沙特,小因扎吉希望與國米球員及管理層會面

懂球帝
2025-12-18 20:11:26
真正厲害的女人,一生“三不管”:不管男人、不管閑事、不管過往

真正厲害的女人,一生“三不管”:不管男人、不管閑事、不管過往

真實(shí)人物采訪
2025-12-17 21:00:03
21號就是冬至了!為什么說今年的冬至可不一般,60年一遇?

21號就是冬至了!為什么說今年的冬至可不一般,60年一遇?

阿天愛旅行
2025-12-17 00:16:32
6位鑒定專家均過世,南博事件陷入死結(jié)

6位鑒定專家均過世,南博事件陷入死結(jié)

梳子姐
2025-12-19 13:01:25
2025-12-19 17:28:49
差評XPIN incentive-icons
差評XPIN
用知識和觀點(diǎn)Debug the world!
10007文章數(shù) 489324關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

美批準(zhǔn)對臺逾111億美元軍售 國防部回應(yīng)

頭條要聞

美批準(zhǔn)對臺逾111億美元軍售 國防部回應(yīng)

體育要聞

“惡龍”埃托奧,正在毀滅喀麥隆足球

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無期

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

本地
藝術(shù)
游戲
數(shù)碼
公開課

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

藝術(shù)要聞

諸樂三的寫意花鳥

花百萬,租千平,他們給億萬玩家的“女兒”辦了個線下展

數(shù)碼要聞

Intel代工迎來契機(jī)!14A制程拿下NVIDIA、AMD訂單

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版