国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek等開源模型,更“浪費”token嗎

0
分享至

很多業(yè)內(nèi)人士已經(jīng)注意到,似乎DeepSeek-R1等開源模型,在回答問題時往往缺乏“節(jié)制”。尤其是簡單問題,它想得過于復(fù)雜了。它的單位token成本的API價格優(yōu)勢,最終將可能被不受制約的“冗長思考”所侵蝕。

NousResearch團隊一項研究,就是想搞清楚,開源權(quán)重模型在完成相同任務(wù)時,是否系統(tǒng)性地需要比閉源模型更多的token?當將token消耗數(shù)量納入考量后,這種差異如何影響總體推理成本?這種效率差異在不同的任務(wù)類型中是否更加顯著?

該研究發(fā)現(xiàn),對于不需要復(fù)雜推理就可直答的知識題(Knowledge questions),開源模型的“浪費”最為明顯,DeepSeek-R1-0528完成任務(wù)消耗的token數(shù)量(completion tokens)——它既包括向用戶呈現(xiàn)的輸出結(jié)果,也包括思維鏈(CoT),并與實際計費的token數(shù)量相匹配——要比基準水平高出4倍。不過,到了需要推理數(shù)學題(Math problems)以及更復(fù)雜的邏輯謎題(Logic puzzles),DeepSeek-R1-0528消耗的token數(shù)量,高出基準水平縮小至2倍左右??磥韺嶋H工作中,向合適的模型詢問合適的問題是一大學問。


事實上,AI招聘獨角獸公司Mercor的也注意到了這一現(xiàn)象。在它提出的衡量大模型的AI生產(chǎn)力指數(shù)的APEX-v1.0基準上,Qwen-3-235B和DeepSeek-R1的輸出長度都超過了其他前沿模型。它們思考得更久,可以彌補一些不足,提升了平均成績,代價就是更多的token消耗。

但這也是“慢思考”剛推出時的魅力,不是嗎?在預(yù)訓練擴展邊際放緩后,測試時擴展越來越重要,是提升解題能力的關(guān)鍵?;氐絅ousResearch團隊的研究上,DeepSeek-R1在各類邏輯謎題的準確率,也明顯勝出一籌。也許它慢了一些,用的token也多了一些,但答對了題!


所以,開源模型相比前沿閉源模型,究竟經(jīng)濟不經(jīng)濟?

如果有一個最簡易的統(tǒng)計公式,那么token經(jīng)濟可以歸納為:AI完成一項任務(wù)的收益=token兌現(xiàn)的價值-單位token成本×消耗token數(shù)量。

Token兌現(xiàn)的價值,一方面取決于模型能不能最終解決現(xiàn)實問題,另一方面則取決于它所解決的問題有多值錢。它下圍棋戰(zhàn)勝世界冠軍,值多少錢?獲得奧數(shù)金牌,又值多少錢?但更重要的是,在實際工作場景中創(chuàng)造出經(jīng)濟價值,而這些價值由市場來決定。

單位token成本也決定著模型的經(jīng)濟性。黃仁勛一直鼓吹“買得越多,省得越多”,就是從硬件與基礎(chǔ)設(shè)施層面優(yōu)化能效,降低運營成本的邏輯。這是美國的強項。目前,美國幾乎所有AI云巨頭與前沿大模型廠商,都在探索與部署AI定制芯片以降低推理成本。英偉達計劃自研HBM基礎(chǔ)裸片(Base Die),OpenAI則找上了SK海力士與三星合作;閃迪甚至預(yù)見了數(shù)年后HBF的顛覆性。

中國開源社區(qū)的貢獻,主要在于算法和架構(gòu)的改進,對MOE推理與注意力機制的探索層出不窮。阿里巴巴的架構(gòu),總參數(shù)80B,卻只需激活3B,即可媲美旗艦版Qwen3-235B性能,效率大幅提升。DeepSeek最新發(fā)布的引入了DSA機制,能在成本更低的同時幾乎不影響模型的輸出效果。這些都體現(xiàn)為每百萬token的輸入和輸出成本在持續(xù)下降。

微軟近期一篇為自己的碳足跡“洗白”的論文中,駁斥過往的紙面研究,往往忽略了實際部署環(huán)境中的規(guī)模效應(yīng)與軟硬件優(yōu)化措施。論文提到,就每次AI查詢而言,實際能耗要比預(yù)估低8-20倍。其中,硬件改進帶來1.5至2倍降幅,模型改進帶來3至4倍降幅,工作負載優(yōu)化帶來2至3倍降幅。

這里的工作負載優(yōu)化,既包括KV緩存管理與批大小管理等提升單位token生成效率的手段,也包括用戶手動設(shè)置token預(yù)算上限,或自動觸發(fā)智能路由調(diào)用合適模型等降低token消耗數(shù)量的技術(shù)。OpenAI堅持讓實時路由系統(tǒng),根據(jù)對話類型、復(fù)雜度、所需工具和明確意圖快速決定調(diào)用哪個模型。字節(jié)跳動的Knapsack RL也是類似的預(yù)算分配策略探索。這些都是出于性價比的考慮。

很長一段時間以來,在討論token經(jīng)濟學時,完成任務(wù)的token消耗數(shù)量,往往被人們所忽視。這一指標缺乏前述各類測評token價值的基準,也不在大模型API定價中直接標識出來。

但它無疑越來越重要,它決定著AI的經(jīng)濟性。實際工作不同于刷榜(有的刷榜也有算力成本上限),往往存在明顯的成本約束。前述微軟論文也擔心,隨著多模型與智能體的廣泛落地,更多的推理次數(shù)和更長的推理時間將帶來更高的能耗。不僅如此,要輸出更多token,通常也意味著更長的響應(yīng)時間,用戶體驗下降;對于部分必須高速精準響應(yīng)的場景,這甚至是生死問題;單次任務(wù)越來越多的token消耗,也可能耗盡模型的上下文窗口,限制它處理復(fù)雜長任務(wù)的能力。

受限于各自的技術(shù)儲備、供應(yīng)鏈體系與電力供給條件,中國與美國在token經(jīng)濟學上已經(jīng)各自分岔。中國開源模型的首要目標是在國產(chǎn)替代的現(xiàn)實中逼近前沿水平,用較多的token換取較高的價值;美國閉源模型則要開始想法設(shè)法去降低token的消耗,并提升token的價值。

從DeepSeek的R1到R1-0528,或者,從Qwen3-235B-A22B-thinking到Qwen-235B-A22B-thinking-2507,中國領(lǐng)先的開源模型的迭代,往往伴隨著總token消耗的上升。而Anthropic、OpenAI與xAI的模型迭代,則伴隨著總token消耗的降低。


到目前為止,NousResearch團隊的研究認為,綜合token消耗數(shù)量與單位token成本(基于海外第三方的API價格,因工作負載不同,定價區(qū)間差別較大),DeepSeek等開源模型仍具備整體成本優(yōu)勢,但在最高API定價時(即以更大的上下文或更高的吞吐速度交付結(jié)果等),它的整體成本優(yōu)勢已經(jīng)不再顯著,尤其是在回答簡單問題時。


結(jié)合中國的AI算力生態(tài),token消耗過多的短板會進一步放大。有一項研究,專門就基礎(chǔ)設(shè)施的框架,量化了前沿模型的硬件配置與環(huán)境乘數(shù),對能耗、水與碳足跡的影響。在其設(shè)定場景下,DeepSeek-R1成為了碳排放量最高的前沿模型,且遠高于其他模型。除了與o3類似,它大量依賴CoT深度思考,還因為該研究為它“分配”了H800等更低能效的芯片,以及更高PUE的數(shù)據(jù)中心。

當下對性能的追求壓倒了一切。最終,起作用的將是AI的經(jīng)濟性,用盡可能少的token解決盡可能有價值的問題。

參考:

https://doi.org/10.48550/arXiv.2505.09598

https://doi.org/10.48550/arXiv.2509.20241

https://arxiv.org/html/2509.25721v2

https://github.com/cpldcpu/LRMTokenEconomy/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
株洲殺豬宴失控!央視新華社接連怒批,句句戳心窩,這下麻煩大了

株洲殺豬宴失控!央視新華社接連怒批,句句戳心窩,這下麻煩大了

以茶帶書
2026-01-24 23:18:39
中國隊丟冠僅1夜,隊長赴英超!王鈺棟遭批:態(tài)度有問題 基本廢了

中國隊丟冠僅1夜,隊長赴英超!王鈺棟遭批:態(tài)度有問題 基本廢了

侃球熊弟
2026-01-25 10:37:48
1970年陳獨秀女兒被批斗后,打算偷渡香港,結(jié)果剛上岸就遇到警察

1970年陳獨秀女兒被批斗后,打算偷渡香港,結(jié)果剛上岸就遇到警察

鑒史錄
2026-01-22 18:43:41
日媒:最新民調(diào)顯示高市內(nèi)閣支持率暴跌10%,解散眾議院決定引不滿

日媒:最新民調(diào)顯示高市內(nèi)閣支持率暴跌10%,解散眾議院決定引不滿

環(huán)球網(wǎng)資訊
2026-01-25 16:06:11
美國“退群”,加州“入群”

美國“退群”,加州“入群”

極目新聞
2026-01-24 18:34:19
太猛了,特斯拉中國官宣降價!

太猛了,特斯拉中國官宣降價!

XCiOS俱樂部
2026-01-24 20:44:49
美國放話:誰敢攔截軍售,就是宣戰(zhàn)!中國用實力劃下紅線!

美國放話:誰敢攔截軍售,就是宣戰(zhàn)!中國用實力劃下紅線!

華山穹劍
2026-01-23 20:19:29
多地將器官捐獻納入“見義勇為”評定,專家稱概念擴展需審慎

多地將器官捐獻納入“見義勇為”評定,專家稱概念擴展需審慎

澎湃新聞
2026-01-24 22:55:05
隊記:這應(yīng)該是詹姆斯第一次意識到,自己已經(jīng)不再受湖人高層歡迎

隊記:這應(yīng)該是詹姆斯第一次意識到,自己已經(jīng)不再受湖人高層歡迎

移動擋拆
2026-01-25 06:41:41
廣州人注意!陽性率上升,傳染性強!目前暫無疫苗或者特效藥!

廣州人注意!陽性率上升,傳染性強!目前暫無疫苗或者特效藥!

羊城攻略
2026-01-24 22:58:42
張宗遜明明戰(zhàn)功高、資歷老,卻沒能評上大將,這事兒和惹惱兩大元帥毫無關(guān)系,真正原因另有他處

張宗遜明明戰(zhàn)功高、資歷老,卻沒能評上大將,這事兒和惹惱兩大元帥毫無關(guān)系,真正原因另有他處

清風鑒史
2025-12-24 13:59:10
殺豬宴后呆呆首場直播:辟謠不是23歲而是91年,未婚,并未入編!

殺豬宴后呆呆首場直播:辟謠不是23歲而是91年,未婚,并未入編!

天天熱點見聞
2026-01-25 08:46:20
平均每人負債1300萬,書記吳仁寶去世10年后,華西村的現(xiàn)況如何?

平均每人負債1300萬,書記吳仁寶去世10年后,華西村的現(xiàn)況如何?

哄動一時啊
2026-01-24 21:29:54
離譜!挪威帝王蟹堆成山,中國人買一只卻要花上千,原因太現(xiàn)實

離譜!挪威帝王蟹堆成山,中國人買一只卻要花上千,原因太現(xiàn)實

掉了顆大白兔糖
2026-01-25 07:34:58
2025年新生兒僅有792萬,一個重要原因是育兒的廉價勞動力已經(jīng)不足了

2025年新生兒僅有792萬,一個重要原因是育兒的廉價勞動力已經(jīng)不足了

風向觀察
2026-01-25 12:07:51
美國運動員霍諾德成功徒手攀爬508米高臺北101,耗時約1小時31分鐘

美國運動員霍諾德成功徒手攀爬508米高臺北101,耗時約1小時31分鐘

瀟湘晨報
2026-01-25 12:00:17
突發(fā)!美聯(lián)儲,大消息!

突發(fā)!美聯(lián)儲,大消息!

魏家東
2026-01-25 14:29:25
A股:人民日報罕見就股市發(fā)聲!證監(jiān)會監(jiān)管升溫,下周迎更大級別變盤

A股:人民日報罕見就股市發(fā)聲!證監(jiān)會監(jiān)管升溫,下周迎更大級別變盤

股市皆大事
2026-01-25 16:52:15
日本U23主帥:面對更年長、對抗強硬的中國隊,我們踢出了該有的水平

日本U23主帥:面對更年長、對抗強硬的中國隊,我們踢出了該有的水平

懂球帝
2026-01-25 01:51:15
安東尼奧即將成為國奧主帥,兩年后將挑戰(zhàn)40年魔咒

安東尼奧即將成為國奧主帥,兩年后將挑戰(zhàn)40年魔咒

澎湃新聞
2026-01-25 14:07:05
2026-01-25 19:07:00
未盡研究 incentive-icons
未盡研究
新能源、人工智能、合成生物、地緣X
292文章數(shù) 61關(guān)注度
往期回顧 全部

科技要聞

黃仁勛在上海逛菜市場,可能惦記著三件事

頭條要聞

游客自稱爬衡山時掛脖子上80克金牌遺失 價值超10萬元

頭條要聞

游客自稱爬衡山時掛脖子上80克金牌遺失 價值超10萬元

體育要聞

中國足球不會一夜變強,但他們已經(jīng)創(chuàng)造歷史

娛樂要聞

王玉雯方嚴正聲明 劇方回應(yīng):涉事人員已被開除

財經(jīng)要聞

隋廣義等80人被公訴 千億騙局進入末路

汽車要聞

別克至境E7內(nèi)飾圖曝光 新車將于一季度正式發(fā)布

態(tài)度原創(chuàng)

游戲
教育
家居
數(shù)碼
公開課

《怪獵物語3》藝術(shù)插畫公開!火龍騎士御風飛翔

教育要聞

看似復(fù)雜,尖子生一個技巧口算

家居要聞

在家度假 160平南洋混搭宅

數(shù)碼要聞

AMD核顯規(guī)劃分化,中端APU將沿用RDNA3.5舊架構(gòu)直至2029年

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版