網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

字節(jié)Seed：大概念模型來了，推理的何必是下一個(gè)token

2026-01-05 12:51:07　來源: 量子位

北京舉報(bào)

分享至

henry 發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

LLM的下一個(gè)推理單位，何必是Token？

剛剛，字節(jié)Seed團(tuán)隊(duì)發(fā)布最新研究——

DLCM（Dynamic Large Concept Models）將大模型的推理單位從token（詞）動(dòng)態(tài)且自適應(yīng)地推到了concept（概念）層級(jí)。

DLCM通過端到端地方式學(xué)習(xí)語義邊界，動(dòng)態(tài)地將Token序列分割成概念，在壓縮后的概念空間中進(jìn)行深度推理，并借助因果交叉注意力將概念級(jí)推理結(jié)果重構(gòu)為Token級(jí)預(yù)測(cè)

由此，傳統(tǒng)LLM中基于均勻、冗余Token信息密度的計(jì)算分配，被轉(zhuǎn)化為面向概念的動(dòng)態(tài)推理與自適應(yīng)算力分配。

在以推理為主的基準(zhǔn)任務(wù)上，DLCM在將推理階段FLOPs降低34%的同時(shí)，還將平均準(zhǔn)確率提升了2.69%

這也意味著，大模型的推理效率并不必然依賴更密集的Token級(jí)計(jì)算，而可以通過更高層級(jí)的語義組織來獲得。

接下來，我們具體來看。

分層的下一token預(yù)測(cè)框架

如上所說，DLCM的核心在于學(xué)習(xí)動(dòng)態(tài)的Token-概念映射，實(shí)現(xiàn)了計(jì)算資源的自適應(yīng)分配。

之所以這樣做主要有兩方面原因：

一方面，在自然語言中，信息的分布并不是均勻的，而是集中在集中在少數(shù)語義轉(zhuǎn)換的節(jié)點(diǎn)上。

然而，在當(dāng)前的LLM中，所有token被統(tǒng)一處理，信息密度不均勻的自然語言消耗了同樣的計(jì)算量，造成了大量的冗余與模型容量的錯(cuò)配。

另一方面，此前基于潛在推理的框架，如大型概念模型（Large Concept Model, LCM）等，不僅需要單獨(dú)訓(xùn)練編碼器和解碼器，還依賴人為劃分的固定的、句子級(jí)別的粒度，缺乏拓展性與自適應(yīng)性。

針對(duì)這些問題，DLCM通過一種分層的下一token預(yù)測(cè)框架，將計(jì)算重心轉(zhuǎn)移到壓縮后的語義空間，實(shí)現(xiàn)了更高效的深度推理。

具體來說，這一框架包含四個(gè)階段：

首先，在編碼階段，DLCM通過一個(gè)編碼器，提取細(xì)粒度的Token級(jí)表示，捕獲局部上下文信息，作為邊界檢測(cè)和最終Token級(jí)解碼的基礎(chǔ)。

接下來，在動(dòng)態(tài)分割階段，模型基于Token級(jí)表示，計(jì)算相鄰Token之間在潛在空間中的局部不相似性（使用余弦距離），當(dāng)不相似度超過閾值時(shí)，模型判斷為一個(gè)語義斷點(diǎn)（概念邊界）。

與固定句子長(zhǎng)度不同，DLCM端到端地學(xué)習(xí)這些邊界，實(shí)現(xiàn)內(nèi)容自適應(yīng)的分割。

它將同一片段內(nèi)（即同一概念內(nèi)）的所有Token表示進(jìn)行均值池化（Mean Pooling），然后投影到更高維度的概念維度上，最終形成一個(gè)長(zhǎng)度大大壓縮的概念序列。

然后，在概念級(jí)推理階段，模型將上面得到的概念序列在壓縮空間中進(jìn)行深度的、高容量的推理，得到經(jīng)過深度推理和信息整合后的概念表示。

最后，在Token級(jí)解碼階段，DLCM利用經(jīng)過推理的概念表示，重構(gòu)并預(yù)測(cè)下一個(gè)token。

由此，DLCM通過以上四個(gè)步驟，成功地將計(jì)算分配從低效的Token-Token交互，轉(zhuǎn)移到高效的Token-概念-Token 交互，實(shí)現(xiàn)了計(jì)算資源的自適應(yīng)、結(jié)構(gòu)化利用。

關(guān)鍵技術(shù)突破與優(yōu)化

雖然DLCM架構(gòu)在設(shè)計(jì)上實(shí)現(xiàn)了Token級(jí)和概念級(jí)模塊的異構(gòu)，但同時(shí)也引入了新的工程和訓(xùn)練挑戰(zhàn)。

全局解析器（Global Parser）：內(nèi)容自適應(yīng)壓縮

DLCM 的核心優(yōu)勢(shì)在于它能夠根據(jù)信息密度動(dòng)態(tài)地劃分概念。

例如，對(duì)于信息冗余度高的代碼或簡(jiǎn)單文本，可以激進(jìn)地壓縮；對(duì)于語義復(fù)雜的轉(zhuǎn)折點(diǎn)，則保持較低壓縮比。

為實(shí)現(xiàn)這一點(diǎn)，研究引入了全局解析器（Global Parser）和輔助損失函數(shù)。

這個(gè)機(jī)制的關(guān)鍵在于：它不要求單個(gè)序列嚴(yán)格遵循目標(biāo)壓縮比，而是在整個(gè)Batch層面約束平均邊界生成率。

這使得DLCM在共享全局壓縮比例目標(biāo)的前提下，實(shí)現(xiàn)了隨領(lǐng)域變化、隨內(nèi)容波動(dòng)的自適應(yīng)分段，從而將計(jì)算資源精準(zhǔn)地分配到語義最關(guān)鍵的區(qū)域。

針對(duì)Flash Attention的效率優(yōu)化

在解碼階段，Token需要通過因果交叉注意力關(guān)注其所屬的概念。

由于每個(gè)概念包含的Token數(shù)量是變化的，如果直接實(shí)現(xiàn)，會(huì)嚴(yán)重依賴效率低下的動(dòng)態(tài)掩碼和不規(guī)則的內(nèi)存訪問。

針對(duì)這一問題，研究引入概念復(fù)制（Concept Replication）策略。它將概念特征沿著序列維度復(fù)制擴(kuò)展，使其長(zhǎng)度與原始Token序列對(duì)齊。

由此，研究將復(fù)雜的可變長(zhǎng)交叉注意力問題轉(zhuǎn)換為長(zhǎng)度對(duì)齊、局部恒定的注意力問題，并使其能夠利用高度優(yōu)化的Flash Attention Varlen內(nèi)核，獲得了1.26倍到1.73倍的顯著加速。

異構(gòu)架構(gòu)的穩(wěn)定訓(xùn)練

由于DLCM 的Token級(jí)組件和概念級(jí)骨干網(wǎng)絡(luò)的寬度不一致，通過上投影連接，無法共享單一有效學(xué)習(xí)率。

為解決這一問題，研究采用解耦的最大更新參數(shù)化，為Token模塊和概念模塊分配了獨(dú)立的寬度縮放因子，并發(fā)現(xiàn)各組件的有效學(xué)習(xí)率應(yīng)與其寬度的倒數(shù)成比例縮放。

由此，研究成功地穩(wěn)定了這種不等寬架構(gòu)的訓(xùn)練，并實(shí)現(xiàn)了零樣本超參數(shù)遷移，即小型代理模型上找到的最佳學(xué)習(xí)率可以直接用于訓(xùn)練更大的DLCM模型。

量化最優(yōu)分配點(diǎn)

除上述優(yōu)化外，研究還進(jìn)一步基于scaling law探究了token級(jí)處理與概念級(jí)推理之間的最優(yōu)分配。

研究發(fā)現(xiàn)，在固定壓縮比下，架構(gòu)效率在中等概念主干占比處達(dá)到峰值，而非隨概念容量單調(diào)提升。

更重要的是，這一最優(yōu)配置在規(guī)模增大時(shí)優(yōu)勢(shì)愈發(fā)明顯：隨著基線模型變大，在性能對(duì)齊的前提下，DLCM可實(shí)現(xiàn)越來越顯著的FLOPs節(jié)省。

在實(shí)驗(yàn)階段，研究采用了與LLaMA論文中報(bào)告的相同的全局批次大小、學(xué)習(xí)率和序列長(zhǎng)度，讓每個(gè)模型都在1T Token上進(jìn)行訓(xùn)練。

其中，DLCM實(shí)現(xiàn)了43.92%的平均準(zhǔn)確率，超過了基線模型41.23%的分?jǐn)?shù)，提升了2.69%。

One more thing

這篇論文的一作來自英國(guó)曼徹斯特大學(xué)的在讀博士生Qu Xingwei，師從Chenghua Lin教授。

他的研究方向聚焦于大語言模型（LLMs），主要包括預(yù)訓(xùn)練、微調(diào)、專家混合（Mixture of Experts）以及System-2大語言模型。

在教育背景方面，他本科畢業(yè)于北京航空航天大學(xué)，導(dǎo)師為段海濱教授；碩士就讀于獲慕尼黑工業(yè)大學(xué)，導(dǎo)師為Daniel Cremers教授。

在讀博前，他曾在字節(jié)跳動(dòng)和小鵬汽車擔(dān)任研究工程師。

[1]https://x.com/GeZhang86038849

[2]https://arxiv.org/abs/2512.24617

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

M+框架來了，增加LLM隱空間記憶，不再受上下文窗口限制

機(jī)器之心Pro 2025-07-15 17:07:00
1 跟貼 1
檢索做大，生成做輕：CMU團(tuán)隊(duì)系統(tǒng)評(píng)測(cè)RAG的語料與模型權(quán)衡

機(jī)器之心Pro 2026-01-06 12:42:27
0 跟貼 0

VFMTok: Visual Foundation Models驅(qū)動(dòng)的Tokenizer時(shí)代來臨

機(jī)器之心Pro 2025-10-28 18:00:47
0 跟貼 0

多模態(tài)檢索新突破，用軟標(biāo)簽打破傳統(tǒng)剛性映射約束，全面超越CLIP

量子位 2025-11-15 13:18:07
0 跟貼 0
VinciCoder：多模態(tài)統(tǒng)一代碼生成框架和視覺反饋強(qiáng)化學(xué)習(xí)

機(jī)器之心Pro 2025-11-17 14:12:38
0 跟貼 0

再斬第一！OceanBase蟬聯(lián)IDC榜單，國(guó)產(chǎn)數(shù)據(jù)庫(kù)實(shí)力領(lǐng)跑

雷科技 2026-01-07 21:56:36
0 跟貼 0

金魚損失隨機(jī)剔除token，讓AI不再死記硬背

量子位 2025-09-03 17:37:23
0 跟貼 0
英偉達(dá)發(fā)布純視覺自動(dòng)駕駛模型！馬斯克回應(yīng)！一口氣看完CES演講

極客小冷 2026-01-06 17:12:24
821 跟貼 821

呂布沖鋒是什么概念

一畝花田剪影 2026-01-04 11:16:30
123 跟貼 123
4個(gè)月燒掉30億Token，這位「菜鳥」程序員做出50多個(gè)產(chǎn)品

機(jī)器之心Pro 2026-01-04 14:53:09
35 跟貼 35
真實(shí)音頻場(chǎng)景，大模型集體掛科！首個(gè)原生語音基準(zhǔn)MultiChallenge

新智元 2026-01-06 12:52:26
0 跟貼 0
OpenAI前CTO首個(gè)創(chuàng)業(yè)產(chǎn)品Tinker，全量升級(jí)開放了，還有羊毛可薅

機(jī)器之心Pro 2026-01-07 14:30:39
0 跟貼 0
深度長(zhǎng)文AI一鍵生成：實(shí)測(cè)字節(jié)扣子空間新功能

量子位 2025-09-07 13:16:56
0 跟貼 0
字節(jié)“豆包”AI眼鏡即將進(jìn)入出貨階段將分版本推出

財(cái)聯(lián)社 2026-01-05 14:54:08
170 跟貼 170
年紀(jì)上來了，好像真的什么都能理解了（開智版）

科普中國(guó) 2026-01-06 12:14:46
8 跟貼 8
芬蘭公司發(fā)布“全球首款完美全固態(tài)電池”，引爭(zhēng)議

環(huán)球網(wǎng)資訊 2026-01-07 06:52:06
2619 跟貼 2619
存儲(chǔ)再度爆發(fā)！AI推理與多模態(tài)驅(qū)動(dòng)數(shù)據(jù)爆炸，硬盤和閃存廠商將成最大受益者

華爾街見聞官方 2026-01-07 09:51:18
0 跟貼 0
你覺得這個(gè)推理有漏洞嗎？林肯律師

冰心說影 2026-01-06 10:34:47
1 跟貼 1
告別抽卡！一手實(shí)測(cè)字節(jié)剛放出的視頻模型Seedance 1.5 pro

機(jī)器之心Pro 2025-12-18 17:49:18
0 跟貼 0
二次函數(shù)應(yīng)用題，一個(gè)視頻學(xué)會(huì)！

大鵬老師講數(shù)學(xué) 2026-01-07 05:00:00
0 跟貼 0
“跨國(guó)綁架總統(tǒng)”揭秘：5分鐘抓到人，像看電視劇

中國(guó)新聞周刊 2026-01-04 14:50:55
1537 跟貼 1537
讓擴(kuò)散模型「可解釋」不再降質(zhì)，開啟圖片編輯新思路

機(jī)器之心Pro 2025-12-16 14:37:44
0 跟貼 0
理解和把握中華民族共同體建設(shè)的三個(gè)維度

蓉城同心 2026-01-06 15:02:29
0 跟貼 0
書單｜從古風(fēng)詭案到時(shí)空迷局，這8本懸疑小說讓你沉浸式追兇

集悅讀 2026-01-07 17:48:06
0 跟貼 0
4個(gè)維度，測(cè)出男人人性底色

黃栗子本人 2026-01-07 11:20:36
3 跟貼 3
改造修復(fù)老房子破損的屋頂，重新安裝頂部框架并鋪設(shè)瓦片

機(jī)械女孩 2026-01-03 09:37:21
1 跟貼 1
巔峰時(shí)期的戴維斯有多猛？五大維度解析！

科普森林 2026-01-05 09:10:36
15 跟貼 15
男子放飛獨(dú)角獸模型，成功飛到天空，被人拍到又說是UFO！

搞笑包租婆 2026-01-05 13:15:24
1 跟貼 1
從過擬合到通用！ViMoGen開啟3D人體動(dòng)作生成新紀(jì)元

機(jī)器之心Pro 2026-01-07 17:45:25
0 跟貼 0
大模型最難的AI Infra，用Vibe Coding搞定

機(jī)器之心Pro 2026-01-07 15:33:06
0 跟貼 0
黃鶴樓景區(qū)應(yīng)修北門？建議來了

極目新聞 2026-01-06 10:23:04
819 跟貼 819
多模態(tài)推理新范式！DiffThinker：用擴(kuò)散模型「畫」出推理和答案

機(jī)器之心Pro 2026-01-07 16:13:54
0 跟貼 0
獨(dú)家解讀｜2025年AI五大趨勢(shì)與底層數(shù)據(jù)革命

機(jī)器之心Pro 2026-01-06 17:56:10
0 跟貼 0
委內(nèi)瑞拉軍隊(duì)，討論如何擊退美軍入侵，并在地圖模型上指指點(diǎn)點(diǎn)

嘻嘻笑笑 2026-01-05 11:24:27
274 跟貼 274
蘇A0000A號(hào)牌有主了！

魯中晨報(bào) 2026-01-07 10:57:05
378 跟貼 378
鋼珠破片手雷的模型

市井中人 2026-01-05 14:50:30
1 跟貼 1
美方扣押“水手”號(hào)油輪現(xiàn)場(chǎng)畫面流出下一目標(biāo)披露

每日經(jīng)濟(jì)新聞 2026-01-07 22:59:22
457 跟貼 457
清華00后揪出AI幻覺元兇：僅0.1%神經(jīng)元，一按就老實(shí)

DeepTech深科技 2026-01-07 21:18:03
0 跟貼 0
平臺(tái)不得大數(shù)據(jù)“殺熟” 網(wǎng)絡(luò)交易平臺(tái)新規(guī)發(fā)布

界面新聞 2026-01-07 10:32:12
275 跟貼 275
探跡B2C智能體躋身“萬億Tokens俱樂部”,AI Agent商業(yè)化進(jìn)程加速

獨(dú)角金融 2026-01-06 11:08:27
0 跟貼 0

罕見！陜西一211高校將整體搬遷，新校區(qū)2012畝，計(jì)劃投資50億元

量子位

追蹤人工智能動(dòng)態(tài)

11983文章數(shù) 176356關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

時(shí)尚

數(shù)碼

教育

公開課

本地新聞

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

字節(jié)Seed：大概念模型來了，推理的何必是下一個(gè)token

精華！黃仁勛CES記者會(huì)：揭秘新款大殺器

委向美移交5000萬桶原油有部分原本銷往中國(guó) 中方回應(yīng)

委向美移交5000萬桶原油有部分原本銷往中國(guó) 中方回應(yīng)

賣水果、搬磚的小伙，與哈蘭德爭(zhēng)英超金靴

《馬背搖籃》首播，革命的樂觀主義故事

農(nóng)大教授科普：無需過度擔(dān)憂蔬菜農(nóng)殘

燃油駕趣+智能電感雙Buff 試駕全新奧迪Q5L

態(tài)度原創(chuàng)

“閩東利劍·惠民安商”高效執(zhí)行專項(xiàng)行動(dòng)

李夢(mèng)系穿搭，就這么養(yǎng)成了

技嘉Z890主板適配英特爾新處理器，還展示256GB內(nèi)存！

中等生的“勤奮”，為何毫無回報(bào)

字節(jié)Seed：大概念模型來了，推理的何必是下一個(gè)token

精華！黃仁勛CES記者會(huì)：揭秘新款大殺器

賣水果、搬磚的小伙，與哈蘭德爭(zhēng)英超金靴

《馬背搖籃》首播，革命的樂觀主義故事

李夢(mèng)系穿搭，就這么養(yǎng)成了

技嘉Z890主板適配英特爾新處理器，還展示256GB內(nèi)存！

中等生的“勤奮”，為何毫無回報(bào)