国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

字節(jié)Seed:大概念模型來了,推理的何必是下一個(gè)token

0
分享至

henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

LLM的下一個(gè)推理單位,何必是Token?

剛剛,字節(jié)Seed團(tuán)隊(duì)發(fā)布最新研究——

DLCM(Dynamic Large Concept Models)將大模型的推理單位從token(詞) 動(dòng)態(tài)且自適應(yīng)地推到了concept(概念)層級(jí)。



DLCM通過端到端地方式學(xué)習(xí)語義邊界,動(dòng)態(tài)地將Token序列分割成概念,在壓縮后的概念空間中進(jìn)行深度推理,并借助因果交叉注意力將概念級(jí)推理結(jié)果重構(gòu)為Token級(jí)預(yù)測(cè)

由此,傳統(tǒng)LLM中基于均勻、冗余Token信息密度的計(jì)算分配,被轉(zhuǎn)化為面向概念的動(dòng)態(tài)推理與自適應(yīng)算力分配。

在以推理為主的基準(zhǔn)任務(wù)上,DLCM在將推理階段FLOPs降低34%的同時(shí),還將平均準(zhǔn)確率提升了2.69%

這也意味著,大模型的推理效率并不必然依賴更密集的Token級(jí)計(jì)算,而可以通過更高層級(jí)的語義組織來獲得。

接下來,我們具體來看。

分層的下一token預(yù)測(cè)框架

如上所說,DLCM的核心在于學(xué)習(xí)動(dòng)態(tài)的Token-概念映射,實(shí)現(xiàn)了計(jì)算資源的自適應(yīng)分配。

之所以這樣做主要有兩方面原因:

一方面,在自然語言中,信息的分布并不是均勻的,而是集中在集中在少數(shù)語義轉(zhuǎn)換的節(jié)點(diǎn)上。

然而,在當(dāng)前的LLM中,所有token被統(tǒng)一處理,信息密度不均勻的自然語言消耗了同樣的計(jì)算量,造成了大量的冗余與模型容量的錯(cuò)配。

另一方面,此前基于潛在推理的框架,如大型概念模型(Large Concept Model, LCM)等,不僅需要單獨(dú)訓(xùn)練編碼器和解碼器,還依賴人為劃分的固定的、句子級(jí)別的粒度,缺乏拓展性與自適應(yīng)性。

針對(duì)這些問題,DLCM通過一種分層的下一token預(yù)測(cè)框架,將計(jì)算重心轉(zhuǎn)移到壓縮后的語義空間,實(shí)現(xiàn)了更高效的深度推理。



具體來說,這一框架包含四個(gè)階段:

首先,在編碼階段,DLCM通過一個(gè)編碼器,提取細(xì)粒度的Token級(jí)表示,捕獲局部上下文信息,作為邊界檢測(cè)和最終Token級(jí)解碼的基礎(chǔ)。

接下來,在動(dòng)態(tài)分割階段,模型基于Token級(jí)表示,計(jì)算相鄰Token之間在潛在空間中的局部不相似性(使用余弦距離),當(dāng)不相似度超過閾值時(shí),模型判斷為一個(gè)語義斷點(diǎn)(概念邊界)。



與固定句子長(zhǎng)度不同,DLCM端到端地學(xué)習(xí)這些邊界,實(shí)現(xiàn)內(nèi)容自適應(yīng)的分割。

它將同一片段內(nèi)(即同一概念內(nèi))的所有Token表示進(jìn)行均值池化(Mean Pooling),然后投影到更高維度的概念維度上,最終形成一個(gè)長(zhǎng)度大大壓縮的概念序列 。

然后,在概念級(jí)推理階段,模型將上面得到的概念序列在壓縮空間中進(jìn)行深度的、高容量的推理,得到經(jīng)過深度推理和信息整合后的概念表示。

最后,在Token級(jí)解碼階段,DLCM利用經(jīng)過推理的概念表示,重構(gòu)并預(yù)測(cè)下一個(gè)token。

由此,DLCM通過以上四個(gè)步驟,成功地將計(jì)算分配從低效的Token-Token交互,轉(zhuǎn)移到高效的Token-概念-Token 交互,實(shí)現(xiàn)了計(jì)算資源的自適應(yīng)、結(jié)構(gòu)化利用。

關(guān)鍵技術(shù)突破與優(yōu)化

雖然DLCM架構(gòu)在設(shè)計(jì)上實(shí)現(xiàn)了Token級(jí)和概念級(jí)模塊的異構(gòu),但同時(shí)也引入了新的工程和訓(xùn)練挑戰(zhàn)。

全局解析器(Global Parser):內(nèi)容自適應(yīng)壓縮

DLCM 的核心優(yōu)勢(shì)在于它能夠根據(jù)信息密度動(dòng)態(tài)地劃分概念。

例如,對(duì)于信息冗余度高的代碼或簡(jiǎn)單文本,可以激進(jìn)地壓縮;對(duì)于語義復(fù)雜的轉(zhuǎn)折點(diǎn),則保持較低壓縮比。

為實(shí)現(xiàn)這一點(diǎn),研究引入了全局解析器(Global Parser)和輔助損失函數(shù)。



這個(gè)機(jī)制的關(guān)鍵在于:它不要求單個(gè)序列嚴(yán)格遵循目標(biāo)壓縮比 ,而是在整個(gè)Batch層面約束平均邊界生成率。

這使得DLCM在共享全局壓縮比例目標(biāo)的前提下,實(shí)現(xiàn)了隨領(lǐng)域變化、隨內(nèi)容波動(dòng)的自適應(yīng)分段,從而將計(jì)算資源精準(zhǔn)地分配到語義最關(guān)鍵的區(qū)域。

針對(duì)Flash Attention的效率優(yōu)化

在解碼階段,Token需要通過因果交叉注意力關(guān)注其所屬的概念。

由于每個(gè)概念包含的Token數(shù)量是變化的,如果直接實(shí)現(xiàn),會(huì)嚴(yán)重依賴效率低下的動(dòng)態(tài)掩碼和不規(guī)則的內(nèi)存訪問。

針對(duì)這一問題,研究引入概念復(fù)制(Concept Replication)策略。它將概念特征沿著序列維度復(fù)制擴(kuò)展,使其長(zhǎng)度與原始Token序列對(duì)齊。



由此,研究將復(fù)雜的可變長(zhǎng)交叉注意力問題轉(zhuǎn)換為長(zhǎng)度對(duì)齊、局部恒定的注意力問題,并使其能夠利用高度優(yōu)化的Flash Attention Varlen內(nèi)核,獲得了1.26倍到1.73倍的顯著加速。

異構(gòu)架構(gòu)的穩(wěn)定訓(xùn)練

由于DLCM 的Token級(jí)組件和概念級(jí)骨干網(wǎng)絡(luò)的寬度不一致,通過上投影連接,無法共享單一有效學(xué)習(xí)率。

為解決這一問題,研究采用解耦的最大更新參數(shù)化,為Token模塊和概念模塊分配了獨(dú)立的寬度縮放因子,并發(fā)現(xiàn)各組件的有效學(xué)習(xí)率應(yīng)與其寬度的倒數(shù)成比例縮放。



由此,研究成功地穩(wěn)定了這種不等寬架構(gòu)的訓(xùn)練,并實(shí)現(xiàn)了零樣本超參數(shù)遷移,即小型代理模型上找到的最佳學(xué)習(xí)率可以直接用于訓(xùn)練更大的DLCM模型。

量化最優(yōu)分配點(diǎn)

除上述優(yōu)化外,研究還進(jìn)一步基于scaling law探究了token級(jí)處理與概念級(jí)推理之間的最優(yōu)分配。

研究發(fā)現(xiàn),在固定壓縮比下,架構(gòu)效率在中等概念主干占比處達(dá)到峰值,而非隨概念容量單調(diào)提升。

更重要的是,這一最優(yōu)配置在規(guī)模增大時(shí)優(yōu)勢(shì)愈發(fā)明顯:隨著基線模型變大,在性能對(duì)齊的前提下,DLCM可實(shí)現(xiàn)越來越顯著的FLOPs節(jié)省。



在實(shí)驗(yàn)階段,研究采用了與LLaMA論文中報(bào)告的相同的全局批次大小、學(xué)習(xí)率和序列長(zhǎng)度,讓每個(gè)模型都在1T Token上進(jìn)行訓(xùn)練。



其中,DLCM實(shí)現(xiàn)了43.92%的平均準(zhǔn)確率,超過了基線模型41.23%的分?jǐn)?shù),提升了2.69%。

One more thing

這篇論文的一作來自英國(guó)曼徹斯特大學(xué)的在讀博士生Qu Xingwei,師從Chenghua Lin教授。



他的研究方向聚焦于大語言模型(LLMs),主要包括預(yù)訓(xùn)練、微調(diào)、專家混合(Mixture of Experts)以及System-2大語言模型。

在教育背景方面,他本科畢業(yè)于北京航空航天大學(xué),導(dǎo)師為段海濱教授;碩士就讀于獲慕尼黑工業(yè)大學(xué),導(dǎo)師為Daniel Cremers教授。

在讀博前,他曾在字節(jié)跳動(dòng)和小鵬汽車擔(dān)任研究工程師。

[1]https://x.com/GeZhang86038849

[2]https://arxiv.org/abs/2512.24617

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
罕見!陜西一211高校將整體搬遷,新校區(qū)2012畝,計(jì)劃投資50億元

罕見!陜西一211高校將整體搬遷,新校區(qū)2012畝,計(jì)劃投資50億元

凱旋學(xué)長(zhǎng)
2026-01-06 17:56:36
73歲三浦友生活曝光:放棄豪宅與山口百惠逛超市,這才是頂級(jí)愛情

73歲三浦友生活曝光:放棄豪宅與山口百惠逛超市,這才是頂級(jí)愛情

未曾青梅
2026-01-06 22:23:06
中美軍事實(shí)力深度對(duì)比:妄自菲薄,是我們所犯的最大錯(cuò)誤!

中美軍事實(shí)力深度對(duì)比:妄自菲薄,是我們所犯的最大錯(cuò)誤!

老范談史
2025-12-21 19:43:17
電網(wǎng)設(shè)備迎價(jià)值重估,非常正宗的10家龍頭企業(yè)(精選名單)

電網(wǎng)設(shè)備迎價(jià)值重估,非常正宗的10家龍頭企業(yè)(精選名單)

特特農(nóng)村生活
2026-01-07 05:27:24
網(wǎng)友稱在廣州出游歸來發(fā)現(xiàn)入住酒店正在被拆遷!涉事酒店回應(yīng):并非臨時(shí)拆遷,已提前張貼提示函

網(wǎng)友稱在廣州出游歸來發(fā)現(xiàn)入住酒店正在被拆遷!涉事酒店回應(yīng):并非臨時(shí)拆遷,已提前張貼提示函

臺(tái)州交通廣播
2026-01-05 21:31:00
拿600萬,25分鐘得3分+正負(fù)值最低,球迷:全隊(duì)負(fù)著你的重前行

拿600萬,25分鐘得3分+正負(fù)值最低,球迷:全隊(duì)負(fù)著你的重前行

弄月公子
2026-01-07 22:23:14
央視春晚彩排陣容公布!看了到場(chǎng)明星,網(wǎng)友淚目:有他在收視穩(wěn)了

央視春晚彩排陣容公布!看了到場(chǎng)明星,網(wǎng)友淚目:有他在收視穩(wěn)了

娛說瑜悅
2026-01-08 00:19:13
大陸博主曝光“臺(tái)獨(dú)”頑固分子沈伯洋住處和工作場(chǎng)所,國(guó)臺(tái)辦回應(yīng)

大陸博主曝光“臺(tái)獨(dú)”頑固分子沈伯洋住處和工作場(chǎng)所,國(guó)臺(tái)辦回應(yīng)

界面新聞
2026-01-07 10:59:20
太給力了!郴州一工廠員工聚餐抽獎(jiǎng),獎(jiǎng)金168000元,設(shè)1143個(gè)名額

太給力了!郴州一工廠員工聚餐抽獎(jiǎng),獎(jiǎng)金168000元,設(shè)1143個(gè)名額

火山詩(shī)話
2026-01-07 11:06:32
為什么感覺美國(guó)在走向衰落?那是因?yàn)槟闶侵袊?guó)人

為什么感覺美國(guó)在走向衰落?那是因?yàn)槟闶侵袊?guó)人

扶蘇聊歷史
2025-12-19 10:02:54
0:4+0:11慘?。?1歲陳熠多哈賽硬仗掉鏈子,沖冠遇考驗(yàn)

0:4+0:11慘??!21歲陳熠多哈賽硬仗掉鏈子,沖冠遇考驗(yàn)

阿晞體育
2026-01-07 12:23:07
中國(guó)焊死了工業(yè)化大門?真相很殘酷:不是中國(guó)卷,是游戲規(guī)則變了

中國(guó)焊死了工業(yè)化大門?真相很殘酷:不是中國(guó)卷,是游戲規(guī)則變了

遠(yuǎn)方風(fēng)林
2026-01-06 23:28:13
400元的醫(yī)保需要一催再催,這意味著什么?

400元的醫(yī)保需要一催再催,這意味著什么?

黯泉
2026-01-07 23:27:01
四五次催診電話“窮追不舍”,瑞金醫(yī)生為啥非要喊他來手術(shù)?

四五次催診電話“窮追不舍”,瑞金醫(yī)生為啥非要喊他來手術(shù)?

上海交通大學(xué)醫(yī)學(xué)院附屬瑞金醫(yī)院
2026-01-07 17:23:12
千古奇文《漁樵問對(duì)》:你的認(rèn)知維度,才是命運(yùn)的終極密碼

千古奇文《漁樵問對(duì)》:你的認(rèn)知維度,才是命運(yùn)的終極密碼

職場(chǎng)生成法則
2025-12-30 16:30:03
河北農(nóng)村老人,要怎么熬過這個(gè)寒冬呢?

河北農(nóng)村老人,要怎么熬過這個(gè)寒冬呢?

冰川思想庫(kù)
2026-01-07 11:53:56
WTA500布里斯班站女單16強(qiáng)名單揭曉,前7種子順利晉級(jí)

WTA500布里斯班站女單16強(qiáng)名單揭曉,前7種子順利晉級(jí)

佳佳說奇事故事
2026-01-07 23:06:50
救命!網(wǎng)扒關(guān)曉彤小號(hào)帖文!20年的“三個(gè)人”就意有所指?

救命!網(wǎng)扒關(guān)曉彤小號(hào)帖文!20年的“三個(gè)人”就意有所指?

借你一生
2026-01-07 09:21:43
美軍突襲委內(nèi)瑞拉逮捕馬杜羅,中國(guó)20年前險(xiǎn)遭同樣命運(yùn)

美軍突襲委內(nèi)瑞拉逮捕馬杜羅,中國(guó)20年前險(xiǎn)遭同樣命運(yùn)

遍體鱗傷為我證明
2026-01-05 13:06:43
“美拉德”羽絨服又火了!這么穿減齡又高級(jí),誰見了都夸好看

“美拉德”羽絨服又火了!這么穿減齡又高級(jí),誰見了都夸好看

何有強(qiáng)
2026-01-06 23:27:28
2026-01-08 01:15:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11983文章數(shù) 176356關(guān)注度
往期回顧 全部

科技要聞

精華!黃仁勛CES記者會(huì):揭秘新款大殺器

頭條要聞

委向美移交5000萬桶原油有部分原本銷往中國(guó) 中方回應(yīng)

頭條要聞

委向美移交5000萬桶原油有部分原本銷往中國(guó) 中方回應(yīng)

體育要聞

賣水果、搬磚的小伙,與哈蘭德爭(zhēng)英超金靴

娛樂要聞

《馬背搖籃》首播,革命的樂觀主義故事

財(cái)經(jīng)要聞

農(nóng)大教授科普:無需過度擔(dān)憂蔬菜農(nóng)殘

汽車要聞

燃油駕趣+智能電感雙Buff 試駕全新奧迪Q5L

態(tài)度原創(chuàng)

本地
時(shí)尚
數(shù)碼
教育
公開課

本地新聞

“閩東利劍·惠民安商”高效執(zhí)行專項(xiàng)行動(dòng)

李夢(mèng)系穿搭,就這么養(yǎng)成了

數(shù)碼要聞

技嘉Z890主板適配英特爾新處理器,還展示256GB內(nèi)存!

教育要聞

中等生的“勤奮”,為何毫無回報(bào)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版