国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

長文本生成迎來新突破:拓元智慧推出 DrDiff ,實現(xiàn)效率與質(zhì)量雙提升

0
分享至


DrDiff框架的核心思想是動態(tài)化,其創(chuàng)新性體現(xiàn)在三個緊密協(xié)同的技術(shù)組件上,宛如為模型裝上了智能調(diào)度中樞”。

作者丨可澤

拓元智慧團隊聯(lián)合來自中山大學(xué)人機物智能融合實驗室、阿里巴巴集團及Snap Inc的研究團隊,針對了困擾業(yè)界已久的長文本生成中“效率”與“質(zhì)量”難以兼得的根本性挑戰(zhàn),開發(fā)出DrDiff(動態(tài)路由擴散)框架(已被NLP 頂會 EMNLP 2025錄用接收)。該框架通過創(chuàng)新的動態(tài)資源調(diào)度機制,在保證生成內(nèi)容連貫性的同時,將計算復(fù)雜度降至線性,為AI輔助學(xué)術(shù)科研、長篇內(nèi)容創(chuàng)作、自動報告生成等應(yīng)用提供了有力的基礎(chǔ)支撐。


論文題目:

DrDiff: Dynamic Routing Diffusion with Hierarchical Attention for

Breaking the Efficiency-Quality Trade-off

論文鏈接:
https://arxiv.org/pdf/2509.02785

論文通訊作者可澤博士:國家級青年人才、中山大學(xué)計算機學(xué)院副教授、博士生導(dǎo)師、拓元智慧高級算法總監(jiān),曾獲吳文俊人工智能自然科學(xué)獎二等,人工智能學(xué)會CAAI優(yōu)秀博士論文獎,國際著名學(xué)術(shù)評估機構(gòu)AI 2000年最有影響力學(xué)者提名獎。主要研究方向有因果驅(qū)動認(rèn)知的復(fù)雜推理、多智能體良好高階推理、多模態(tài)生產(chǎn)式AI、具身智能等。

01

研究背景:長文本生成的固有瓶頸

盡管大型語言模型(LLM)在各類任務(wù)上表現(xiàn)出色,但在生成超過數(shù)萬token的超長文本時,其性能會顯著下降。核心問題源于Transformer架構(gòu)固有的二次計算復(fù)雜度(O(n2)),導(dǎo)致處理長序列時計算資源消耗巨大。現(xiàn)有解決方案,如稀疏注意力(如Longformer)或擴散模型(如DiffuSeq),多采用固定模式的資源分配,無法靈活應(yīng)對文本中不同片段、不同生成階段的異質(zhì)性需求,從而導(dǎo)致:

  • 長程依賴衰減:模型難以維持遠(yuǎn)距離的語義連貫性,易出現(xiàn)內(nèi)容重復(fù)或邏輯斷裂。

  • 資源分配次優(yōu):對簡單和復(fù)雜文本片段“一視同仁”,造成算力浪費或關(guān)鍵部分計算不足。

  • 生成質(zhì)量隨長度退化:文本越長,模型越容易“遺忘”前文信息,質(zhì)量下降越明顯。

02

核心技術(shù)突破:動態(tài)智能的三大支柱

DrDiff框架的核心思想是“動態(tài)化”,其創(chuàng)新性體現(xiàn)在三個緊密協(xié)同的技術(shù)組件上,宛如為模型裝上了“智能調(diào)度中樞”:

1.分層稀疏注意力(HSA):自適應(yīng)的感受野切換

HSA機制徹底改變了固定注意力模式的思路。它根據(jù)實時輸入序列長度(N)動態(tài)構(gòu)建稀疏注意力掩碼:


  • 短文本N ≤ 512啟用密集注意力模式,捕獲全部細(xì)節(jié)。

  • 中等文本(512 < N ≤ 4K)切換至局部(窗口w=256)+ 稀疏膨脹(δ?) 組合模式,高效覆蓋中短程依賴。

  • 長文本(4K< N ≤ 8K)采用稀疏膨脹(δ? > δ?)+ 全局節(jié)點(G?) 模式,擴大感受野。

  • 超長文本(N > 8K)啟用超長序列模式(M??K?),結(jié)合稀疏局部注意力和基于關(guān)鍵token比例(ρ=0.05)的全局注意力,理論上將復(fù)雜度降至線性O(shè)(n)。
    這種基于長度的分層策略,確保了無論文本多長,模型總能以最經(jīng)濟的計算成本激活最合適的注意力模式。

2.動態(tài)專家調(diào)度(DES):按需分配的計算資源

DrDiff在去噪網(wǎng)絡(luò)的前饋網(wǎng)絡(luò)(FFN)層集成了混合專家(MoE)架構(gòu)。其動態(tài)性體現(xiàn)在:

  • 專業(yè)化專家:不同專家可具有不同容量(如隱藏層維度為標(biāo)準(zhǔn)FFN的0.5倍)或不同結(jié)構(gòu)(如特定激活函數(shù)),甚至可在預(yù)訓(xùn)練時針對語法生成、主題內(nèi)容等子任務(wù)進行輕微微調(diào),形成功能特化。

  • 智能路由:一個輕量級路由網(wǎng)絡(luò)(小型MLP)會分析經(jīng)過HSA處理后的隱藏狀態(tài),該狀態(tài)已編碼了當(dāng)前上下文的復(fù)雜度和特征。路由網(wǎng)絡(luò)據(jù)此生成門控權(quán)重,動態(tài)選擇Top-1或Top-2最合適的專家來處理當(dāng)前token。

  • 負(fù)載均衡:通過輔助損失函數(shù)確保所有專家都能得到充分訓(xùn)練,避免某些專家過載而其他專家閑置。這意味著簡單、重復(fù)的文本由“輕量級專家”快速處理,而復(fù)雜、關(guān)鍵的語義樞紐則分配給“重量級專家”深度計算,實現(xiàn)了前所未有的計算效率。

3.語義錨點狀態(tài)(SAS):引導(dǎo)擴散路徑的“燈塔”

為優(yōu)化超長文本的生成路徑,DrDiff在去噪過程的特定中間時間步(如t? = T/4, T/2, 3T/4)引入語義錨點狀態(tài)(???)作為顯式引導(dǎo)。

  • 構(gòu)建方式:???可以是基于輸入文本Z?的核心語義摘要(通過預(yù)訓(xùn)練的輕量摘要模型獲得)所對應(yīng)的理想噪聲狀態(tài),也可以是通過對大量真實文本在t?時刻的噪聲狀態(tài)進行聚類得到的典型簇中心。

  • 訓(xùn)練與推理:在訓(xùn)練時,除了標(biāo)準(zhǔn)的去噪損失,還增加了一個SAS引導(dǎo)損失(L_SAS),強制模型在關(guān)鍵時間步的預(yù)測狀態(tài)向預(yù)設(shè)的語義錨點靠近。這使得整個去噪軌跡更加平滑、目標(biāo)明確。

  • 加速推理:這種“燈塔”式的指引顯著降低了擴散過程的隨機性和曲折度,使得DPM-Solver++等高效的ODE求解器能夠采用更大的步長,從而將采樣步數(shù)從訓(xùn)練時的2000步大幅減少至50步左右,實現(xiàn)了數(shù)量級般的生成加速。

03

權(quán)威評測結(jié)果:小模型,大能量

研究成果在多項標(biāo)準(zhǔn)基準(zhǔn)測試中得到了驗證:

  • 長文本理解(LongBench):參數(shù)量僅2.2億(220M)的DrDiff,取得了33.5%的綜合準(zhǔn)確率,性能超越了參數(shù)量高達700億(70B)的LLaMA-3.1-70B(32.1%)等大型模型。尤其在處理長序列(35.6%)長對話(38.7%)長結(jié)構(gòu)化數(shù)據(jù)(34.6%)任務(wù)上展現(xiàn)出顯著優(yōu)勢。


  • 生成與問答任務(wù):在WikiHop、TriviaQA、HotpotQA等數(shù)據(jù)集上,DrDiff的綜合表現(xiàn)(平均分?jǐn)?shù)~80.7)與GPT-4o、Qwen2.5-72B等頂級閉源模型仍存差距,但顯著領(lǐng)先于Longformer、LLaMA系列同參數(shù)量級模型及DiffuSeq等擴散基線,證明了其架構(gòu)的優(yōu)越性。


  • 效率驗證:實驗表明,在處理16K token的長序列時,DrDiff的訓(xùn)練時間比DiffuSeq減少56%,甚至比高度優(yōu)化的Longformer快9%-10%。


04

未來展望與意義

DrDiff的成功標(biāo)志著長文本生成進入了“動態(tài)智能化”的新階段。其提出的動態(tài)路由、分層注意力和語義引導(dǎo)機制,為后續(xù)相關(guān)研究提供了寶貴的方向。團隊計劃未來進一步探索其在極長文本(>20K token)、多模態(tài)數(shù)據(jù)融合以及特定垂直領(lǐng)域(如科技、法律文獻生成)中的應(yīng)用,持續(xù)推動生成式AI的能力邊界。

未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
事業(yè)巔峰遠(yuǎn)赴美國,被老外“玩膩”后晚年回國,如今變成了這樣!

事業(yè)巔峰遠(yuǎn)赴美國,被老外“玩膩”后晚年回國,如今變成了這樣!

歸史
2025-12-09 11:10:44
54歲楊鈺瑩近況曝光:定居深圳,每天打理菜園子,生活平淡

54歲楊鈺瑩近況曝光:定居深圳,每天打理菜園子,生活平淡

小徐講八卦
2025-11-17 07:29:28
越南談中越戰(zhàn)爭:一代人的犧牲和貢獻,換來的是40年的經(jīng)濟滯后

越南談中越戰(zhàn)爭:一代人的犧牲和貢獻,換來的是40年的經(jīng)濟滯后

小豫講故事
2025-12-19 06:00:04
終于知道為什么內(nèi)地人很難融入香港人的圈子了,網(wǎng)友的回答真相了

終于知道為什么內(nèi)地人很難融入香港人的圈子了,網(wǎng)友的回答真相了

一言二拍pro
2025-12-19 12:45:38
天皇親自出山,日本對中國的反擊正式開始,發(fā)生了三件事

天皇親自出山,日本對中國的反擊正式開始,發(fā)生了三件事

別讓往昔的悲傷和對未來的恐懼
2025-12-19 13:52:51
卷走53億!又一大佬帶全家跑路,欠中國銀行20億,投資者血本無歸

卷走53億!又一大佬帶全家跑路,欠中國銀行20億,投資者血本無歸

以茶帶書
2025-12-09 23:33:58
徐達剛送走朱元璋就對夫人說:小兒子長得最不像我快讓他混出城去

徐達剛送走朱元璋就對夫人說:小兒子長得最不像我快讓他混出城去

忠于法紀(jì)
2025-12-18 19:59:13
羽球總決賽:國羽又有2人被淘汰!女雙贏球出局,李詩灃3連敗?

劉姚堯的文字城堡
2025-12-19 13:15:08

美國肯尼迪中心更名為“特朗普-肯尼迪中心” ,肯尼迪家族強烈反對

美國肯尼迪中心更名為“特朗普-肯尼迪中心” ,肯尼迪家族強烈反對

澎湃新聞
2025-12-19 13:49:02
何晴離世不到48小時,入殮師曝光告別儀式內(nèi)幕,惡心的事發(fā)生了

何晴離世不到48小時,入殮師曝光告別儀式內(nèi)幕,惡心的事發(fā)生了

攬星河的筆記
2025-12-17 21:45:40
重磅“押注”!廣西大學(xué)新校長沒等來院士,卻押中一條更“稀缺”

重磅“押注”!廣西大學(xué)新校長沒等來院士,卻押中一條更“稀缺”

侃故事的阿慶
2025-12-19 12:16:44
全國統(tǒng)一判:“爛尾樓”購房者可解除合同,不再支付按揭貸款,由開發(fā)商兜底!

全國統(tǒng)一判:“爛尾樓”購房者可解除合同,不再支付按揭貸款,由開發(fā)商兜底!

微法官
2025-10-15 08:06:34
罪惡的柬埔寨,讓中國人聞風(fēng)喪膽?為什么是東南亞最可怕的國家?

罪惡的柬埔寨,讓中國人聞風(fēng)喪膽?為什么是東南亞最可怕的國家?

歷史人文2
2025-12-14 09:28:10
多家銀行調(diào)降美元存款利率

多家銀行調(diào)降美元存款利率

財聯(lián)社
2025-12-19 07:00:05
仇英《江南春卷》偽作?本人鑒定有三大弊端明顯筆誤:可判斷真?zhèn)?>
    </a>
        <h3>
      <a href=作家方曉莉
2025-12-18 20:50:43
外媒:在中國支持下,委內(nèi)瑞拉派出軍艦,護送油輪突破美國封鎖

外媒:在中國支持下,委內(nèi)瑞拉派出軍艦,護送油輪突破美國封鎖

頭條爆料007
2025-12-19 08:27:51
當(dāng)你有個快退休的上班搭子!我要笑死在評論區(qū)

當(dāng)你有個快退休的上班搭子!我要笑死在評論區(qū)

另子維愛讀史
2025-12-18 16:35:05
東航啟用全球航司首臺C919飛行模擬機

東航啟用全球航司首臺C919飛行模擬機

Wings航空
2025-12-19 15:35:50
楊瀚森頻繁下放折騰不?差旅食宿報銷不?

楊瀚森頻繁下放折騰不?差旅食宿報銷不?

北青網(wǎng)-北京青年報
2025-12-19 15:48:03
韓媒:徐正源原本已自動激活續(xù)約條件,但最終其主動放棄續(xù)約

韓媒:徐正源原本已自動激活續(xù)約條件,但最終其主動放棄續(xù)約

懂球帝
2025-12-19 11:25:47
2025-12-19 16:31:00
AI科技評論 incentive-icons
AI科技評論
點評學(xué)術(shù),服務(wù)AI
7012文章數(shù) 20715關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

剎車失靈時速115飆490公里司機:下車后渾身抖無法說話

頭條要聞

剎車失靈時速115飆490公里司機:下車后渾身抖無法說話

體育要聞

沒有塔圖姆,還有塔禿姆

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無期

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

游戲
時尚
本地
房產(chǎn)
軍事航空

《噬血代碼2》PC配置需求公開 推薦RTX 3080游玩

女友BELLA+封面 | Jimmy&Ohm:人生拼圖

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

房產(chǎn)要聞

猛降1.65億!大唐集團,再次出售三亞核心資產(chǎn)!

軍事要聞

媒體:美方官宣史上對臺單筆最大軍售 野心藏不住了

無障礙瀏覽 進入關(guān)懷版