国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DPO「只看總分不看細(xì)節(jié)」?TI-DPO用Token重要性重塑大模型對(duì)齊

0
分享至



在當(dāng)今的大模型后訓(xùn)練(Post-training)階段,DPO(直接偏好優(yōu)化) 憑借其無(wú)需訓(xùn)練獨(dú)立 Reward Model 的優(yōu)雅設(shè)計(jì)和高效性,成功取代 PPO 成為業(yè)界的 「版本之子」,被廣泛應(yīng)用于 Llama-3、Mistral 等頂流開源模型的對(duì)齊中。

然而,隨著對(duì)模型能力要求的日益嚴(yán)苛,DPO 的缺陷逐漸浮出水面。

究竟該如何讓 DPO 學(xué)會(huì)「去偽存真」,精準(zhǔn)識(shí)別出那些真正決定勝負(fù)的 Critical Tokens?

針對(duì)這一問題,來(lái)自中國(guó)科學(xué)院自動(dòng)化研究所、字節(jié)跳動(dòng)、微軟亞洲研究院和北京科技大學(xué)的研究者們?cè)诒贿x為 ICLR 2026 Oral 的新工作中聯(lián)合提出了一種全新的 TI-DPO 框架。



  • 論文:《Token-Importance Guided Direct Preference Optimization》
  • 論文地址:https://arxiv.org/abs/2505.19653
  • 開源地址:https://github.com/gracefulning/TIDPO

研究背景與意義

主流方法正面臨兩個(gè)核心難題,這使得模型難以實(shí)現(xiàn)真正精細(xì)化的語(yǔ)義控制:

  • 痛點(diǎn)一:序列級(jí)的「二元對(duì)立」陷阱。傳統(tǒng)方法依然停留在序列級(jí)別(Sequence-level)的粗粒度優(yōu)化上,簡(jiǎn)單粗暴地將數(shù)據(jù)劃分為好與壞。這種二元監(jiān)督信號(hào)極度匱乏,因?yàn)樗谏w高質(zhì)量回復(fù)中可能混雜著瑕疵 Token 的事實(shí),導(dǎo)致了模型在連續(xù)語(yǔ)義空間中微調(diào)效果差,甚至引發(fā)采樣分布偏移(Distribution Shift)。
  • 痛點(diǎn)二:被偏差綁架的「?jìng)巍怪匾?/strong>。即使試圖下沉到 Token 級(jí)別,現(xiàn)有的重要性評(píng)估手段也存在問題。許多方法依賴概率預(yù)測(cè)或簡(jiǎn)單加權(quán),這導(dǎo)致它們直接繼承了模型架構(gòu)的固有缺陷 ——「U 型注意力偏差」(Lost in the Middle),模型天生傾向于過度關(guān)注首尾 Token 而忽略中間的核心語(yǔ)義。

TI-DPO 的核心機(jī)制

TI-DPO 的核心思想是:既然 Token 生而不同,那就給它們「加權(quán)」。 通過引入混合加權(quán)機(jī)制和三元組損失,TI-DPO 能夠精準(zhǔn)識(shí)別并放大「關(guān)鍵 Token」的信號(hào),同時(shí)抑制噪聲,從而實(shí)現(xiàn)比傳統(tǒng) DPO 更準(zhǔn)、更穩(wěn)的對(duì)齊效果。它主要包含兩大核心機(jī)制:

1. 混合加權(quán)機(jī)制 (Hybrid Weighting)

為了找出誰(shuí)才是決定回復(fù)質(zhì)量的「勝負(fù)手」,TI-DPO 設(shè)計(jì)了一套數(shù)據(jù)驅(qū)動(dòng)與先驗(yàn)結(jié)構(gòu)相結(jié)合的權(quán)重計(jì)算法:

  • 梯度歸因:計(jì)算 Loss 對(duì)每個(gè) Token Embedding 的梯度范數(shù)。簡(jiǎn)單來(lái)說,誰(shuí)對(duì)最終輸出貢獻(xiàn)大,誰(shuí)的權(quán)重就高。
  • 高斯先驗(yàn):針對(duì) LLM 常見的「U 型注意力偏差」(過度關(guān)注開頭結(jié)尾),引入高斯分布強(qiáng)制模型關(guān)注中間的語(yǔ)義核心。

最終的 Token 權(quán)重 ,是這兩者的凸組合:



新的 Token 級(jí) DPO 加權(quán)損失函數(shù)如下:



2. 三元組損失 (Triplet Loss)

TI-DPO 不再滿足于非黑即白的二元對(duì)比,而是引入了度量學(xué)習(xí)中的神器Triplet Loss。它在訓(xùn)練過程中構(gòu)建了三個(gè)角色:







TI-DPO 損失函數(shù):TI-DPO 的最終優(yōu)化目標(biāo)便是兩者的加權(quán)和:



實(shí)驗(yàn)結(jié)果

為了驗(yàn)證 TI-DPO 的實(shí)際戰(zhàn)力,研究團(tuán)隊(duì)在 Llama-3 (8B/3B) 和 Mistral-7B 等多個(gè)主流基座模型上進(jìn)行了測(cè)試,對(duì)比了包括 DPO、SimPO 以及最近大火的 GRPO 等 10+ 種對(duì)齊算法。

1. 綜合能力評(píng)估

如圖 1,在 Llama-3.1-8B-Instruct 基座上,TI-DPO 的綜合平均分達(dá)到 62.3,超過 GRPO (62.1) 和 DPO (60.8) 。



2. 細(xì)分領(lǐng)域表現(xiàn)優(yōu)秀

在 IFEval(指令遵循)、TruthfulQA(真實(shí)性)和 HumanEval(代碼生成) 這三大最考驗(yàn)細(xì)節(jié)把握的任務(wù)上,TI-DPO 的表現(xiàn)大幅超越了 DPO、SimPO 以及 GRPO。





3. 消融實(shí)驗(yàn):核心組件缺一不可

Table 2 的消融實(shí)驗(yàn)結(jié)果表明,TI-DPO 的所有核心組件(包括混合加權(quán)機(jī)制、高斯先驗(yàn)和三元組損失)對(duì)于模型性能都至關(guān)重要,移除任意模塊均會(huì)導(dǎo)致在通用能力、數(shù)學(xué)推理及代碼生成等各項(xiàng)指標(biāo)上的顯著下降。



4. 案例展示:一眼看懂「關(guān)鍵 Token」

為了驗(yàn)證 TI-DPO 是否真的學(xué)會(huì)了「抓重點(diǎn)」,作者展示了一個(gè)醫(yī)療咨詢案例(「頭痛該怎么辦?」)的權(quán)重可視化熱力圖。

  • 在 Preferred 回復(fù)中(左):模型給「seek medical attention」和「promptly」分配了極高的權(quán)重(紅色深色區(qū)域),抓住了「安全第一」的核心。
  • 在 Non-Preferred 回復(fù)中(右):模型精準(zhǔn)「抓包」了「painkillers casually」這種潛在的高風(fēng)險(xiǎn)建議,并賦予高權(quán)重加以懲罰。
  • Intermediate Response是模型當(dāng)前的自我水平:「建議多休息,如果惡化再看醫(yī)生」。TI-DPO 引導(dǎo)模型在生成過程中,不斷向 Preferred 的價(jià)值觀靠攏,同時(shí)規(guī)避 Non-preferred 的陷阱,從而完成從粗放向精細(xì)的進(jìn)化。



這種有力地證明 TI-DPO 不是在死記硬背,而是真的讀懂了人類價(jià)值觀。

總結(jié)與貢獻(xiàn)

TI-DPO 的提出,為大模型對(duì)齊從粗放的序列級(jí)優(yōu)化向更精細(xì)的 Token 級(jí)控制轉(zhuǎn)變提供了一個(gè)有力的嘗試。它不再滿足于籠統(tǒng)地判斷回答的「好壞」,而是試圖厘清每一個(gè) Token 在價(jià)值對(duì)齊中的真實(shí)貢獻(xiàn)。

實(shí)驗(yàn)結(jié)果表明,TI-DPO 在指令遵循、真實(shí)性與代碼生成等任務(wù)上,相比 GRPO 等基線取得了穩(wěn)定的性能提升,驗(yàn)證了提升數(shù)據(jù)利用的「顆粒度」是增強(qiáng)模型能力的有效路徑。

TI-DPO 以其在去噪和細(xì)節(jié)控制上的特性,為后續(xù)的 RLHF 研究提供了一個(gè)值得關(guān)注的新方向。我們期待看到更多圍繞「細(xì)粒度價(jià)值對(duì)齊」的探索,推動(dòng)大模型向著更精準(zhǔn)、更可控的方向進(jìn)化。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
斯諾克重磅官宣!奧沙利文出戰(zhàn)元老世錦賽!馬克威廉姆斯?fàn)幑诔袎?>
    </a>
        <h3>
      <a href=林子說事
2026-02-24 16:40:57
歐冠一夜4戰(zhàn)!將有4隊(duì)出線:頭號(hào)黑馬呼之欲出 2隊(duì)晉級(jí)無(wú)憂

歐冠一夜4戰(zhàn)!將有4隊(duì)出線:頭號(hào)黑馬呼之欲出 2隊(duì)晉級(jí)無(wú)憂

葉青足球世界
2026-02-24 09:46:59
《鏢人》原著作者許先哲的逆襲:欠債青年畫出“世界級(jí)水平中國(guó)動(dòng)漫精品”

《鏢人》原著作者許先哲的逆襲:欠債青年畫出“世界級(jí)水平中國(guó)動(dòng)漫精品”

封面新聞
2026-02-24 13:33:07
不能令人信服的通報(bào),媒體就別轉(zhuǎn)發(fā)了吧!

不能令人信服的通報(bào),媒體就別轉(zhuǎn)發(fā)了吧!

林中木白
2026-02-23 12:40:41
破案了!谷愛凌嘴里那個(gè)東西,關(guān)鍵時(shí)刻能救命,甚至能防腦震蕩!

破案了!谷愛凌嘴里那個(gè)東西,關(guān)鍵時(shí)刻能救命,甚至能防腦震蕩!

小娛樂悠悠
2026-02-24 12:57:58
三位軍長(zhǎng),同時(shí)被破格提拔,當(dāng)了大軍區(qū)司令

三位軍長(zhǎng),同時(shí)被破格提拔,當(dāng)了大軍區(qū)司令

文史茶館2020
2026-02-23 14:35:47
36 歲離婚女子獨(dú)自過年崩潰痛哭:沒老公沒孩子,誰(shuí)還會(huì)娶我

36 歲離婚女子獨(dú)自過年崩潰痛哭:沒老公沒孩子,誰(shuí)還會(huì)娶我

一盅情懷
2026-02-23 14:10:06
香港身份爛尾潮已來(lái)!12萬(wàn)內(nèi)地中產(chǎn),正在被精準(zhǔn)收割

香港身份爛尾潮已來(lái)!12萬(wàn)內(nèi)地中產(chǎn),正在被精準(zhǔn)收割

社會(huì)日日鮮
2026-02-22 04:38:12
毒梟死亡引發(fā)多州暴力事件 墨西哥總統(tǒng)呼吁民眾保持冷靜

毒梟死亡引發(fā)多州暴力事件 墨西哥總統(tǒng)呼吁民眾保持冷靜

極目新聞
2026-02-23 09:14:54
西部亂了,雷霆重返第1卻高興不起來(lái),3-6名太激烈,附加賽無(wú)意義

西部亂了,雷霆重返第1卻高興不起來(lái),3-6名太激烈,附加賽無(wú)意義

鐵甲西奇
2026-02-24 15:24:44
不好的征兆!美軍又在吃出征宴了!龍蝦、蟹腿、牛排隨便挑著吃!

不好的征兆!美軍又在吃出征宴了!龍蝦、蟹腿、牛排隨便挑著吃!

我心縱橫天地間
2026-02-23 13:20:50
孔蒂與那不勒斯的緣分將盡!衛(wèi)冕冠軍那不勒斯賽季表現(xiàn)糟糕

孔蒂與那不勒斯的緣分將盡!衛(wèi)冕冠軍那不勒斯賽季表現(xiàn)糟糕

小驛拍客在北漂
2026-02-24 03:09:06
央媒曝光:14種品牌奶粉都是假的!原料為奶精+淀粉,已銷往全國(guó)

央媒曝光:14種品牌奶粉都是假的!原料為奶精+淀粉,已銷往全國(guó)

云舟史策
2026-02-23 16:26:54
國(guó)安部披露:境外反華勢(shì)力以快速“入籍”為餌,誘騙我國(guó)公民參加反華活動(dòng)

國(guó)安部披露:境外反華勢(shì)力以快速“入籍”為餌,誘騙我國(guó)公民參加反華活動(dòng)

澎湃新聞
2026-02-24 07:56:11
山姆超市偶遇金莎和孫丞瀟,金莎本人不年輕,一看就比老公大很多

山姆超市偶遇金莎和孫丞瀟,金莎本人不年輕,一看就比老公大很多

阿廢冷眼觀察所
2026-02-23 22:31:01
夢(mèng)鴿心中永遠(yuǎn)的痛:如今58歲的她,已經(jīng)為兒子鋪好下一條路了嗎?

夢(mèng)鴿心中永遠(yuǎn)的痛:如今58歲的她,已經(jīng)為兒子鋪好下一條路了嗎?

小熊侃史
2026-02-24 18:06:25
當(dāng)?shù)厝艘脖辉?,蓬萊酒樓屢教不改連夜被摘牌,老板透露身份還掙扎

當(dāng)?shù)厝艘脖辉?,蓬萊酒樓屢教不改連夜被摘牌,老板透露身份還掙扎

社會(huì)日日鮮
2026-02-24 09:27:23
從阿森納挖來(lái)的瑰寶!曼聯(lián)小將狂轟4球,青訓(xùn)主帥直言潛力未觸頂

從阿森納挖來(lái)的瑰寶!曼聯(lián)小將狂轟4球,青訓(xùn)主帥直言潛力未觸頂

夜白侃球
2026-02-24 18:59:48
59歲佟瑞欣近況曝光!娶生病變胖演員恩愛27年,兒女雙全很幸福

59歲佟瑞欣近況曝光!娶生病變胖演員恩愛27年,兒女雙全很幸福

代軍哥哥談娛樂
2026-02-23 09:47:05
中國(guó)正在大量囤油,一度吞掉世界9成囤量,有什么大事要發(fā)生?

中國(guó)正在大量囤油,一度吞掉世界9成囤量,有什么大事要發(fā)生?

森羅萬(wàn)象視頻
2026-02-23 21:13:07
2026-02-24 20:12:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12344文章數(shù) 142569關(guān)注度
往期回顧 全部

科技要聞

AI顛覆發(fā)展最新犧牲品!IBM跳水重挫超13%

頭條要聞

20家日本實(shí)體被列入管制名單 中方:完全正當(dāng) 合理合法

頭條要聞

20家日本實(shí)體被列入管制名單 中方:完全正當(dāng) 合理合法

體育要聞

蘇翊鳴總結(jié)米蘭征程:我仍是那個(gè)熱愛單板滑雪的少年

娛樂要聞

汪小菲官宣三胎出生:承諾會(huì)照顧好3個(gè)孩子

財(cái)經(jīng)要聞

縣城消費(fèi)「限時(shí)繁榮」了十天

汽車要聞

入門即滿配 威蘭達(dá)AIR版上市 13.78萬(wàn)元起

態(tài)度原創(chuàng)

旅游
家居
藝術(shù)
數(shù)碼
親子

旅游要聞

海南2026年春節(jié)假期接待游客超1232萬(wàn)人次

家居要聞

本真棲居 愛暖伴流年

藝術(shù)要聞

2025年第八屆全國(guó)青年美展 | 油畫作品選刊

數(shù)碼要聞

宜鼎推出CXL AIC擴(kuò)展卡:可為兼容設(shè)備擴(kuò)展最大256GB內(nèi)存

親子要聞

萌娃質(zhì)問老爸:媽媽為什么嫁給你,老爸的回答竟讓萌娃面露難色

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版