国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

大模型聽(tīng)懂語(yǔ)音卻變笨?港中深與微軟聯(lián)合解決語(yǔ)音大模型降智問(wèn)題

0
分享至



從 GPT-4o 開(kāi)啟全能(Omni)交互時(shí)代至今,Speech LLM 雖然在擬人化和低延遲上取得了長(zhǎng)足進(jìn)步,但面臨一個(gè)令人困擾的現(xiàn)象:當(dāng)大語(yǔ)言模型(LLM)被賦予 “聽(tīng)覺(jué)” 后,它的智商下降了。

即便是同樣的底層模型,一旦輸入從文本變成語(yǔ)音,其邏輯推理能力(Reasoning)往往會(huì)顯著衰退。這種現(xiàn)象被稱為“模態(tài)推理鴻溝”(Modality Reasoning Gap)

這個(gè)難題并非僅存在于學(xué)術(shù)界,而是 OpenAI、Google、Meta 等行業(yè)巨頭都在試圖跨越的 “天花板”:

  • 根據(jù)Big Bench Audio評(píng)測(cè),以 GPT-4o 為例,在純文本任務(wù)(Text-to-Text)的準(zhǔn)確率達(dá)92%;但一旦切換到端到端語(yǔ)音模式(Speech-to-Speech),其得分跌至66%。這中間26%的巨大跌幅,就是模型引入語(yǔ)音而付出的代價(jià)。
  • Google Gemini 團(tuán)隊(duì)在技術(shù)分享中將其定義為Intelligence Gap;而 Meta 研究員在 NeurIPS 2025 上更是直言這是一種Intelligence Regression,并提出了一個(gè)生動(dòng)的概念Multimodal Tax,即引入音頻等多模態(tài)數(shù)據(jù)往往會(huì) “擠占” 模型用于純推理的能力。





為了解決這一核心痛點(diǎn),香港中文大學(xué)(深圳)與微軟團(tuán)隊(duì)聯(lián)合提出了TARS(Trajectory Alignment for Reasoning in Speech)。這是一項(xiàng)基于強(qiáng)化學(xué)習(xí)(RL)的全新對(duì)齊框架,它不依賴死記硬背的監(jiān)督微調(diào),而是通過(guò)對(duì)齊 “思維軌跡”,成功將語(yǔ)音輸入的推理表現(xiàn)100% 恢復(fù)甚至超越了純文本基座水平。



  • 論文題目: Closing the Modality Reasoning Gap for Speech Large Language Models
  • 論文鏈接: https://arxiv.org/abs/2601.05543

核心痛點(diǎn):為什么模型 “聽(tīng)” 得越多,“想” 得越偏?

目前的語(yǔ)音大模型(Speech LLM)通常采用 “語(yǔ)音編碼器 + 適配器 + LLM” 的三段式架構(gòu)。理論上,這應(yīng)該能讓語(yǔ)音輸入無(wú)縫借用 LLM 強(qiáng)大的推理大腦。但現(xiàn)實(shí)是:引入語(yǔ)音模態(tài)后,推理能力出現(xiàn)了斷崖式下跌

此前的研究主要試圖從兩個(gè)方向修補(bǔ)這一鴻溝,但都存在缺陷:

1. 輸入端強(qiáng)行對(duì)齊(Input Fusion):

試圖讓語(yǔ)音特征在輸入層就長(zhǎng)得和文本 Embedding 一樣。但語(yǔ)音天然包含語(yǔ)氣、停頓等富語(yǔ)言信息,與緊湊的文本本質(zhì)不同。僅依靠輸入對(duì)齊這種表面功夫,無(wú)法解決深層的表征漂移(Representation Drift)—— 隨著 Transformer 層數(shù)加深,語(yǔ)音激發(fā)的隱藏狀態(tài)(Hidden States)會(huì)逐漸偏離文本的思考軌跡(即相同語(yǔ)義純文本輸入時(shí),文本激發(fā)的隱藏狀態(tài)),導(dǎo)致 “想岔了”。

2. 輸出端死記硬背(SFT / 蒸餾):

這是最主流的做法,即通過(guò)監(jiān)督微調(diào)(SFT)利用靜態(tài)的 “語(yǔ)音 - 文本” 數(shù)據(jù)對(duì)進(jìn)行訓(xùn)練,或者通過(guò)知識(shí)蒸餾(Distillation)讓文本分支作為 “老師” 來(lái)指導(dǎo)語(yǔ)音分支這個(gè) “學(xué)生”。這些本質(zhì)上都屬于 Off-policy(離線策略),試圖強(qiáng)行讓語(yǔ)音分支去模仿文本的 Token 輸出分布。但這有兩個(gè)問(wèn)題:

  • 目標(biāo)不可達(dá): 語(yǔ)音的噪聲和副語(yǔ)言特征決定了其輸出分布不可能和純文本完全一致。
  • Exposure Bias: 這種靜態(tài)監(jiān)督無(wú)法容錯(cuò)。推理時(shí)只要錯(cuò)一個(gè) Token,模型就會(huì)跌入訓(xùn)練未見(jiàn)過(guò)的狀態(tài),導(dǎo)致后續(xù)回復(fù)全盤(pán)崩潰。

TARS 的核心洞察在于: 既然死記硬背行不通,能不能用強(qiáng)化學(xué)習(xí)(RL),讓模型自己在 “思考過(guò)程” 中去動(dòng)態(tài)對(duì)齊文本的軌跡,而不是對(duì)齊具體的字?

TARS:用強(qiáng)化學(xué)習(xí)重塑語(yǔ)音推理軌跡

TARS 是一個(gè)基于On-policy RL(具體采用 GRPO)的對(duì)齊框架。它巧妙地利用模型自身的文本分支作為 “動(dòng)態(tài)導(dǎo)師”,通過(guò)三個(gè)關(guān)鍵創(chuàng)新,把語(yǔ)音分支的 “腦回路” 掰回來(lái)。



創(chuàng)新一:表征對(duì)齊(Representation Alignment)

既然 Gap 和 “表征漂移” 相關(guān),TARS 選擇直接從模型內(nèi)部開(kāi)刀。

  • 做法: 計(jì)算語(yǔ)音作為輸入,推理過(guò)程中每一層的隱藏狀態(tài)(Hidden States),與同一模型在文本輸入下(文本輸入和語(yǔ)音輸入在語(yǔ)義上完全相同)的隱藏狀態(tài)計(jì)算余弦相似度,作為表征對(duì)齊獎(jiǎng)勵(lì)。



  • 作用: 這就像給語(yǔ)音分支裝了一個(gè) “導(dǎo)航儀”。它不再只關(guān)注結(jié)果,而是引導(dǎo)語(yǔ)音分支的每一層思維路徑都時(shí)刻緊跟文本分支的軌跡,防止跑偏。

創(chuàng)新二:行為對(duì)齊(Behavior Alignment)

為了避免 SFT 的死板,TARS 在輸出端引入了更靈活的對(duì)齊標(biāo)準(zhǔn)。





  • 作用: 解決了 “目標(biāo)不可達(dá)” 的問(wèn)題。允許語(yǔ)音和文本在措辭上有差異,只要邏輯對(duì)、意思對(duì)就能拿分。這讓模型在探索中學(xué)會(huì)了自我修正,而非機(jī)械模仿。

創(chuàng)新三:非對(duì)稱獎(jiǎng)勵(lì)與模態(tài)歸一化

在 RL 訓(xùn)練設(shè)計(jì)上,TARS 針對(duì)模態(tài)差異做了對(duì)應(yīng)優(yōu)化:

1.非對(duì)稱獎(jiǎng)勵(lì)(Asymmetric Reward): 文本分支只拿基礎(chǔ)獎(jiǎng)勵(lì)(保住基本盤(pán)),語(yǔ)音分支額外拿對(duì)齊獎(jiǎng)勵(lì)(拼命追趕文本)。



2.模態(tài)特定歸一化(Modality-Specific Normalization): 這一點(diǎn)至關(guān)重要。由于語(yǔ)音推理更難,往往得分較低,如果混合歸一化,語(yǔ)音分支會(huì)一直收到負(fù)梯度。TARS 將兩者分開(kāi)歸一化,讓語(yǔ)音分支 “自己跟自己比”,保證了持續(xù)的優(yōu)化梯度 —— 即使在所有樣本任務(wù)準(zhǔn)確率都為 0 的極端困難情況下,對(duì)齊獎(jiǎng)勵(lì)依然能指導(dǎo)模型進(jìn)步。



實(shí)驗(yàn)結(jié)果:推理能力 100% 復(fù)原

團(tuán)隊(duì)在UnifiedQA數(shù)據(jù)集上訓(xùn)練,并在MMSUOBQA兩個(gè)高難度語(yǔ)音推理榜單上進(jìn)行了驗(yàn)證。實(shí)驗(yàn)基于 Qwen2.5-Omni 和 Phi-4-MM 架構(gòu)。

核心戰(zhàn)績(jī):MRR 突破 100%





  • 模態(tài)恢復(fù)率(MRR): TARS 在 7B 模型上達(dá)到了100.45%(Table 1 最后一行)。這意味著,語(yǔ)音輸入的推理能力不僅完全填補(bǔ)了引入音頻帶來(lái)的坑,甚至略微超過(guò)了文本基座的表現(xiàn)。
  • 碾壓基線: 相比 SALAD、AlignChat、KD 等 SOTA 方法,TARS 在 Phi-4-MM 上的準(zhǔn)確率達(dá)到了79.80%(Table 1 最后一行),穩(wěn)居 7B 規(guī)模模型第一,且顯著優(yōu)于 SFT 和 DPO 基線(Table 2)。

TARS 不是在拆東墻補(bǔ)西墻!

實(shí)驗(yàn)發(fā)現(xiàn),TARS 的對(duì)齊并不是 “拆東墻補(bǔ)西墻”。在使用 TARS 訓(xùn)練后,模型的文本準(zhǔn)確率也同步提升(Qwen: +2.39%, Phi: +5.43%)。這證明語(yǔ)音模態(tài)學(xué)習(xí)到的知識(shí),能夠同時(shí)增強(qiáng)文本的推理能力。

總結(jié)與展望

TARS 的提出標(biāo)志著語(yǔ)音大模型研究的一個(gè)轉(zhuǎn)折點(diǎn):

1.范式轉(zhuǎn)變: 證明了On-policy RL在解決模態(tài)對(duì)齊問(wèn)題上優(yōu)于傳統(tǒng)的 Off-policy(SFT / 蒸餾)方法。

2.軌跡對(duì)齊: 提出的 “表征(過(guò)程)+ 行為(結(jié)果)” 對(duì)齊策略,有效消除模態(tài)推理鴻溝。

TARS 證明了語(yǔ)音大模型完全可以擁有和純文本模型同等的 “智商”。對(duì)于致力于打造全能型 Omni 模型的研究者而言,TARS 提供了一條通往高智商語(yǔ)音交互的可行路徑。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
英媒:當(dāng)初德日不該逼迫中國(guó)自研機(jī)床技術(shù),如今他們壟斷全球市場(chǎng)

英媒:當(dāng)初德日不該逼迫中國(guó)自研機(jī)床技術(shù),如今他們壟斷全球市場(chǎng)

科普100克克
2026-01-02 17:00:09
黑社會(huì)去哪了?原來(lái)都藏在這4個(gè)場(chǎng)所,老百姓千萬(wàn)別惹

黑社會(huì)去哪了?原來(lái)都藏在這4個(gè)場(chǎng)所,老百姓千萬(wàn)別惹

小鹿姐姐情感說(shuō)
2026-01-18 11:59:56
盤(pán)點(diǎn)史上最震撼的十大對(duì)聯(lián),皆是精妙絕倫的千古絕對(duì),哪個(gè)最妙?

盤(pán)點(diǎn)史上最震撼的十大對(duì)聯(lián),皆是精妙絕倫的千古絕對(duì),哪個(gè)最妙?

長(zhǎng)風(fēng)文史
2026-01-14 11:36:27
還原花榮射殺晁蓋的全過(guò)程:唯一重要目擊者,為何不向林沖報(bào)告?

還原花榮射殺晁蓋的全過(guò)程:唯一重要目擊者,為何不向林沖報(bào)告?

何咯說(shuō)
2026-01-19 13:23:30
爭(zhēng)議 19歲溫瑞博丟冠后沮喪領(lǐng)獎(jiǎng):未與周啟豪合影 沒(méi)打招呼便離開(kāi)

爭(zhēng)議 19歲溫瑞博丟冠后沮喪領(lǐng)獎(jiǎng):未與周啟豪合影 沒(méi)打招呼便離開(kāi)

風(fēng)過(guò)鄉(xiāng)
2026-01-19 07:47:24
王鶴棣演唱會(huì)意外揭露與虞書(shū)欣CP解體,趙露思出現(xiàn)就是最好證明?

王鶴棣演唱會(huì)意外揭露與虞書(shū)欣CP解體,趙露思出現(xiàn)就是最好證明?

東方不敗然多多
2026-01-19 09:42:17
美國(guó)大型科技股在法蘭克福交易所下跌,英偉達(dá)跌2%,微軟與谷歌跌2.3%

美國(guó)大型科技股在法蘭克福交易所下跌,英偉達(dá)跌2%,微軟與谷歌跌2.3%

每日經(jīng)濟(jì)新聞
2026-01-19 15:22:04
問(wèn)政江蘇|采光、綠化難兼顧?蘇州一小區(qū)樹(shù)木被疑“過(guò)度修剪”

問(wèn)政江蘇|采光、綠化難兼顧?蘇州一小區(qū)樹(shù)木被疑“過(guò)度修剪”

揚(yáng)子晚報(bào)
2026-01-19 10:16:04
18日深夜WTT球星賽大結(jié)局:中國(guó)3冠日韓各1冠獎(jiǎng)金出爐

18日深夜WTT球星賽大結(jié)局:中國(guó)3冠日韓各1冠獎(jiǎng)金出爐

風(fēng)風(fēng)拒絕焦慮
2026-01-19 11:06:11
不是迷信!明日大寒,記得:1不扔,2不洗,吃3樣,過(guò)吉祥順心年

不是迷信!明日大寒,記得:1不扔,2不洗,吃3樣,過(guò)吉祥順心年

神牛
2026-01-19 07:31:43
江西殺豬宴跟風(fēng)翻車(chē),百桌宴席涌來(lái)五萬(wàn)人,鎮(zhèn)政府回應(yīng)沒(méi)人掀桌子

江西殺豬宴跟風(fēng)翻車(chē),百桌宴席涌來(lái)五萬(wàn)人,鎮(zhèn)政府回應(yīng)沒(méi)人掀桌子

攬星河的筆記
2026-01-18 22:21:51
深度思考!有色金屬價(jià)上漲,市場(chǎng)崩盤(pán)預(yù)兆?還是逆襲上位的表現(xiàn)?

深度思考!有色金屬價(jià)上漲,市場(chǎng)崩盤(pán)預(yù)兆?還是逆襲上位的表現(xiàn)?

娛樂(lè)八卦木木子
2026-01-19 14:41:51
日本俳句,變成了中國(guó)網(wǎng)友的“鬼子砍刀”

日本俳句,變成了中國(guó)網(wǎng)友的“鬼子砍刀”

虎嗅APP
2025-12-28 14:54:28
王艷曬倆兒子合照!繼子罕出鏡和球球關(guān)系親密,王艷和他像同齡人

王艷曬倆兒子合照!繼子罕出鏡和球球關(guān)系親密,王艷和他像同齡人

琴聲飛揚(yáng)
2026-01-19 14:18:46
中央定調(diào),延遲退休實(shí)施后,晚退休1個(gè)月,養(yǎng)老金待遇能多1%嗎?

中央定調(diào),延遲退休實(shí)施后,晚退休1個(gè)月,養(yǎng)老金待遇能多1%嗎?

另子維愛(ài)讀史
2026-01-17 20:18:37
高齡補(bǔ)貼漲錢(qián)了,2025年,滿70歲的退休人員符合要求嗎?

高齡補(bǔ)貼漲錢(qián)了,2025年,滿70歲的退休人員符合要求嗎?

貓叔東山再起
2026-01-13 10:05:03
精致的職場(chǎng)小姐姐

精致的職場(chǎng)小姐姐

牛彈琴123456
2026-01-14 10:31:51
涉嫌嚴(yán)重違紀(jì)違法,正廳級(jí)干部周雄被查

涉嫌嚴(yán)重違紀(jì)違法,正廳級(jí)干部周雄被查

吉刻新聞
2026-01-18 19:30:13
別再可憐李詠了!離世7年后醫(yī)生揭秘離世真相,難怪選擇葬身美國(guó)

別再可憐李詠了!離世7年后醫(yī)生揭秘離世真相,難怪選擇葬身美國(guó)

LULU生活家
2025-12-29 18:30:47
1979年,粟裕與葉劍英反對(duì)對(duì)越南動(dòng)武,陳云說(shuō)了什么,讓鄧小平最終下定決心?

1979年,粟裕與葉劍英反對(duì)對(duì)越南動(dòng)武,陳云說(shuō)了什么,讓鄧小平最終下定決心?

文史明鑒
2026-01-18 21:56:13
2026-01-19 15:56:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
12143文章數(shù) 142546關(guān)注度
往期回顧 全部

科技要聞

這一仗必須贏!馬斯克死磕芯片"9個(gè)月一更"

頭條要聞

特朗普:解決俄對(duì)格陵蘭島威脅時(shí)機(jī)已到 是時(shí)候行動(dòng)了

頭條要聞

特朗普:解決俄對(duì)格陵蘭島威脅時(shí)機(jī)已到 是時(shí)候行動(dòng)了

體育要聞

21年后,中國(guó)男足重返亞洲四強(qiáng)

娛樂(lè)要聞

離婚三年,孫怡董子健首次公開(kāi)互動(dòng)

財(cái)經(jīng)要聞

公章?tīng)?zhēng)奪 家族反目 雙星為何從頂端跌落?

汽車(chē)要聞

徐軍:沖擊百萬(wàn)銷(xiāo)量,零跑一直很清醒

態(tài)度原創(chuàng)

時(shí)尚
游戲
房產(chǎn)
健康
公開(kāi)課

伊姐周日熱推:電視劇《看得見(jiàn)風(fēng)景的窗》;電視劇《春日狂熱》......

《棕色塵埃2》因當(dāng)?shù)胤ㄒ?guī)在越南google商店下架

房產(chǎn)要聞

封關(guān)剛剛滿月,海南真爆了!三亞房?jī)r(jià),漲幅沖上全國(guó)第三!

血常規(guī)3項(xiàng)異常,是身體警報(bào)!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版