網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

西北大學(xué)等發(fā)現(xiàn)：信噪比破解AI智能體思維定勢(shì)危機(jī)能力突破突破

2026-04-16 20:27:52　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由西北大學(xué)、伊利諾伊大學(xué)厄巴納-香檳分校、帝國(guó)理工學(xué)院、牛津大學(xué)、華盛頓大學(xué)、微軟研究院、斯坦福大學(xué)等多所頂尖機(jī)構(gòu)聯(lián)合開展的研究，于2026年4月以arXiv預(yù)印本形式發(fā)布，論文編號(hào)為arXiv:2604.06268。感興趣的讀者可通過(guò)該編號(hào)查詢完整論文。

假設(shè)你有一個(gè)會(huì)說(shuō)話的機(jī)器人助手，一開始它很聰明，能根據(jù)你說(shuō)的不同問(wèn)題給出不同的、有針對(duì)性的回答。但訓(xùn)練了一段時(shí)間之后，不管你問(wèn)它什么，它的回答開頭都變成了"這是個(gè)好問(wèn)題，讓我仔細(xì)想想……"然后給出一大段看起來(lái)很認(rèn)真、實(shí)際上跟你的問(wèn)題關(guān)系不大的廢話。從外表看，它的回答依然措辭豐富、句子多變，但骨子里，它已經(jīng)進(jìn)入了一種"自動(dòng)駕駛"模式——不管外界輸入什么，輸出的都是差不多的固定套路。

這就是這篇論文所描述的核心問(wèn)題，研究團(tuán)隊(duì)將其命名為"模板崩塌"。這不是一個(gè)無(wú)關(guān)緊要的小毛病，而是當(dāng)前用強(qiáng)化學(xué)習(xí)訓(xùn)練AI智能體時(shí)普遍存在的、卻又被現(xiàn)有監(jiān)控手段完全忽視的隱形危機(jī)。研究團(tuán)隊(duì)不僅精確診斷了這個(gè)問(wèn)題，還找到了背后的根本原因，并提出了一個(gè)簡(jiǎn)單有效的修復(fù)方案。

一、什么是"模板崩塌"，為什么它那么難被發(fā)現(xiàn)

要理解"模板崩塌"，先得了解AI智能體是怎么被訓(xùn)練的。當(dāng)研究者想讓AI學(xué)會(huì)完成某類任務(wù)——比如解數(shù)學(xué)題、玩游戲、在網(wǎng)上購(gòu)物——常用的方法是"強(qiáng)化學(xué)習(xí)"。簡(jiǎn)單說(shuō)，就是讓AI自己去嘗試，做對(duì)了就給獎(jiǎng)勵(lì)，做錯(cuò)了就扣分，然后一遍遍重復(fù)，讓它從反饋中自我改進(jìn)。

在這個(gè)訓(xùn)練過(guò)程中，研究者需要時(shí)刻監(jiān)控AI的健康狀況。他們通常盯兩件事：一是"獎(jiǎng)勵(lì)分?jǐn)?shù)"有沒(méi)有穩(wěn)定提升，二是AI思考過(guò)程的"熵"有沒(méi)有保持在合理范圍內(nèi)。"熵"這個(gè)詞聽起來(lái)很高深，其實(shí)就是"多樣性"的度量——如果AI面對(duì)同一個(gè)問(wèn)題時(shí)每次回答都不一樣、措辭豐富，熵就高；如果每次都說(shuō)同一句話，熵就低。

問(wèn)題就出在這里。研究團(tuán)隊(duì)發(fā)現(xiàn)，熵高并不代表AI真的在認(rèn)真思考。打個(gè)比方，有一個(gè)學(xué)生，每次寫作文開頭都不一樣——有時(shí)候用"漫漫長(zhǎng)路"開篇，有時(shí)候用"秋風(fēng)蕭瑟"，有時(shí)候用名人名言——讀起來(lái)文采斐然，但文章的實(shí)質(zhì)內(nèi)容其實(shí)是同一套固定框架：開頭感慨一下，中間舉個(gè)例子，結(jié)尾升華主題。不管題目是寫"我的理想"還是"一次難忘的經(jīng)歷"，骨子里都是同一個(gè)模板。

"模板崩塌"正是如此。AI的思考文字看起來(lái)多樣，但實(shí)質(zhì)上與具體輸入的題目無(wú)關(guān)，是一種精心包裝過(guò)的"萬(wàn)能模板"?，F(xiàn)有的熵指標(biāo)根本發(fā)現(xiàn)不了這個(gè)問(wèn)題，因?yàn)殪刂缓饬?一個(gè)問(wèn)題的多次回答之間是否不同"，而不管"面對(duì)不同問(wèn)題時(shí)，回答是否真的不同"。

研究團(tuán)隊(duì)用信息論的語(yǔ)言把這個(gè)問(wèn)題說(shuō)得非常清楚。多樣性（即"邊際熵"）可以拆分成兩部分：一部分是"針對(duì)同一個(gè)輸入的回答有多豐富"，另一部分是"面對(duì)不同輸入時(shí)，回答是否真的隨之變化"。前者叫做條件熵，后者叫做互信息。現(xiàn)有的監(jiān)控手段只盯著條件熵，但"模板崩塌"的本質(zhì)是互信息崩潰——而這時(shí)條件熵依然可以很高，看起來(lái)一切正常。

這就好比一個(gè)演員能把同一個(gè)劇本用不同的表情、不同的語(yǔ)調(diào)、不同的肢體語(yǔ)言演出來(lái)，每場(chǎng)演出都不一樣，"熵"很高。但如果不管導(dǎo)演讓他演什么角色，他永遠(yuǎn)表演的都是這同一個(gè)劇本，那他的表演就跟角色要求完全脫節(jié)了——這就是"模板崩塌"。

更令人擔(dān)憂的是，這種崩塌在多輪對(duì)話的AI智能體中尤其容易發(fā)生。因?yàn)樵诙噍喗换ダ?，?jiǎng)勵(lì)信號(hào)往往很稀疏——AI做了一系列動(dòng)作之后才能得到一個(gè)獎(jiǎng)勵(lì)，很難判斷具體是哪一步的思考起了作用。于是AI就有機(jī)會(huì)用固定模板蒙混過(guò)關(guān)，而訓(xùn)練系統(tǒng)根本察覺(jué)不到。

二、用"偵探識(shí)人"的方法來(lái)診斷模板崩塌

研究團(tuán)隊(duì)提出的解決方案，從診斷開始。他們?cè)O(shè)計(jì)了一套基于互信息的測(cè)量方法，核心思路其實(shí)相當(dāng)直覺(jué)化。

考慮這樣一個(gè)場(chǎng)景：你是一位偵探，面前有64份供詞，每份供詞來(lái)自不同的嫌疑人。如果每個(gè)嫌疑人的供詞都有獨(dú)特的細(xì)節(jié)——說(shuō)話風(fēng)格、具體描述、獨(dú)有的信息——那你只需要讀一份供詞，就能大概猜出它來(lái)自哪個(gè)人。反過(guò)來(lái)，如果所有人的供詞都是同一套標(biāo)準(zhǔn)格式："我當(dāng)天在家，沒(méi)有外出，希望警方能相信我。"那不管你讀哪份供詞，都沒(méi)法判斷是誰(shuí)寫的。

互信息的本質(zhì)就是測(cè)量這種"通過(guò)回答猜出問(wèn)題"的能力。如果AI的回答對(duì)不同的問(wèn)題真的有針對(duì)性，那你拿到一個(gè)回答，就能大致猜出它是針對(duì)哪類問(wèn)題寫的——這說(shuō)明互信息高。如果拿到回答完全無(wú)法判斷對(duì)應(yīng)的問(wèn)題，那互信息就趨近于零，"模板崩塌"就發(fā)生了。

具體操作上，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)叫做"批內(nèi)交叉打分"的方法。在每次訓(xùn)練時(shí)，AI會(huì)對(duì)一批問(wèn)題（比如64個(gè)不同的題目）分別生成回答。然后，他們把每個(gè)回答放在所有64個(gè)題目下面，讓AI自己給每個(gè)"題目-回答"組合打分，分?jǐn)?shù)就是"這個(gè)回答對(duì)應(yīng)這個(gè)題目的可能性有多大"。如果AI的回答真的與題目相關(guān)，那每個(gè)回答在自己對(duì)應(yīng)的題目下應(yīng)該得到最高分；如果回答是通用模板，那64個(gè)題目下的得分應(yīng)該差不多，就像隨機(jī)猜測(cè)一樣。

基于這個(gè)邏輯，研究團(tuán)隊(duì)設(shè)計(jì)了兩個(gè)核心測(cè)量指標(biāo)。一個(gè)叫"檢索準(zhǔn)確率"，就是看一個(gè)回答能不能在64個(gè)題目中正確"認(rèn)出"自己的源頭題目——如果模板崩塌完全發(fā)生，正確率就會(huì)掉到1/64，也就是約1.56%，等于完全隨機(jī)猜測(cè)。另一個(gè)叫"MI-ZScore-EMA"，是一種連續(xù)型的評(píng)分，能更細(xì)膩地反映回答與題目的相關(guān)程度，并通過(guò)數(shù)學(xué)處理使其在整個(gè)訓(xùn)練過(guò)程中保持穩(wěn)定可比。

這些指標(biāo)最厲害的地方在于，它們完全不需要額外的模型或人工標(biāo)注，就用訓(xùn)練時(shí)已經(jīng)有的數(shù)據(jù)來(lái)計(jì)算，幾乎沒(méi)有額外計(jì)算成本。

研究結(jié)果非常說(shuō)明問(wèn)題。在大量實(shí)驗(yàn)中，互信息類指標(biāo)與最終任務(wù)表現(xiàn)的相關(guān)性（用斯皮爾曼相關(guān)系數(shù)衡量）達(dá)到了+0.39，而傳統(tǒng)的熵類指標(biāo)相關(guān)性竟然是負(fù)數(shù)，在-0.11到-0.14之間。這意味著，熵越高，任務(wù)表現(xiàn)反而可能越差——熵指標(biāo)不只是沒(méi)用，而且實(shí)際上在誤導(dǎo)研究者朝錯(cuò)誤方向調(diào)整?；バ畔⒉攀钦嬲A(yù)測(cè)AI表現(xiàn)好壞的指標(biāo)。

三、模板崩塌背后的物理學(xué)：信噪比機(jī)制

找到了診斷方法，下一步是理解原因。研究團(tuán)隊(duì)從物理學(xué)的角度切入，用"信噪比"來(lái)解釋為什么模板崩塌幾乎是不可避免的。

強(qiáng)化學(xué)習(xí)更新AI參數(shù)的核心機(jī)制，是計(jì)算一個(gè)叫"梯度"的方向向量。梯度告訴AI："你應(yīng)該往哪個(gè)方向調(diào)整參數(shù)，才能讓好的回答出現(xiàn)得更頻繁、壞的回答出現(xiàn)得更少。"這個(gè)梯度由兩部分疊加而成：一部分來(lái)自"任務(wù)梯度"，它依賴于同一個(gè)題目下不同回答的獎(jiǎng)勵(lì)差異；另一部分來(lái)自"正則化梯度"，它來(lái)自兩個(gè)固定的約束——KL散度（約束AI別跑太遠(yuǎn)離初始狀態(tài)）和熵正則化（鼓勵(lì)A(yù)I保持多樣性）。

問(wèn)題就出在這兩部分的強(qiáng)弱對(duì)比上。任務(wù)梯度的強(qiáng)度，直接取決于同一個(gè)題目下不同回答的獎(jiǎng)勵(lì)是否有明顯差別。用大白話說(shuō)：如果AI對(duì)題目A的五次嘗試，有的得了高分、有的得了低分，分?jǐn)?shù)差異大，那任務(wù)梯度就很強(qiáng)，AI能清楚地學(xué)到"哪種思路是對(duì)的"。但如果五次嘗試的分?jǐn)?shù)都差不多——要么都高，要么都低——那任務(wù)梯度就趨近于零。

而正則化梯度是完全無(wú)視題目?jī)?nèi)容的。不管你給AI喂的是數(shù)學(xué)題還是推理題，正則化梯度的強(qiáng)度基本保持不變，就像一個(gè)不管什么情況都以同樣力氣推你的人。

當(dāng)任務(wù)梯度弱、正則化梯度相對(duì)強(qiáng)時(shí)，AI每次更新參數(shù)的方向就主要被正則化所主導(dǎo)。正則化鼓勵(lì)的是"在任何題目下都保持多樣性"和"別偏離初始模型太遠(yuǎn)"，這兩者都是與具體輸入內(nèi)容無(wú)關(guān)的通用要求。于是，AI就慢慢學(xué)會(huì)了一種通用策略：讓回答看起來(lái)夠多樣（滿足熵正則化），同時(shí)別變化太劇烈（滿足KL約束）——但這種"多樣性"是跟題目無(wú)關(guān)的通用多樣性，不是針對(duì)具體題目的有針對(duì)性的思考。這就是模板崩塌的梯度級(jí)別機(jī)制。

研究團(tuán)隊(duì)用實(shí)驗(yàn)數(shù)據(jù)證實(shí)了這個(gè)推斷。他們把訓(xùn)練題目按照"同一題目下不同嘗試的獎(jiǎng)勵(lì)方差"從高到低分成六組，然后分別測(cè)量每組題目帶來(lái)的任務(wù)梯度強(qiáng)度和正則化梯度強(qiáng)度。結(jié)果非常清晰：任務(wù)梯度隨著獎(jiǎng)勵(lì)方差單調(diào)增大，獎(jiǎng)勵(lì)方差最高的那組題目，任務(wù)梯度是最低那組的好幾倍；而正則化梯度在六組之間幾乎完全一樣，完全不受獎(jiǎng)勵(lì)方差影響。在獎(jiǎng)勵(lì)方差最低的那組題目中，任務(wù)梯度幾乎為零，但AI的參數(shù)更新并不為零——更新完全由正則化主導(dǎo)，是純粹的"噪聲驅(qū)動(dòng)"更新。

這個(gè)機(jī)制還有一個(gè)微妙而重要的推論：即使是本來(lái)訓(xùn)練挺好的AI，隨著訓(xùn)練深入，也會(huì)逐漸陷入這個(gè)困境。因?yàn)锳I越來(lái)越擅長(zhǎng)某些題目之后，那些它已經(jīng)基本能解決的題目，每次嘗試的結(jié)果都差不多——獎(jiǎng)勵(lì)方差隨之降低，任務(wù)梯度變?nèi)?，正則化逐漸主導(dǎo)，慢慢走向模板化。

四、一個(gè)簡(jiǎn)單但有效的手術(shù)刀：信噪比感知過(guò)濾

既然問(wèn)題的根源在于低獎(jiǎng)勵(lì)方差題目帶來(lái)的低信噪比更新，解決方案就非常直接了：每次更新時(shí)，把低獎(jiǎng)勵(lì)方差的題目踢掉，只用高獎(jiǎng)勵(lì)方差的題目來(lái)訓(xùn)練。

研究團(tuán)隊(duì)將這個(gè)方法命名為"SNR感知過(guò)濾"。操作流程分三步。第一步，正常生成訓(xùn)練數(shù)據(jù)——對(duì)每個(gè)題目采樣多次，得到多個(gè)回答及其對(duì)應(yīng)的獎(jiǎng)勵(lì)分?jǐn)?shù)。第二步，對(duì)每個(gè)題目計(jì)算"獎(jiǎng)勵(lì)方差"——也就是同一題目下不同回答的分?jǐn)?shù)分散程度。第三步，按照獎(jiǎng)勵(lì)方差從高到低給題目排序，只保留"高信號(hào)"的那部分題目來(lái)做參數(shù)更新。

具體的篩選規(guī)則采用了一種叫"Top-p核式過(guò)濾"的方法，與自然語(yǔ)言生成中的"核采樣"思路相似。大致原理是：把所有題目的獎(jiǎng)勵(lì)方差加起來(lái)，只保留"加在一起能覆蓋總方差90%"的那些高方差題目。這個(gè)設(shè)計(jì)非常聰明——它能自動(dòng)適應(yīng)當(dāng)前批次的質(zhì)量。如果這批題目整體質(zhì)量都不錯(cuò)、方差普遍較高，那保留的題目就多；如果大多數(shù)題目方差都接近零，說(shuō)明這批數(shù)據(jù)大部分都是噪聲，就會(huì)自動(dòng)保留很少的題目，甚至可能直接跳過(guò)整批更新。

與之對(duì)比，另一種簡(jiǎn)單的方式是"Top-k過(guò)濾"——每次固定保留獎(jiǎng)勵(lì)方差排名前K個(gè)的題目，不管這K個(gè)題目的實(shí)際質(zhì)量如何。實(shí)驗(yàn)表明，Top-k不如Top-p，因?yàn)楣潭〝?shù)量意味著即使高質(zhì)量題目很少，也會(huì)被迫保留一些低質(zhì)量的湊數(shù)，稀釋了訓(xùn)練信號(hào)。

這個(gè)方法的另一個(gè)優(yōu)勢(shì)是完全不需要額外的計(jì)算資源。因?yàn)楸緛?lái)就要對(duì)每個(gè)題目采樣多次（計(jì)算多個(gè)回答的獎(jiǎng)勵(lì)用于估算優(yōu)勢(shì)），獎(jiǎng)勵(lì)方差只是這些已有數(shù)據(jù)的一個(gè)簡(jiǎn)單統(tǒng)計(jì)，計(jì)算量不到總訓(xùn)練時(shí)間的0.1%。實(shí)際上，由于過(guò)濾掉了一部分題目，每步訓(xùn)練需要處理的數(shù)據(jù)量減少了，整體速度反而加快了26%到41%。

五、實(shí)驗(yàn)驗(yàn)證：在七個(gè)不同任務(wù)上的全面測(cè)試

為了檢驗(yàn)這套方案是否真的有效，研究團(tuán)隊(duì)在七個(gè)性質(zhì)各異的任務(wù)上進(jìn)行了大規(guī)模實(shí)驗(yàn)。這七個(gè)任務(wù)覆蓋了AI可能面臨的各種挑戰(zhàn)場(chǎng)景。

"推箱子"（Sokoban）是一個(gè)經(jīng)典的益智游戲，AI需要把箱子推到指定位置，難點(diǎn)在于推錯(cuò)了就無(wú)法倒退，一步錯(cuò)步步錯(cuò)，要求AI具備提前規(guī)劃多步的能力。"冰湖"（FrozenLake）是一個(gè)在隨機(jī)滑動(dòng)地面上導(dǎo)航到終點(diǎn)的任務(wù)，每一步的結(jié)果都有隨機(jī)性，獎(jiǎng)勵(lì)信號(hào)非常稀疏。"MetaMathQA"要求AI解答數(shù)學(xué)題，允許多次嘗試但每次獎(jiǎng)勵(lì)遞減，鼓勵(lì)A(yù)I盡快找到正確答案。"倒計(jì)時(shí)"（Countdown）是一個(gè)用給定數(shù)字通過(guò)加減乘除達(dá)到目標(biāo)值的算術(shù)題，只有單次回答機(jī)會(huì)。"搜索問(wèn)答"（SearchQA）讓AI通過(guò)多輪搜索和信息整合來(lái)回答復(fù)雜問(wèn)題。"網(wǎng)上購(gòu)物"（WebShop）讓AI在模擬電商環(huán)境中按照用戶要求搜索并購(gòu)買合適商品。"深度編程"（DeepCoder）要求AI生成能通過(guò)測(cè)試用例的Python代碼。

實(shí)驗(yàn)使用了Qwen2.5-3B作為基礎(chǔ)模型，并在PPO、DAPO、GRPO、Dr.GRPO四種主流強(qiáng)化學(xué)習(xí)算法下分別測(cè)試。同時(shí)，研究團(tuán)隊(duì)還在不同模型規(guī)模（0.5B、1.5B、3B、7B參數(shù)）、不同模型家族（Qwen2.5系列、Llama3.2）、以及視覺(jué)語(yǔ)言模型（Qwen2.5-VL，同時(shí)接受文字和圖像輸入）上驗(yàn)證了方法的普適性。

結(jié)果非常一致。在PPO算法、Qwen2.5-3B模型的基準(zhǔn)設(shè)置下，推箱子任務(wù)的成功率從12.9%提升到28.9%（提升16個(gè)百分點(diǎn)），冰湖任務(wù)從67%提升到77.9%，數(shù)學(xué)題任務(wù)從92.6%提升到93.2%?？缢惴y(cè)試中，DAPO算法下平均提升2.9個(gè)百分點(diǎn)，GRPO算法下提升3.7個(gè)百分點(diǎn)，Dr.GRPO算法下提升0.8個(gè)百分點(diǎn)?？缒Ｐ鸵?guī)模測(cè)試中，最小的0.5B模型在推箱子上從3.3%提升到26.2%（提升幅度驚人），最大的7B模型在數(shù)學(xué)題上從84%提升到95.7%。在視覺(jué)語(yǔ)言模型測(cè)試中，冰湖任務(wù)上圖像輸入下的成功率從19.5%飆升到79%，提升超過(guò)59個(gè)百分點(diǎn)。

在所有這些提升的同時(shí)，互信息指標(biāo)也同步提高，驗(yàn)證了"輸入相關(guān)性提升導(dǎo)致任務(wù)表現(xiàn)提升"的因果鏈條確實(shí)成立。

六、四個(gè)問(wèn)題：用實(shí)驗(yàn)排除所有備選解釋

研究團(tuán)隊(duì)深知，僅僅看到"過(guò)濾之后性能提升"還不足以證明信噪比機(jī)制是真正的原因。也許只是因?yàn)檫^(guò)濾掉了某些"太難"或"太容易"的題目，讓訓(xùn)練難度更合適？也許是因?yàn)殡S機(jī)環(huán)境噪聲干擾了結(jié)果？也許過(guò)濾本身改變了題目分布，而不是真的提升了信號(hào)質(zhì)量？

針對(duì)這些疑問(wèn)，研究團(tuán)隊(duì)設(shè)計(jì)了四組關(guān)鍵實(shí)驗(yàn)來(lái)逐一排除。

第一組實(shí)驗(yàn)，"分位數(shù)消融"，直接驗(yàn)證獎(jiǎng)勵(lì)方差是否真的驅(qū)動(dòng)訓(xùn)練質(zhì)量。他們把所有題目按獎(jiǎng)勵(lì)方差分成四等份，分別只用最高25%（Q1）、次高25%（Q2）、次低25%（Q3）、最低25%（Q4）的題目訓(xùn)練。結(jié)果非常干凈：任務(wù)表現(xiàn)和互信息都從Q1到Q4單調(diào)遞減，Q1遠(yuǎn)好于Q4。配合之前的數(shù)學(xué)證明（任務(wù)梯度強(qiáng)度上界等于獎(jiǎng)勵(lì)方差的平方根），這建立了"獎(jiǎng)勵(lì)方差→梯度質(zhì)量→輸入相關(guān)推理"的完整因果鏈。

第二組實(shí)驗(yàn)，"噪聲注入控制"，測(cè)試環(huán)境隨機(jī)性對(duì)互信息的影響是否符合信噪比機(jī)制的預(yù)測(cè)。冰湖任務(wù)的滑動(dòng)概率從0%（完全確定性）逐步增加到100%（完全隨機(jī)）。結(jié)果完全符合預(yù)測(cè)：隨機(jī)性增加，任務(wù)表現(xiàn)下降，互信息下降，過(guò)濾的優(yōu)勢(shì)逐漸縮小。特別有意思的是，當(dāng)隨機(jī)性達(dá)到80%-100%時(shí)，過(guò)濾的優(yōu)勢(shì)幾乎消失——因?yàn)榇藭r(shí)即使是獎(jiǎng)勵(lì)方差高的題目，其方差也主要來(lái)自環(huán)境噪聲而非真正的信號(hào)。這個(gè)"邊界條件"的出現(xiàn)恰恰驗(yàn)證了機(jī)制的精確性。

第三組實(shí)驗(yàn)，"層級(jí)對(duì)比"，區(qū)分"選擇好題目"和"選擇好軌跡"的效果差異。研究團(tuán)隊(duì)設(shè)置了一個(gè)對(duì)照：保留所有題目，但對(duì)每個(gè)題目只保留獎(jiǎng)勵(lì)最高和最低的各8條軌跡，通過(guò)軌跡級(jí)別的選擇來(lái)提升信噪比。這種軌跡級(jí)別的過(guò)濾確實(shí)比完全不過(guò)濾好，但效果顯著不如題目級(jí)別的過(guò)濾。原因在于：一個(gè)本來(lái)獎(jiǎng)勵(lì)方差就接近零的題目，強(qiáng)行選出"最高"和"最低"的軌跡，其實(shí)是在放大噪聲，選出來(lái)的"高獎(jiǎng)勵(lì)"和"低獎(jiǎng)勵(lì)"差距本就很小，并無(wú)多少信息量。

第四組實(shí)驗(yàn)，"適用性預(yù)測(cè)"，研究什么情況下過(guò)濾方法最有效。研究團(tuán)隊(duì)發(fā)現(xiàn)，可以在訓(xùn)練開始前用一個(gè)簡(jiǎn)單指標(biāo)來(lái)預(yù)測(cè)：計(jì)算當(dāng)前批次中各題目獎(jiǎng)勵(lì)方差的"變異系數(shù)"（標(biāo)準(zhǔn)差/均值）。當(dāng)這個(gè)比值高時(shí)，說(shuō)明題目之間的獎(jiǎng)勵(lì)方差差別很大——有些題目信號(hào)豐富，有些幾乎是噪聲，過(guò)濾能精準(zhǔn)區(qū)分兩類。當(dāng)這個(gè)比值接近零時(shí)，所有題目的方差都差不多，過(guò)濾就變成了隨機(jī)丟棄數(shù)據(jù)，沒(méi)有意義甚至有害。這個(gè)發(fā)現(xiàn)給了研究者一個(gè)廉價(jià)的"先驗(yàn)檢驗(yàn)"工具，在跑完整實(shí)驗(yàn)前就能判斷過(guò)濾是否值得使用。

七、互信息與熵：誰(shuí)才是真正的晴雨表

實(shí)驗(yàn)還系統(tǒng)性地對(duì)比了互信息指標(biāo)和傳統(tǒng)熵指標(biāo)作為訓(xùn)練監(jiān)控工具的效果。研究團(tuán)隊(duì)嘗試了三種不同的干預(yù)手段——調(diào)整熵正則化系數(shù)、調(diào)整KL約束強(qiáng)度、調(diào)整SNR過(guò)濾保留比例——然后觀察每種手段在"互信息-任務(wù)表現(xiàn)"平面和"熵-任務(wù)表現(xiàn)"平面上的軌跡。

結(jié)果非常鮮明。調(diào)整熵正則化和KL約束，主要移動(dòng)的是熵軸，對(duì)互信息的影響很小，任務(wù)表現(xiàn)的變化也較小，而且軌跡雜亂無(wú)章，沒(méi)有單調(diào)性——增大或減小正則化強(qiáng)度都可能讓性能先上后下或先下后上，很難從這些指標(biāo)中判斷方向。相比之下，調(diào)整SNR過(guò)濾力度（保留比例從1.0到0.4），軌跡在互信息-任務(wù)表現(xiàn)平面上呈現(xiàn)出漂亮的單調(diào)曲線：過(guò)濾力度越大（保留比例越?。?，互信息越高，任務(wù)表現(xiàn)也越高，直到過(guò)濾過(guò)于激進(jìn)開始損害探索為止。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣現(xiàn)象：格式有效性（AI輸出是否符合規(guī)定格式）與互信息幾乎沒(méi)有關(guān)聯(lián)。有些運(yùn)行在格式完全正確的同時(shí)，互信息極低，說(shuō)明AI正處于模板崩塌狀態(tài)。這意味著，用"格式是否正確"來(lái)替代互信息作為崩塌指標(biāo)是行不通的——兩者測(cè)量的是完全不同的東西。

此外，獎(jiǎng)勵(lì)方差與熵和回答長(zhǎng)度的相關(guān)性都非常低（斯皮爾曼相關(guān)約-0.14和0.12），而與任務(wù)獎(jiǎng)勵(lì)的相關(guān)性高達(dá)0.63。這說(shuō)明獎(jiǎng)勵(lì)方差測(cè)量的是一個(gè)獨(dú)立于表面統(tǒng)計(jì)特征的信號(hào)質(zhì)量維度，是KL正則化和熵正則化之外的第三個(gè)獨(dú)立調(diào)節(jié)旋鈕。

說(shuō)到底，這篇論文講的是一個(gè)在AI訓(xùn)練領(lǐng)域中長(zhǎng)期潛伏的隱形問(wèn)題。就像一個(gè)員工表面上工作很努力、產(chǎn)出很豐富，但實(shí)際上已經(jīng)完全進(jìn)入了"應(yīng)付模式"，所有工作都套用同一個(gè)模板，跟具體任務(wù)需求早已脫節(jié)——這種問(wèn)題用傳統(tǒng)的考核指標(biāo)完全發(fā)現(xiàn)不了，只有換一種角度才能看清真相。

研究團(tuán)隊(duì)給出的答案簡(jiǎn)潔而優(yōu)雅：用互信息來(lái)衡量AI的推理是否真的響應(yīng)了輸入，用獎(jiǎng)勵(lì)方差來(lái)識(shí)別哪些訓(xùn)練數(shù)據(jù)真的在幫AI學(xué)習(xí)，用過(guò)濾手段把噪聲驅(qū)動(dòng)的更新去掉，讓信號(hào)重新主導(dǎo)訓(xùn)練方向。

這對(duì)普通人意味著什么？從近的角度說(shuō)，你使用的AI助手、智能客服、自動(dòng)駕駛輔助系統(tǒng)，背后都在用類似的強(qiáng)化學(xué)習(xí)方法訓(xùn)練。這套診斷和修復(fù)框架，能幫助開發(fā)者更早發(fā)現(xiàn)AI的"思維僵化"，在產(chǎn)品上線前把問(wèn)題解決掉，讓你得到真正針對(duì)你的問(wèn)題而給出的回答，而不是一個(gè)精心偽裝的通用模板。從遠(yuǎn)的角度說(shuō)，隨著AI系統(tǒng)越來(lái)越多地被部署在醫(yī)療、法律、科學(xué)研究等高風(fēng)險(xiǎn)領(lǐng)域，確保AI的推理真的與具體情境掛鉤，而不是套用固定模板，會(huì)越來(lái)越關(guān)乎實(shí)際安全。

當(dāng)然，這項(xiàng)研究也坦誠(chéng)地指出了自己的局限性。信噪比分解假設(shè)任務(wù)信號(hào)和正則化噪聲能干凈地分離，但在實(shí)踐中它們可能通過(guò)梯度累積相互耦合。所有實(shí)驗(yàn)都是單個(gè)AI智能體，多智能體場(chǎng)景下的模板崩塌如何傳播還未被研究。還有一個(gè)潛在風(fēng)險(xiǎn)：足夠強(qiáng)大的AI可能會(huì)學(xué)會(huì)"游戲規(guī)則"，故意在訓(xùn)練時(shí)制造出較高的獎(jiǎng)勵(lì)方差來(lái)騙過(guò)過(guò)濾器——這在長(zhǎng)期訓(xùn)練中值得持續(xù)關(guān)注。有興趣深入了解這項(xiàng)研究的所有細(xì)節(jié)、數(shù)學(xué)推導(dǎo)和實(shí)驗(yàn)設(shè)置的讀者，可以通過(guò)arXiv編號(hào)2604.06268查閱完整論文。

Q&A

Q1：模板崩塌和普通的AI模型退化有什么區(qū)別？

A：模板崩塌是一種特殊的退化形式，關(guān)鍵在于它"外表正常、內(nèi)里空洞"。普通的AI退化往往能從獎(jiǎng)勵(lì)分?jǐn)?shù)下降或輸出變得單調(diào)中被發(fā)現(xiàn)。但模板崩塌發(fā)生時(shí)，AI的輸出依然措辭豐富、格式正確、獎(jiǎng)勵(lì)穩(wěn)定，傳統(tǒng)監(jiān)控指標(biāo)全部顯示"綠燈"。唯一能發(fā)現(xiàn)它的方式是檢測(cè)AI的回答是否真的隨著輸入內(nèi)容的變化而變化——這正是互信息指標(biāo)的作用，而傳統(tǒng)的熵指標(biāo)對(duì)這種崩塌完全視而不見。

Q2：SNR感知過(guò)濾會(huì)不會(huì)讓AI錯(cuò)過(guò)一些有價(jià)值的訓(xùn)練數(shù)據(jù)？

A：會(huì)丟棄一部分?jǐn)?shù)據(jù)，但被丟棄的恰恰是"看起來(lái)像訓(xùn)練數(shù)據(jù)、實(shí)際上是噪聲"的低質(zhì)量樣本。對(duì)于同一個(gè)題目所有嘗試獎(jiǎng)勵(lì)都差不多的數(shù)據(jù)，AI根本學(xué)不到"什么做法更好"，只能學(xué)到來(lái)自正則化的通用壓力。研究實(shí)驗(yàn)顯示，在保持總體訓(xùn)練樣本數(shù)量不變的前提下，過(guò)濾后的訓(xùn)練速度反而加快了26%到41%，最終任務(wù)表現(xiàn)也更好，說(shuō)明質(zhì)量遠(yuǎn)比數(shù)量重要。當(dāng)然，過(guò)于激進(jìn)的過(guò)濾會(huì)影響探索多樣性，需要根據(jù)任務(wù)調(diào)整保留比例。

Q3：互信息代理指標(biāo)在實(shí)際訓(xùn)練中怎么計(jì)算，成本高嗎？

A：計(jì)算方法叫"批內(nèi)交叉打分"，完全依賴訓(xùn)練時(shí)已有的數(shù)據(jù)。具體做法是把每次訓(xùn)練批次中所有題目的回答交叉評(píng)分——讓AI對(duì)每個(gè)回答計(jì)算"對(duì)應(yīng)每個(gè)題目的可能性"，從而判斷回答是否與源題目特別匹配。這些計(jì)算復(fù)用了訓(xùn)練過(guò)程中本來(lái)就要做的前向傳播，不需要額外的模型調(diào)用或人工標(biāo)注，額外計(jì)算成本不到總訓(xùn)練時(shí)間的0.1%，在工程上非常輕量。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.