国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

西北大學(xué)等發(fā)現(xiàn):信噪比破解AI智能體思維定勢(shì)危機(jī)能力突破突破

0
分享至


這項(xiàng)由西北大學(xué)、伊利諾伊大學(xué)厄巴納-香檳分校、帝國(guó)理工學(xué)院、牛津大學(xué)、華盛頓大學(xué)、微軟研究院、斯坦福大學(xué)等多所頂尖機(jī)構(gòu)聯(lián)合開展的研究,于2026年4月以arXiv預(yù)印本形式發(fā)布,論文編號(hào)為arXiv:2604.06268。感興趣的讀者可通過(guò)該編號(hào)查詢完整論文。

假設(shè)你有一個(gè)會(huì)說(shuō)話的機(jī)器人助手,一開始它很聰明,能根據(jù)你說(shuō)的不同問(wèn)題給出不同的、有針對(duì)性的回答。但訓(xùn)練了一段時(shí)間之后,不管你問(wèn)它什么,它的回答開頭都變成了"這是個(gè)好問(wèn)題,讓我仔細(xì)想想……"然后給出一大段看起來(lái)很認(rèn)真、實(shí)際上跟你的問(wèn)題關(guān)系不大的廢話。從外表看,它的回答依然措辭豐富、句子多變,但骨子里,它已經(jīng)進(jìn)入了一種"自動(dòng)駕駛"模式——不管外界輸入什么,輸出的都是差不多的固定套路。

這就是這篇論文所描述的核心問(wèn)題,研究團(tuán)隊(duì)將其命名為"模板崩塌"。這不是一個(gè)無(wú)關(guān)緊要的小毛病,而是當(dāng)前用強(qiáng)化學(xué)習(xí)訓(xùn)練AI智能體時(shí)普遍存在的、卻又被現(xiàn)有監(jiān)控手段完全忽視的隱形危機(jī)。研究團(tuán)隊(duì)不僅精確診斷了這個(gè)問(wèn)題,還找到了背后的根本原因,并提出了一個(gè)簡(jiǎn)單有效的修復(fù)方案。

一、什么是"模板崩塌",為什么它那么難被發(fā)現(xiàn)

要理解"模板崩塌",先得了解AI智能體是怎么被訓(xùn)練的。當(dāng)研究者想讓AI學(xué)會(huì)完成某類任務(wù)——比如解數(shù)學(xué)題、玩游戲、在網(wǎng)上購(gòu)物——常用的方法是"強(qiáng)化學(xué)習(xí)"。簡(jiǎn)單說(shuō),就是讓AI自己去嘗試,做對(duì)了就給獎(jiǎng)勵(lì),做錯(cuò)了就扣分,然后一遍遍重復(fù),讓它從反饋中自我改進(jìn)。

在這個(gè)訓(xùn)練過(guò)程中,研究者需要時(shí)刻監(jiān)控AI的健康狀況。他們通常盯兩件事:一是"獎(jiǎng)勵(lì)分?jǐn)?shù)"有沒(méi)有穩(wěn)定提升,二是AI思考過(guò)程的"熵"有沒(méi)有保持在合理范圍內(nèi)。"熵"這個(gè)詞聽起來(lái)很高深,其實(shí)就是"多樣性"的度量——如果AI面對(duì)同一個(gè)問(wèn)題時(shí)每次回答都不一樣、措辭豐富,熵就高;如果每次都說(shuō)同一句話,熵就低。

問(wèn)題就出在這里。研究團(tuán)隊(duì)發(fā)現(xiàn),熵高并不代表AI真的在認(rèn)真思考。打個(gè)比方,有一個(gè)學(xué)生,每次寫作文開頭都不一樣——有時(shí)候用"漫漫長(zhǎng)路"開篇,有時(shí)候用"秋風(fēng)蕭瑟",有時(shí)候用名人名言——讀起來(lái)文采斐然,但文章的實(shí)質(zhì)內(nèi)容其實(shí)是同一套固定框架:開頭感慨一下,中間舉個(gè)例子,結(jié)尾升華主題。不管題目是寫"我的理想"還是"一次難忘的經(jīng)歷",骨子里都是同一個(gè)模板。

"模板崩塌"正是如此。AI的思考文字看起來(lái)多樣,但實(shí)質(zhì)上與具體輸入的題目無(wú)關(guān),是一種精心包裝過(guò)的"萬(wàn)能模板"?,F(xiàn)有的熵指標(biāo)根本發(fā)現(xiàn)不了這個(gè)問(wèn)題,因?yàn)殪刂缓饬?一個(gè)問(wèn)題的多次回答之間是否不同",而不管"面對(duì)不同問(wèn)題時(shí),回答是否真的不同"。

研究團(tuán)隊(duì)用信息論的語(yǔ)言把這個(gè)問(wèn)題說(shuō)得非常清楚。多樣性(即"邊際熵")可以拆分成兩部分:一部分是"針對(duì)同一個(gè)輸入的回答有多豐富",另一部分是"面對(duì)不同輸入時(shí),回答是否真的隨之變化"。前者叫做條件熵,后者叫做互信息。現(xiàn)有的監(jiān)控手段只盯著條件熵,但"模板崩塌"的本質(zhì)是互信息崩潰——而這時(shí)條件熵依然可以很高,看起來(lái)一切正常。

這就好比一個(gè)演員能把同一個(gè)劇本用不同的表情、不同的語(yǔ)調(diào)、不同的肢體語(yǔ)言演出來(lái),每場(chǎng)演出都不一樣,"熵"很高。但如果不管導(dǎo)演讓他演什么角色,他永遠(yuǎn)表演的都是這同一個(gè)劇本,那他的表演就跟角色要求完全脫節(jié)了——這就是"模板崩塌"。

更令人擔(dān)憂的是,這種崩塌在多輪對(duì)話的AI智能體中尤其容易發(fā)生。因?yàn)樵诙噍喗换ダ?,?jiǎng)勵(lì)信號(hào)往往很稀疏——AI做了一系列動(dòng)作之后才能得到一個(gè)獎(jiǎng)勵(lì),很難判斷具體是哪一步的思考起了作用。于是AI就有機(jī)會(huì)用固定模板蒙混過(guò)關(guān),而訓(xùn)練系統(tǒng)根本察覺(jué)不到。

二、用"偵探識(shí)人"的方法來(lái)診斷模板崩塌

研究團(tuán)隊(duì)提出的解決方案,從診斷開始。他們?cè)O(shè)計(jì)了一套基于互信息的測(cè)量方法,核心思路其實(shí)相當(dāng)直覺(jué)化。

考慮這樣一個(gè)場(chǎng)景:你是一位偵探,面前有64份供詞,每份供詞來(lái)自不同的嫌疑人。如果每個(gè)嫌疑人的供詞都有獨(dú)特的細(xì)節(jié)——說(shuō)話風(fēng)格、具體描述、獨(dú)有的信息——那你只需要讀一份供詞,就能大概猜出它來(lái)自哪個(gè)人。反過(guò)來(lái),如果所有人的供詞都是同一套標(biāo)準(zhǔn)格式:"我當(dāng)天在家,沒(méi)有外出,希望警方能相信我。"那不管你讀哪份供詞,都沒(méi)法判斷是誰(shuí)寫的。

互信息的本質(zhì)就是測(cè)量這種"通過(guò)回答猜出問(wèn)題"的能力。如果AI的回答對(duì)不同的問(wèn)題真的有針對(duì)性,那你拿到一個(gè)回答,就能大致猜出它是針對(duì)哪類問(wèn)題寫的——這說(shuō)明互信息高。如果拿到回答完全無(wú)法判斷對(duì)應(yīng)的問(wèn)題,那互信息就趨近于零,"模板崩塌"就發(fā)生了。

具體操作上,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)叫做"批內(nèi)交叉打分"的方法。在每次訓(xùn)練時(shí),AI會(huì)對(duì)一批問(wèn)題(比如64個(gè)不同的題目)分別生成回答。然后,他們把每個(gè)回答放在所有64個(gè)題目下面,讓AI自己給每個(gè)"題目-回答"組合打分,分?jǐn)?shù)就是"這個(gè)回答對(duì)應(yīng)這個(gè)題目的可能性有多大"。如果AI的回答真的與題目相關(guān),那每個(gè)回答在自己對(duì)應(yīng)的題目下應(yīng)該得到最高分;如果回答是通用模板,那64個(gè)題目下的得分應(yīng)該差不多,就像隨機(jī)猜測(cè)一樣。

基于這個(gè)邏輯,研究團(tuán)隊(duì)設(shè)計(jì)了兩個(gè)核心測(cè)量指標(biāo)。一個(gè)叫"檢索準(zhǔn)確率",就是看一個(gè)回答能不能在64個(gè)題目中正確"認(rèn)出"自己的源頭題目——如果模板崩塌完全發(fā)生,正確率就會(huì)掉到1/64,也就是約1.56%,等于完全隨機(jī)猜測(cè)。另一個(gè)叫"MI-ZScore-EMA",是一種連續(xù)型的評(píng)分,能更細(xì)膩地反映回答與題目的相關(guān)程度,并通過(guò)數(shù)學(xué)處理使其在整個(gè)訓(xùn)練過(guò)程中保持穩(wěn)定可比。

這些指標(biāo)最厲害的地方在于,它們完全不需要額外的模型或人工標(biāo)注,就用訓(xùn)練時(shí)已經(jīng)有的數(shù)據(jù)來(lái)計(jì)算,幾乎沒(méi)有額外計(jì)算成本。

研究結(jié)果非常說(shuō)明問(wèn)題。在大量實(shí)驗(yàn)中,互信息類指標(biāo)與最終任務(wù)表現(xiàn)的相關(guān)性(用斯皮爾曼相關(guān)系數(shù)衡量)達(dá)到了+0.39,而傳統(tǒng)的熵類指標(biāo)相關(guān)性竟然是負(fù)數(shù),在-0.11到-0.14之間。這意味著,熵越高,任務(wù)表現(xiàn)反而可能越差——熵指標(biāo)不只是沒(méi)用,而且實(shí)際上在誤導(dǎo)研究者朝錯(cuò)誤方向調(diào)整?;バ畔⒉攀钦嬲A(yù)測(cè)AI表現(xiàn)好壞的指標(biāo)。

三、模板崩塌背后的物理學(xué):信噪比機(jī)制

找到了診斷方法,下一步是理解原因。研究團(tuán)隊(duì)從物理學(xué)的角度切入,用"信噪比"來(lái)解釋為什么模板崩塌幾乎是不可避免的。

強(qiáng)化學(xué)習(xí)更新AI參數(shù)的核心機(jī)制,是計(jì)算一個(gè)叫"梯度"的方向向量。梯度告訴AI:"你應(yīng)該往哪個(gè)方向調(diào)整參數(shù),才能讓好的回答出現(xiàn)得更頻繁、壞的回答出現(xiàn)得更少。"這個(gè)梯度由兩部分疊加而成:一部分來(lái)自"任務(wù)梯度",它依賴于同一個(gè)題目下不同回答的獎(jiǎng)勵(lì)差異;另一部分來(lái)自"正則化梯度",它來(lái)自兩個(gè)固定的約束——KL散度(約束AI別跑太遠(yuǎn)離初始狀態(tài))和熵正則化(鼓勵(lì)A(yù)I保持多樣性)。

問(wèn)題就出在這兩部分的強(qiáng)弱對(duì)比上。任務(wù)梯度的強(qiáng)度,直接取決于同一個(gè)題目下不同回答的獎(jiǎng)勵(lì)是否有明顯差別。用大白話說(shuō):如果AI對(duì)題目A的五次嘗試,有的得了高分、有的得了低分,分?jǐn)?shù)差異大,那任務(wù)梯度就很強(qiáng),AI能清楚地學(xué)到"哪種思路是對(duì)的"。但如果五次嘗試的分?jǐn)?shù)都差不多——要么都高,要么都低——那任務(wù)梯度就趨近于零。

而正則化梯度是完全無(wú)視題目?jī)?nèi)容的。不管你給AI喂的是數(shù)學(xué)題還是推理題,正則化梯度的強(qiáng)度基本保持不變,就像一個(gè)不管什么情況都以同樣力氣推你的人。

當(dāng)任務(wù)梯度弱、正則化梯度相對(duì)強(qiáng)時(shí),AI每次更新參數(shù)的方向就主要被正則化所主導(dǎo)。正則化鼓勵(lì)的是"在任何題目下都保持多樣性"和"別偏離初始模型太遠(yuǎn)",這兩者都是與具體輸入內(nèi)容無(wú)關(guān)的通用要求。于是,AI就慢慢學(xué)會(huì)了一種通用策略:讓回答看起來(lái)夠多樣(滿足熵正則化),同時(shí)別變化太劇烈(滿足KL約束)——但這種"多樣性"是跟題目無(wú)關(guān)的通用多樣性,不是針對(duì)具體題目的有針對(duì)性的思考。這就是模板崩塌的梯度級(jí)別機(jī)制。

研究團(tuán)隊(duì)用實(shí)驗(yàn)數(shù)據(jù)證實(shí)了這個(gè)推斷。他們把訓(xùn)練題目按照"同一題目下不同嘗試的獎(jiǎng)勵(lì)方差"從高到低分成六組,然后分別測(cè)量每組題目帶來(lái)的任務(wù)梯度強(qiáng)度和正則化梯度強(qiáng)度。結(jié)果非常清晰:任務(wù)梯度隨著獎(jiǎng)勵(lì)方差單調(diào)增大,獎(jiǎng)勵(lì)方差最高的那組題目,任務(wù)梯度是最低那組的好幾倍;而正則化梯度在六組之間幾乎完全一樣,完全不受獎(jiǎng)勵(lì)方差影響。在獎(jiǎng)勵(lì)方差最低的那組題目中,任務(wù)梯度幾乎為零,但AI的參數(shù)更新并不為零——更新完全由正則化主導(dǎo),是純粹的"噪聲驅(qū)動(dòng)"更新。

這個(gè)機(jī)制還有一個(gè)微妙而重要的推論:即使是本來(lái)訓(xùn)練挺好的AI,隨著訓(xùn)練深入,也會(huì)逐漸陷入這個(gè)困境。因?yàn)锳I越來(lái)越擅長(zhǎng)某些題目之后,那些它已經(jīng)基本能解決的題目,每次嘗試的結(jié)果都差不多——獎(jiǎng)勵(lì)方差隨之降低,任務(wù)梯度變?nèi)?,正則化逐漸主導(dǎo),慢慢走向模板化。

四、一個(gè)簡(jiǎn)單但有效的手術(shù)刀:信噪比感知過(guò)濾

既然問(wèn)題的根源在于低獎(jiǎng)勵(lì)方差題目帶來(lái)的低信噪比更新,解決方案就非常直接了:每次更新時(shí),把低獎(jiǎng)勵(lì)方差的題目踢掉,只用高獎(jiǎng)勵(lì)方差的題目來(lái)訓(xùn)練。

研究團(tuán)隊(duì)將這個(gè)方法命名為"SNR感知過(guò)濾"。操作流程分三步。第一步,正常生成訓(xùn)練數(shù)據(jù)——對(duì)每個(gè)題目采樣多次,得到多個(gè)回答及其對(duì)應(yīng)的獎(jiǎng)勵(lì)分?jǐn)?shù)。第二步,對(duì)每個(gè)題目計(jì)算"獎(jiǎng)勵(lì)方差"——也就是同一題目下不同回答的分?jǐn)?shù)分散程度。第三步,按照獎(jiǎng)勵(lì)方差從高到低給題目排序,只保留"高信號(hào)"的那部分題目來(lái)做參數(shù)更新。

具體的篩選規(guī)則采用了一種叫"Top-p核式過(guò)濾"的方法,與自然語(yǔ)言生成中的"核采樣"思路相似。大致原理是:把所有題目的獎(jiǎng)勵(lì)方差加起來(lái),只保留"加在一起能覆蓋總方差90%"的那些高方差題目。這個(gè)設(shè)計(jì)非常聰明——它能自動(dòng)適應(yīng)當(dāng)前批次的質(zhì)量。如果這批題目整體質(zhì)量都不錯(cuò)、方差普遍較高,那保留的題目就多;如果大多數(shù)題目方差都接近零,說(shuō)明這批數(shù)據(jù)大部分都是噪聲,就會(huì)自動(dòng)保留很少的題目,甚至可能直接跳過(guò)整批更新。

與之對(duì)比,另一種簡(jiǎn)單的方式是"Top-k過(guò)濾"——每次固定保留獎(jiǎng)勵(lì)方差排名前K個(gè)的題目,不管這K個(gè)題目的實(shí)際質(zhì)量如何。實(shí)驗(yàn)表明,Top-k不如Top-p,因?yàn)楣潭〝?shù)量意味著即使高質(zhì)量題目很少,也會(huì)被迫保留一些低質(zhì)量的湊數(shù),稀釋了訓(xùn)練信號(hào)。

這個(gè)方法的另一個(gè)優(yōu)勢(shì)是完全不需要額外的計(jì)算資源。因?yàn)楸緛?lái)就要對(duì)每個(gè)題目采樣多次(計(jì)算多個(gè)回答的獎(jiǎng)勵(lì)用于估算優(yōu)勢(shì)),獎(jiǎng)勵(lì)方差只是這些已有數(shù)據(jù)的一個(gè)簡(jiǎn)單統(tǒng)計(jì),計(jì)算量不到總訓(xùn)練時(shí)間的0.1%。實(shí)際上,由于過(guò)濾掉了一部分題目,每步訓(xùn)練需要處理的數(shù)據(jù)量減少了,整體速度反而加快了26%到41%。

五、實(shí)驗(yàn)驗(yàn)證:在七個(gè)不同任務(wù)上的全面測(cè)試

為了檢驗(yàn)這套方案是否真的有效,研究團(tuán)隊(duì)在七個(gè)性質(zhì)各異的任務(wù)上進(jìn)行了大規(guī)模實(shí)驗(yàn)。這七個(gè)任務(wù)覆蓋了AI可能面臨的各種挑戰(zhàn)場(chǎng)景。

"推箱子"(Sokoban)是一個(gè)經(jīng)典的益智游戲,AI需要把箱子推到指定位置,難點(diǎn)在于推錯(cuò)了就無(wú)法倒退,一步錯(cuò)步步錯(cuò),要求AI具備提前規(guī)劃多步的能力。"冰湖"(FrozenLake)是一個(gè)在隨機(jī)滑動(dòng)地面上導(dǎo)航到終點(diǎn)的任務(wù),每一步的結(jié)果都有隨機(jī)性,獎(jiǎng)勵(lì)信號(hào)非常稀疏。"MetaMathQA"要求AI解答數(shù)學(xué)題,允許多次嘗試但每次獎(jiǎng)勵(lì)遞減,鼓勵(lì)A(yù)I盡快找到正確答案。"倒計(jì)時(shí)"(Countdown)是一個(gè)用給定數(shù)字通過(guò)加減乘除達(dá)到目標(biāo)值的算術(shù)題,只有單次回答機(jī)會(huì)。"搜索問(wèn)答"(SearchQA)讓AI通過(guò)多輪搜索和信息整合來(lái)回答復(fù)雜問(wèn)題。"網(wǎng)上購(gòu)物"(WebShop)讓AI在模擬電商環(huán)境中按照用戶要求搜索并購(gòu)買合適商品。"深度編程"(DeepCoder)要求AI生成能通過(guò)測(cè)試用例的Python代碼。

實(shí)驗(yàn)使用了Qwen2.5-3B作為基礎(chǔ)模型,并在PPO、DAPO、GRPO、Dr.GRPO四種主流強(qiáng)化學(xué)習(xí)算法下分別測(cè)試。同時(shí),研究團(tuán)隊(duì)還在不同模型規(guī)模(0.5B、1.5B、3B、7B參數(shù))、不同模型家族(Qwen2.5系列、Llama3.2)、以及視覺(jué)語(yǔ)言模型(Qwen2.5-VL,同時(shí)接受文字和圖像輸入)上驗(yàn)證了方法的普適性。

結(jié)果非常一致。在PPO算法、Qwen2.5-3B模型的基準(zhǔn)設(shè)置下,推箱子任務(wù)的成功率從12.9%提升到28.9%(提升16個(gè)百分點(diǎn)),冰湖任務(wù)從67%提升到77.9%,數(shù)學(xué)題任務(wù)從92.6%提升到93.2%??缢惴y(cè)試中,DAPO算法下平均提升2.9個(gè)百分點(diǎn),GRPO算法下提升3.7個(gè)百分點(diǎn),Dr.GRPO算法下提升0.8個(gè)百分點(diǎn)??缒P鸵?guī)模測(cè)試中,最小的0.5B模型在推箱子上從3.3%提升到26.2%(提升幅度驚人),最大的7B模型在數(shù)學(xué)題上從84%提升到95.7%。在視覺(jué)語(yǔ)言模型測(cè)試中,冰湖任務(wù)上圖像輸入下的成功率從19.5%飆升到79%,提升超過(guò)59個(gè)百分點(diǎn)。

在所有這些提升的同時(shí),互信息指標(biāo)也同步提高,驗(yàn)證了"輸入相關(guān)性提升導(dǎo)致任務(wù)表現(xiàn)提升"的因果鏈條確實(shí)成立。

六、四個(gè)問(wèn)題:用實(shí)驗(yàn)排除所有備選解釋

研究團(tuán)隊(duì)深知,僅僅看到"過(guò)濾之后性能提升"還不足以證明信噪比機(jī)制是真正的原因。也許只是因?yàn)檫^(guò)濾掉了某些"太難"或"太容易"的題目,讓訓(xùn)練難度更合適?也許是因?yàn)殡S機(jī)環(huán)境噪聲干擾了結(jié)果?也許過(guò)濾本身改變了題目分布,而不是真的提升了信號(hào)質(zhì)量?

針對(duì)這些疑問(wèn),研究團(tuán)隊(duì)設(shè)計(jì)了四組關(guān)鍵實(shí)驗(yàn)來(lái)逐一排除。

第一組實(shí)驗(yàn),"分位數(shù)消融",直接驗(yàn)證獎(jiǎng)勵(lì)方差是否真的驅(qū)動(dòng)訓(xùn)練質(zhì)量。他們把所有題目按獎(jiǎng)勵(lì)方差分成四等份,分別只用最高25%(Q1)、次高25%(Q2)、次低25%(Q3)、最低25%(Q4)的題目訓(xùn)練。結(jié)果非常干凈:任務(wù)表現(xiàn)和互信息都從Q1到Q4單調(diào)遞減,Q1遠(yuǎn)好于Q4。配合之前的數(shù)學(xué)證明(任務(wù)梯度強(qiáng)度上界等于獎(jiǎng)勵(lì)方差的平方根),這建立了"獎(jiǎng)勵(lì)方差→梯度質(zhì)量→輸入相關(guān)推理"的完整因果鏈。

第二組實(shí)驗(yàn),"噪聲注入控制",測(cè)試環(huán)境隨機(jī)性對(duì)互信息的影響是否符合信噪比機(jī)制的預(yù)測(cè)。冰湖任務(wù)的滑動(dòng)概率從0%(完全確定性)逐步增加到100%(完全隨機(jī))。結(jié)果完全符合預(yù)測(cè):隨機(jī)性增加,任務(wù)表現(xiàn)下降,互信息下降,過(guò)濾的優(yōu)勢(shì)逐漸縮小。特別有意思的是,當(dāng)隨機(jī)性達(dá)到80%-100%時(shí),過(guò)濾的優(yōu)勢(shì)幾乎消失——因?yàn)榇藭r(shí)即使是獎(jiǎng)勵(lì)方差高的題目,其方差也主要來(lái)自環(huán)境噪聲而非真正的信號(hào)。這個(gè)"邊界條件"的出現(xiàn)恰恰驗(yàn)證了機(jī)制的精確性。

第三組實(shí)驗(yàn),"層級(jí)對(duì)比",區(qū)分"選擇好題目"和"選擇好軌跡"的效果差異。研究團(tuán)隊(duì)設(shè)置了一個(gè)對(duì)照:保留所有題目,但對(duì)每個(gè)題目只保留獎(jiǎng)勵(lì)最高和最低的各8條軌跡,通過(guò)軌跡級(jí)別的選擇來(lái)提升信噪比。這種軌跡級(jí)別的過(guò)濾確實(shí)比完全不過(guò)濾好,但效果顯著不如題目級(jí)別的過(guò)濾。原因在于:一個(gè)本來(lái)獎(jiǎng)勵(lì)方差就接近零的題目,強(qiáng)行選出"最高"和"最低"的軌跡,其實(shí)是在放大噪聲,選出來(lái)的"高獎(jiǎng)勵(lì)"和"低獎(jiǎng)勵(lì)"差距本就很小,并無(wú)多少信息量。

第四組實(shí)驗(yàn),"適用性預(yù)測(cè)",研究什么情況下過(guò)濾方法最有效。研究團(tuán)隊(duì)發(fā)現(xiàn),可以在訓(xùn)練開始前用一個(gè)簡(jiǎn)單指標(biāo)來(lái)預(yù)測(cè):計(jì)算當(dāng)前批次中各題目獎(jiǎng)勵(lì)方差的"變異系數(shù)"(標(biāo)準(zhǔn)差/均值)。當(dāng)這個(gè)比值高時(shí),說(shuō)明題目之間的獎(jiǎng)勵(lì)方差差別很大——有些題目信號(hào)豐富,有些幾乎是噪聲,過(guò)濾能精準(zhǔn)區(qū)分兩類。當(dāng)這個(gè)比值接近零時(shí),所有題目的方差都差不多,過(guò)濾就變成了隨機(jī)丟棄數(shù)據(jù),沒(méi)有意義甚至有害。這個(gè)發(fā)現(xiàn)給了研究者一個(gè)廉價(jià)的"先驗(yàn)檢驗(yàn)"工具,在跑完整實(shí)驗(yàn)前就能判斷過(guò)濾是否值得使用。

七、互信息與熵:誰(shuí)才是真正的晴雨表

實(shí)驗(yàn)還系統(tǒng)性地對(duì)比了互信息指標(biāo)和傳統(tǒng)熵指標(biāo)作為訓(xùn)練監(jiān)控工具的效果。研究團(tuán)隊(duì)嘗試了三種不同的干預(yù)手段——調(diào)整熵正則化系數(shù)、調(diào)整KL約束強(qiáng)度、調(diào)整SNR過(guò)濾保留比例——然后觀察每種手段在"互信息-任務(wù)表現(xiàn)"平面和"熵-任務(wù)表現(xiàn)"平面上的軌跡。

結(jié)果非常鮮明。調(diào)整熵正則化和KL約束,主要移動(dòng)的是熵軸,對(duì)互信息的影響很小,任務(wù)表現(xiàn)的變化也較小,而且軌跡雜亂無(wú)章,沒(méi)有單調(diào)性——增大或減小正則化強(qiáng)度都可能讓性能先上后下或先下后上,很難從這些指標(biāo)中判斷方向。相比之下,調(diào)整SNR過(guò)濾力度(保留比例從1.0到0.4),軌跡在互信息-任務(wù)表現(xiàn)平面上呈現(xiàn)出漂亮的單調(diào)曲線:過(guò)濾力度越大(保留比例越?。?,互信息越高,任務(wù)表現(xiàn)也越高,直到過(guò)濾過(guò)于激進(jìn)開始損害探索為止。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣現(xiàn)象:格式有效性(AI輸出是否符合規(guī)定格式)與互信息幾乎沒(méi)有關(guān)聯(lián)。有些運(yùn)行在格式完全正確的同時(shí),互信息極低,說(shuō)明AI正處于模板崩塌狀態(tài)。這意味著,用"格式是否正確"來(lái)替代互信息作為崩塌指標(biāo)是行不通的——兩者測(cè)量的是完全不同的東西。

此外,獎(jiǎng)勵(lì)方差與熵和回答長(zhǎng)度的相關(guān)性都非常低(斯皮爾曼相關(guān)約-0.14和0.12),而與任務(wù)獎(jiǎng)勵(lì)的相關(guān)性高達(dá)0.63。這說(shuō)明獎(jiǎng)勵(lì)方差測(cè)量的是一個(gè)獨(dú)立于表面統(tǒng)計(jì)特征的信號(hào)質(zhì)量維度,是KL正則化和熵正則化之外的第三個(gè)獨(dú)立調(diào)節(jié)旋鈕。

說(shuō)到底,這篇論文講的是一個(gè)在AI訓(xùn)練領(lǐng)域中長(zhǎng)期潛伏的隱形問(wèn)題。就像一個(gè)員工表面上工作很努力、產(chǎn)出很豐富,但實(shí)際上已經(jīng)完全進(jìn)入了"應(yīng)付模式",所有工作都套用同一個(gè)模板,跟具體任務(wù)需求早已脫節(jié)——這種問(wèn)題用傳統(tǒng)的考核指標(biāo)完全發(fā)現(xiàn)不了,只有換一種角度才能看清真相。

研究團(tuán)隊(duì)給出的答案簡(jiǎn)潔而優(yōu)雅:用互信息來(lái)衡量AI的推理是否真的響應(yīng)了輸入,用獎(jiǎng)勵(lì)方差來(lái)識(shí)別哪些訓(xùn)練數(shù)據(jù)真的在幫AI學(xué)習(xí),用過(guò)濾手段把噪聲驅(qū)動(dòng)的更新去掉,讓信號(hào)重新主導(dǎo)訓(xùn)練方向。

這對(duì)普通人意味著什么?從近的角度說(shuō),你使用的AI助手、智能客服、自動(dòng)駕駛輔助系統(tǒng),背后都在用類似的強(qiáng)化學(xué)習(xí)方法訓(xùn)練。這套診斷和修復(fù)框架,能幫助開發(fā)者更早發(fā)現(xiàn)AI的"思維僵化",在產(chǎn)品上線前把問(wèn)題解決掉,讓你得到真正針對(duì)你的問(wèn)題而給出的回答,而不是一個(gè)精心偽裝的通用模板。從遠(yuǎn)的角度說(shuō),隨著AI系統(tǒng)越來(lái)越多地被部署在醫(yī)療、法律、科學(xué)研究等高風(fēng)險(xiǎn)領(lǐng)域,確保AI的推理真的與具體情境掛鉤,而不是套用固定模板,會(huì)越來(lái)越關(guān)乎實(shí)際安全。

當(dāng)然,這項(xiàng)研究也坦誠(chéng)地指出了自己的局限性。信噪比分解假設(shè)任務(wù)信號(hào)和正則化噪聲能干凈地分離,但在實(shí)踐中它們可能通過(guò)梯度累積相互耦合。所有實(shí)驗(yàn)都是單個(gè)AI智能體,多智能體場(chǎng)景下的模板崩塌如何傳播還未被研究。還有一個(gè)潛在風(fēng)險(xiǎn):足夠強(qiáng)大的AI可能會(huì)學(xué)會(huì)"游戲規(guī)則",故意在訓(xùn)練時(shí)制造出較高的獎(jiǎng)勵(lì)方差來(lái)騙過(guò)過(guò)濾器——這在長(zhǎng)期訓(xùn)練中值得持續(xù)關(guān)注。有興趣深入了解這項(xiàng)研究的所有細(xì)節(jié)、數(shù)學(xué)推導(dǎo)和實(shí)驗(yàn)設(shè)置的讀者,可以通過(guò)arXiv編號(hào)2604.06268查閱完整論文。

Q&A

Q1:模板崩塌和普通的AI模型退化有什么區(qū)別?

A:模板崩塌是一種特殊的退化形式,關(guān)鍵在于它"外表正常、內(nèi)里空洞"。普通的AI退化往往能從獎(jiǎng)勵(lì)分?jǐn)?shù)下降或輸出變得單調(diào)中被發(fā)現(xiàn)。但模板崩塌發(fā)生時(shí),AI的輸出依然措辭豐富、格式正確、獎(jiǎng)勵(lì)穩(wěn)定,傳統(tǒng)監(jiān)控指標(biāo)全部顯示"綠燈"。唯一能發(fā)現(xiàn)它的方式是檢測(cè)AI的回答是否真的隨著輸入內(nèi)容的變化而變化——這正是互信息指標(biāo)的作用,而傳統(tǒng)的熵指標(biāo)對(duì)這種崩塌完全視而不見。

Q2:SNR感知過(guò)濾會(huì)不會(huì)讓AI錯(cuò)過(guò)一些有價(jià)值的訓(xùn)練數(shù)據(jù)?

A:會(huì)丟棄一部分?jǐn)?shù)據(jù),但被丟棄的恰恰是"看起來(lái)像訓(xùn)練數(shù)據(jù)、實(shí)際上是噪聲"的低質(zhì)量樣本。對(duì)于同一個(gè)題目所有嘗試獎(jiǎng)勵(lì)都差不多的數(shù)據(jù),AI根本學(xué)不到"什么做法更好",只能學(xué)到來(lái)自正則化的通用壓力。研究實(shí)驗(yàn)顯示,在保持總體訓(xùn)練樣本數(shù)量不變的前提下,過(guò)濾后的訓(xùn)練速度反而加快了26%到41%,最終任務(wù)表現(xiàn)也更好,說(shuō)明質(zhì)量遠(yuǎn)比數(shù)量重要。當(dāng)然,過(guò)于激進(jìn)的過(guò)濾會(huì)影響探索多樣性,需要根據(jù)任務(wù)調(diào)整保留比例。

Q3:互信息代理指標(biāo)在實(shí)際訓(xùn)練中怎么計(jì)算,成本高嗎?

A:計(jì)算方法叫"批內(nèi)交叉打分",完全依賴訓(xùn)練時(shí)已有的數(shù)據(jù)。具體做法是把每次訓(xùn)練批次中所有題目的回答交叉評(píng)分——讓AI對(duì)每個(gè)回答計(jì)算"對(duì)應(yīng)每個(gè)題目的可能性",從而判斷回答是否與源題目特別匹配。這些計(jì)算復(fù)用了訓(xùn)練過(guò)程中本來(lái)就要做的前向傳播,不需要額外的模型調(diào)用或人工標(biāo)注,額外計(jì)算成本不到總訓(xùn)練時(shí)間的0.1%,在工程上非常輕量。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
特斯拉中國(guó)車機(jī)將接入豆包大模型:支持語(yǔ)音命令功能

特斯拉中國(guó)車機(jī)將接入豆包大模型:支持語(yǔ)音命令功能

識(shí)礁Farsight
2026-04-22 14:53:26
錢留下,人別來(lái)!西班牙主席對(duì)中國(guó)甩出一句話,全網(wǎng)炸鍋了

錢留下,人別來(lái)!西班牙主席對(duì)中國(guó)甩出一句話,全網(wǎng)炸鍋了

菁菁子衿
2026-04-21 10:11:50
鄧紫棋改編偶像周杰倫《愛(ài)琴海》登熱搜,周董回復(fù):感謝翻唱,聽起來(lái)太棒了;兩人曾在演唱會(huì)互動(dòng),周杰倫后悔沒(méi)簽下鄧紫棋

鄧紫棋改編偶像周杰倫《愛(ài)琴?!返菬崴?,周董回復(fù):感謝翻唱,聽起來(lái)太棒了;兩人曾在演唱會(huì)互動(dòng),周杰倫后悔沒(méi)簽下鄧紫棋

魯中晨報(bào)
2026-04-22 17:28:12
87年,39歲,我終于不怕失業(yè)了。

87年,39歲,我終于不怕失業(yè)了。

老陸不老
2026-04-22 12:08:06
為什么觀眾明知有毒卻嗑到上頭?

為什么觀眾明知有毒卻嗑到上頭?

晚風(fēng)也遺憾
2026-04-21 11:54:52
他錯(cuò)殺袁文才、王佐,使井岡山失守,后飲彈自盡,建國(guó)后被評(píng)烈士

他錯(cuò)殺袁文才、王佐,使井岡山失守,后飲彈自盡,建國(guó)后被評(píng)烈士

老謝談史
2026-04-08 22:51:53
被網(wǎng)友的“回形針用法”驚到了!果然,人類對(duì)回形針的開發(fā)不足1%

被網(wǎng)友的“回形針用法”驚到了!果然,人類對(duì)回形針的開發(fā)不足1%

美家指南
2026-04-22 16:26:39
新易盛股價(jià)突破600元/股

新易盛股價(jià)突破600元/股

證券時(shí)報(bào)
2026-04-22 14:32:04
還有15天!伊朗石油業(yè)將被迫減產(chǎn),隨后全面停產(chǎn)

還有15天!伊朗石油業(yè)將被迫減產(chǎn),隨后全面停產(chǎn)

華爾街見聞官方
2026-04-22 14:04:02
一場(chǎng)21揪出蓉城大水貨!表現(xiàn)拉胯拖全隊(duì)后腿,再不調(diào)整榜首懸了

一場(chǎng)21揪出蓉城大水貨!表現(xiàn)拉胯拖全隊(duì)后腿,再不調(diào)整榜首懸了

硯底沉香
2026-04-22 16:02:18
別被騙了!宋朝官帽那兩根“翅膀”,根本不是用來(lái)防交頭接耳的

別被騙了!宋朝官帽那兩根“翅膀”,根本不是用來(lái)防交頭接耳的

瘋狂的小歷史
2026-04-11 08:47:51
激烈交鋒!解放軍全軍待命,日本恐重蹈二戰(zhàn)覆轍,岸田文雄已扛旗

激烈交鋒!解放軍全軍待命,日本恐重蹈二戰(zhàn)覆轍,岸田文雄已扛旗

標(biāo)體
2026-04-21 16:53:36
弗洛倫蒂諾還是震怒了,皇馬計(jì)劃開啟清洗模式

弗洛倫蒂諾還是震怒了,皇馬計(jì)劃開啟清洗模式

K唐伯虎
2026-04-22 07:56:28
高校院長(zhǎng)疑似學(xué)術(shù)不端,博士論文未公開,學(xué)生論文被其配偶摘桃子

高校院長(zhǎng)疑似學(xué)術(shù)不端,博士論文未公開,學(xué)生論文被其配偶摘桃子

報(bào)人老張
2026-04-22 18:50:27
日本賭中方不會(huì)動(dòng)手,軍艦直接開進(jìn)臺(tái)海,解放軍為何仍保持克制?

日本賭中方不會(huì)動(dòng)手,軍艦直接開進(jìn)臺(tái)海,解放軍為何仍保持克制?

阿尢說(shuō)歷史
2026-04-21 16:05:51
二戰(zhàn)時(shí),德國(guó)為何送中國(guó)40萬(wàn)套裝備?要走了垂涎已久的三樣?xùn)|西

二戰(zhàn)時(shí),德國(guó)為何送中國(guó)40萬(wàn)套裝備?要走了垂涎已久的三樣?xùn)|西

抽象派大師
2026-04-03 14:30:57
網(wǎng)購(gòu)?fù)晔O碌摹翱爝f氣柱袋”都能拿來(lái)干嘛?網(wǎng)友的點(diǎn)子,絕了

網(wǎng)購(gòu)?fù)晔O碌摹翱爝f氣柱袋”都能拿來(lái)干嘛?網(wǎng)友的點(diǎn)子,絕了

美家指南
2026-04-20 16:05:59
普通家庭能給孩子最好的托舉是什么?網(wǎng)友:真的說(shuō)到點(diǎn)上了

普通家庭能給孩子最好的托舉是什么?網(wǎng)友:真的說(shuō)到點(diǎn)上了

夜深愛(ài)雜談
2025-11-21 20:20:12
你見過(guò)老板是怎么把生意干黃的?網(wǎng)友:拿了雙一次性筷子還追出來(lái)

你見過(guò)老板是怎么把生意干黃的?網(wǎng)友:拿了雙一次性筷子還追出來(lái)

夜深愛(ài)雜談
2026-04-20 09:31:31
助攻基因!22歲曼城新核碾壓全歐中場(chǎng),藍(lán)月亮3650萬(wàn)歐撿漏新梅西

助攻基因!22歲曼城新核碾壓全歐中場(chǎng),藍(lán)月亮3650萬(wàn)歐撿漏新梅西

體壇老球迷
2026-04-22 11:48:46
2026-04-22 19:43:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8088文章數(shù) 562關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒(méi)有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國(guó)道歉

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國(guó)道歉

體育要聞

網(wǎng)易傳媒再度簽約法國(guó)隊(duì)和阿根廷隊(duì)

娛樂(lè)要聞

復(fù)婚無(wú)望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長(zhǎng)?;鹌谙?/h3>

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬(wàn)起

態(tài)度原創(chuàng)

本地
藝術(shù)
房產(chǎn)
時(shí)尚
軍事航空

本地新聞

春色滿城關(guān)不?。座N梅浪漫盛放,吳山藏了一片四月雪

藝術(shù)要聞

無(wú)花不風(fēng)景

房產(chǎn)要聞

官宣!今年9月起,廣州中小學(xué)“重點(diǎn)班”將成歷史!

初夏穿赫本的白褲子,清新又高級(jí)!

軍事要聞

特朗普宣布延長(zhǎng)停火 伊朗表態(tài)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版