網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

清華與滴滴發(fā)現(xiàn)：消除0.01%有害詞提升AI性能20%

2026-02-26 19:44:59　來(lái)源: 至頂AI實(shí)驗(yàn)室

北京舉報(bào)

分享至

這項(xiàng)由清華大學(xué)車(chē)輛與運(yùn)載學(xué)院以及滴滴自動(dòng)駕駛團(tuán)隊(duì)聯(lián)合完成的研究發(fā)表于2026年2月17日的arXiv預(yù)印本，論文編號(hào)為arXiv:2602.15620v1。對(duì)于那些想要深入了解技術(shù)細(xì)節(jié)的讀者，可以通過(guò)這個(gè)編號(hào)在學(xué)術(shù)數(shù)據(jù)庫(kù)中找到完整的研究資料。

當(dāng)我們教AI解數(shù)學(xué)題時(shí)，就像訓(xùn)練一個(gè)學(xué)生參加考試一樣。老師會(huì)根據(jù)學(xué)生答題的對(duì)錯(cuò)給予獎(jiǎng)勵(lì)或懲罰，希望學(xué)生能從中學(xué)會(huì)正確的解題方法。但是研究人員發(fā)現(xiàn)了一個(gè)令人困惑的現(xiàn)象：AI在學(xué)習(xí)過(guò)程中經(jīng)常會(huì)突然"崩潰"，原本能夠清晰解題的AI突然開(kāi)始胡言亂語(yǔ)，或者陷入無(wú)意義的重復(fù)循環(huán)。

這種現(xiàn)象就像一個(gè)原本表現(xiàn)優(yōu)秀的學(xué)生，突然開(kāi)始在考試中寫(xiě)一些莫名其妙的答案，或者不停地重復(fù)同一句話(huà)。更奇怪的是，這種"崩潰"往往發(fā)生在訓(xùn)練的后期，當(dāng)AI似乎已經(jīng)學(xué)會(huì)了很多知識(shí)的時(shí)候。

為了理解這個(gè)問(wèn)題，研究團(tuán)隊(duì)決定從最細(xì)微的層面入手——觀(guān)察AI在處理每一個(gè)詞匯時(shí)的行為。他們發(fā)現(xiàn)了一個(gè)驚人的秘密：在AI生成的正確答案中，隱藏著一小撮"害群之馬"般的詞匯，這些詞匯雖然出現(xiàn)在正確的回答里，但實(shí)際上對(duì)解題過(guò)程毫無(wú)幫助，甚至?xí)a(chǎn)生誤導(dǎo)作用。

一、發(fā)現(xiàn)隱藏在正確答案中的"搗亂分子"

研究團(tuán)隊(duì)通過(guò)深入分析發(fā)現(xiàn)，AI在學(xué)習(xí)過(guò)程中會(huì)遇到一種特殊的困境。當(dāng)AI生成一個(gè)數(shù)學(xué)題的完整解答時(shí)，這個(gè)解答可能最終得出了正確答案，因此會(huì)獲得正面的獎(jiǎng)勵(lì)。但是在這個(gè)看似正確的解答過(guò)程中，可能包含了一些不合適的詞匯選擇。

比如說(shuō)，在描述"移除圖中的邊"這個(gè)數(shù)學(xué)概念時(shí)，AI可能會(huì)選擇使用"broken"（壞掉的）這個(gè)詞，而不是更標(biāo)準(zhǔn)的"removed"（移除的）。雖然在日常對(duì)話(huà)中"broken"也能表達(dá)相似的意思，但在數(shù)學(xué)語(yǔ)境下，"removed"才是更準(zhǔn)確、更專(zhuān)業(yè)的用詞。問(wèn)題在于，由于整個(gè)解答最終得到了正確答案，AI的學(xué)習(xí)系統(tǒng)會(huì)錯(cuò)誤地認(rèn)為使用"broken"這個(gè)詞是好的選擇，從而在未來(lái)更頻繁地使用這種不準(zhǔn)確的表達(dá)。

更嚴(yán)重的情況是數(shù)學(xué)錯(cuò)誤的出現(xiàn)。研究人員發(fā)現(xiàn)了這樣的例子：AI在驗(yàn)證一個(gè)分解式時(shí)寫(xiě)道"6901 = 67 × 103 - 1"。實(shí)際上67乘以103等于6901，所以減去1就變成了6900，這明顯是錯(cuò)誤的。但由于最終答案碰巧是對(duì)的，這個(gè)明顯的數(shù)學(xué)錯(cuò)誤反而被當(dāng)作"好的表達(dá)"而得到強(qiáng)化。

還有一類(lèi)問(wèn)題出現(xiàn)在格式層面。AI可能會(huì)在數(shù)學(xué)公式中產(chǎn)生一些格式錯(cuò)誤，比如在本應(yīng)該有空格的地方直接寫(xiě)"3"而不是" 3"。雖然這種錯(cuò)誤在最終顯示時(shí)可能被自動(dòng)修正，看起來(lái)沒(méi)有影響，但實(shí)際上AI學(xué)習(xí)到了一種非標(biāo)準(zhǔn)的格式規(guī)范。

研究團(tuán)隊(duì)將這些有問(wèn)題的詞匯統(tǒng)稱(chēng)為"虛假信號(hào)詞匯"（spurious tokens）。這些詞匯有三個(gè)共同特征：它們出現(xiàn)的概率很低（AI本來(lái)不太可能選擇這些詞），它們?cè)诋?dāng)前語(yǔ)境下的不確定性很低（AI對(duì)選擇這些詞很"自信"），但它們獲得了正面的學(xué)習(xí)信號(hào)（因?yàn)榘鼈兊恼麄€(gè)回答是正確的）。

二、數(shù)學(xué)證明：為什么微小的問(wèn)題會(huì)引發(fā)巨大的混亂

研究團(tuán)隊(duì)不僅僅是觀(guān)察到了這個(gè)現(xiàn)象，他們還通過(guò)數(shù)學(xué)方法證明了為什么這些看似微不足道的詞匯會(huì)對(duì)AI的學(xué)習(xí)造成如此大的影響。

在AI的學(xué)習(xí)過(guò)程中，每個(gè)詞匯都會(huì)產(chǎn)生一定的"學(xué)習(xí)強(qiáng)度"，這個(gè)強(qiáng)度決定了AI對(duì)使用這個(gè)詞匯的偏好會(huì)發(fā)生多大的改變。研究人員發(fā)現(xiàn)，這個(gè)學(xué)習(xí)強(qiáng)度與兩個(gè)關(guān)鍵因素密切相關(guān)：詞匯出現(xiàn)的概率和當(dāng)前的不確定性水平。

當(dāng)一個(gè)詞匯出現(xiàn)概率很低、同時(shí)AI對(duì)選擇這個(gè)詞又很確定時(shí)，就會(huì)產(chǎn)生異常強(qiáng)烈的學(xué)習(xí)信號(hào)。這就像在一個(gè)安靜的圖書(shū)館里突然響起的手機(jī)鈴聲，雖然聲音可能不大，但因?yàn)楸尘鞍察o，這個(gè)聲音就會(huì)顯得特別刺耳，引起所有人的注意。

具體來(lái)說(shuō)，研究人員通過(guò)數(shù)學(xué)推導(dǎo)證明了學(xué)習(xí)強(qiáng)度與詞匯概率和不確定性之間存在反比關(guān)系。當(dāng)一個(gè)詞匯的出現(xiàn)概率降低時(shí)，它產(chǎn)生的學(xué)習(xí)強(qiáng)度會(huì)顯著增加。同樣地，當(dāng)AI對(duì)某個(gè)決策的不確定性降低時(shí)，相應(yīng)的學(xué)習(xí)強(qiáng)度也會(huì)放大。

這種數(shù)學(xué)關(guān)系解釋了為什么那些虛假信號(hào)詞匯會(huì)對(duì)AI的學(xué)習(xí)產(chǎn)生如此不成比例的影響。雖然這些詞匯在所有詞匯中的占比極?。ㄑ芯堪l(fā)現(xiàn)大約只有0.01%），但它們產(chǎn)生的學(xué)習(xí)信號(hào)卻異常強(qiáng)烈，足以擾亂AI的整個(gè)學(xué)習(xí)過(guò)程。

研究團(tuán)隊(duì)通過(guò)實(shí)際的訓(xùn)練數(shù)據(jù)驗(yàn)證了這個(gè)理論。他們發(fā)現(xiàn)，含有虛假信號(hào)特征的詞匯產(chǎn)生的平均學(xué)習(xí)強(qiáng)度比正常詞匯高出16.7%。這意味著雖然這些有問(wèn)題的詞匯數(shù)量很少，但它們對(duì)AI學(xué)習(xí)方向的影響力卻遠(yuǎn)超其應(yīng)有的比重。

三、STAPO方法：精準(zhǔn)消除害群之馬的智能過(guò)濾系統(tǒng)

基于對(duì)問(wèn)題根源的深入理解，研究團(tuán)隊(duì)開(kāi)發(fā)了一種名為STAPO（Spurious-Token-Aware Policy Optimization，虛假信號(hào)詞匯感知策略?xún)?yōu)化）的解決方案。這個(gè)方法的核心思想就像是為AI的學(xué)習(xí)過(guò)程安裝了一個(gè)智能過(guò)濾器，能夠精準(zhǔn)識(shí)別和屏蔽那些有害的學(xué)習(xí)信號(hào)。

STAPO的工作原理相當(dāng)巧妙。在AI的每一次學(xué)習(xí)過(guò)程中，系統(tǒng)會(huì)實(shí)時(shí)監(jiān)控每個(gè)詞匯的三個(gè)關(guān)鍵指標(biāo)：這個(gè)詞匯獲得的是正面還是負(fù)面評(píng)價(jià)，它出現(xiàn)的概率有多低，以及AI對(duì)選擇這個(gè)詞的確定性有多高。當(dāng)一個(gè)詞匯同時(shí)滿(mǎn)足"獲得正面評(píng)價(jià)"、"出現(xiàn)概率很低"、"AI很確定"這三個(gè)條件時(shí)，系統(tǒng)就會(huì)將其標(biāo)記為潛在的虛假信號(hào)詞匯。

一旦識(shí)別出這些有問(wèn)題的詞匯，STAPO不會(huì)簡(jiǎn)單地刪除它們，而是采用了一種更加精細(xì)的處理方式。系統(tǒng)會(huì)將這些詞匯的學(xué)習(xí)信號(hào)"靜音"，就像在音頻編輯中將某個(gè)頻段的噪音濾除一樣，然后重新計(jì)算整體的學(xué)習(xí)強(qiáng)度，確保剩余的正常詞匯能夠獲得適當(dāng)?shù)膶W(xué)習(xí)權(quán)重。

這種方法的巧妙之處在于它的精準(zhǔn)性和節(jié)制性。研究數(shù)據(jù)顯示，STAPO在整個(gè)訓(xùn)練過(guò)程中只屏蔽了大約0.01%的詞匯學(xué)習(xí)信號(hào)。這個(gè)比例非常小，意味著絕大部分正常的學(xué)習(xí)過(guò)程都不會(huì)受到影響，但就是這微小的調(diào)整卻帶來(lái)了顯著的改善。

為了確保STAPO的有效性，研究團(tuán)隊(duì)還設(shè)計(jì)了自適應(yīng)的閾值機(jī)制。對(duì)于判斷不確定性水平的閾值，系統(tǒng)會(huì)根據(jù)當(dāng)前批次的數(shù)據(jù)動(dòng)態(tài)調(diào)整，確保能夠準(zhǔn)確捕捉到真正有問(wèn)題的詞匯。而對(duì)于概率閾值，研究人員經(jīng)過(guò)大量實(shí)驗(yàn)后選擇了固定值，避免誤傷那些雖然概率不高但確實(shí)有用的詞匯。

四、實(shí)驗(yàn)驗(yàn)證：小改動(dòng)帶來(lái)大提升的驚人效果

研究團(tuán)隊(duì)在多個(gè)規(guī)模的AI模型上測(cè)試了STAPO方法的效果，結(jié)果令人印象深刻。他們使用了三種不同大小的模型（17億、80億和140億參數(shù)），在六個(gè)不同的數(shù)學(xué)推理測(cè)試集上進(jìn)行了全面評(píng)估。

最引人注目的發(fā)現(xiàn)是在訓(xùn)練穩(wěn)定性方面的改善。在使用傳統(tǒng)方法訓(xùn)練AI時(shí)，研究人員經(jīng)常觀(guān)察到一種被稱(chēng)為"熵爆炸"或"熵崩潰"的現(xiàn)象。熵在這里可以理解為AI回答的隨機(jī)性程度。當(dāng)熵過(guò)高時(shí)，AI的回答變得過(guò)于隨機(jī)和不連貫；當(dāng)熵過(guò)低時(shí)，AI可能陷入重復(fù)或過(guò)于機(jī)械的回答模式。

使用STAPO方法后，AI的熵水平在整個(gè)訓(xùn)練過(guò)程中保持了良好的穩(wěn)定性。這就像是為一個(gè)容易情緒波動(dòng)的學(xué)生找到了情緒調(diào)節(jié)的方法，讓他能夠保持穩(wěn)定的學(xué)習(xí)狀態(tài)。在圖表中可以清楚地看到，使用STAPO的AI模型在訓(xùn)練過(guò)程中顯示出平滑的學(xué)習(xí)曲線(xiàn)，而使用傳統(tǒng)方法的模型則出現(xiàn)明顯的波動(dòng)和不穩(wěn)定現(xiàn)象。

在性能表現(xiàn)方面，STAPO同樣交出了優(yōu)秀的答卷。在17億參數(shù)的小型模型上，STAPO相比最佳基線(xiàn)方法實(shí)現(xiàn)了13.50%的相對(duì)性能提升。隨著模型規(guī)模的增大，這種優(yōu)勢(shì)依然保持顯著。在80億參數(shù)模型上的提升幅度也達(dá)到了可觀(guān)的水平，而在140億參數(shù)的大型模型上，STAPO繼續(xù)保持領(lǐng)先地位。

特別值得注意的是，這些性能提升是在兩種不同的評(píng)估設(shè)置下都得到驗(yàn)證的。第一種是"訓(xùn)練對(duì)齊設(shè)置"，使用與訓(xùn)練時(shí)相同的隨機(jī)度參數(shù)；第二種是"約束解碼設(shè)置"，使用更保守的參數(shù)來(lái)減少隨機(jī)性。在兩種設(shè)置下，STAPO都顯示出了一致的優(yōu)越性，證明了這種方法的穩(wěn)健性。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)，探索了不同組合策略的效果。他們發(fā)現(xiàn)，僅僅基于概率低來(lái)屏蔽詞匯是不夠的，這樣做可能會(huì)誤傷一些雖然罕見(jiàn)但確實(shí)有用的表達(dá)。同樣地，僅僅基于不確定性來(lái)判斷也不夠準(zhǔn)確。只有將概率、不確定性和評(píng)價(jià)信號(hào)三個(gè)維度結(jié)合起來(lái)，才能精準(zhǔn)識(shí)別真正有害的虛假信號(hào)詞匯。

五、深入分析：揭開(kāi)虛假信號(hào)詞匯的真面目

為了更好地理解STAPO方法的工作機(jī)制，研究團(tuán)隊(duì)對(duì)被識(shí)別出的虛假信號(hào)詞匯進(jìn)行了深入的定性分析。他們將這些有問(wèn)題的詞匯分為了三個(gè)主要類(lèi)別，每一類(lèi)都揭示了AI學(xué)習(xí)過(guò)程中的不同問(wèn)題。

第一類(lèi)是"非常規(guī)語(yǔ)法"類(lèi)詞匯。這類(lèi)詞匯在語(yǔ)法上并沒(méi)有錯(cuò)誤，但在特定的數(shù)學(xué)語(yǔ)境下顯得不夠?qū)I(yè)或不夠準(zhǔn)確。比如前面提到的用"broken"來(lái)描述"移除圖中的邊"，或者用"calculation"（計(jì)算）來(lái)指代"code"（代碼）。雖然這些用詞在日常交流中可能是可以接受的，但在嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)表達(dá)中卻不夠準(zhǔn)確。當(dāng)AI因?yàn)檎w答案正確而強(qiáng)化這些不準(zhǔn)確用詞的使用時(shí)，就會(huì)逐漸偏離標(biāo)準(zhǔn)的數(shù)學(xué)表達(dá)規(guī)范。

第二類(lèi)是"幻覺(jué)和數(shù)學(xué)錯(cuò)誤"類(lèi)詞匯。這是最嚴(yán)重的一類(lèi)問(wèn)題，包含了明顯的事實(shí)錯(cuò)誤、計(jì)算錯(cuò)誤或者憑空捏造的數(shù)值。研究人員發(fā)現(xiàn)了許多令人哭笑不得的例子，比如AI在驗(yàn)算時(shí)寫(xiě)出"6901 = 67 × 103 - 1"這樣的錯(cuò)誤等式，或者在應(yīng)該寫(xiě)"21.5625"的地方寫(xiě)成了其他數(shù)字。這些錯(cuò)誤雖然最終沒(méi)有影響到答案的正確性（可能是后續(xù)步驟中的其他計(jì)算抵消了誤差），但卻被AI的學(xué)習(xí)系統(tǒng)錯(cuò)誤地認(rèn)為是"好的做法"而得到強(qiáng)化。

第三類(lèi)是"格式錯(cuò)誤"類(lèi)詞匯。這類(lèi)問(wèn)題主要涉及到數(shù)學(xué)公式的排版和格式規(guī)范。比如在數(shù)學(xué)表達(dá)式中應(yīng)該有空格的地方直接連寫(xiě)，或者使用了不標(biāo)準(zhǔn)的符號(hào)組合。雖然這些錯(cuò)誤在最終的顯示效果中可能被系統(tǒng)自動(dòng)修正，看起來(lái)沒(méi)有問(wèn)題，但AI實(shí)際上學(xué)習(xí)到了錯(cuò)誤的格式規(guī)范。

通過(guò)對(duì)大量樣本的統(tǒng)計(jì)分析，研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：雖然虛假信號(hào)詞匯的總體數(shù)量很少，但它們?cè)诓煌?lèi)型問(wèn)題中的分布卻相對(duì)均勻。這說(shuō)明這個(gè)問(wèn)題不是某種特殊情況下的偶然現(xiàn)象，而是AI學(xué)習(xí)機(jī)制中的一個(gè)系統(tǒng)性問(wèn)題。

更有趣的是，研究人員通過(guò)詞云分析發(fā)現(xiàn)，被STAPO屏蔽的詞匯主要包括一些特定的數(shù)字（如"4"、"1"、"2"）、數(shù)學(xué)符號(hào)（如"$"）和過(guò)渡詞匯（如"Wait"、"But"、"Since"）。與此形成對(duì)比的是，被保留的正常詞匯主要是數(shù)學(xué)推理中的核心詞匯，如"Let"、"find"、"we"、"can"等，這些詞匯構(gòu)成了數(shù)學(xué)推理表達(dá)的基礎(chǔ)框架。

六、技術(shù)細(xì)節(jié)：STAPO的精妙設(shè)計(jì)哲學(xué)

STAPO方法的成功不僅僅在于它識(shí)別問(wèn)題的準(zhǔn)確性，更在于其設(shè)計(jì)中體現(xiàn)的精妙平衡哲學(xué)。研究團(tuán)隊(duì)在開(kāi)發(fā)過(guò)程中面臨的最大挑戰(zhàn)是如何在屏蔽有害信號(hào)的同時(shí)，避免誤傷有用的學(xué)習(xí)信息。

在閾值設(shè)計(jì)方面，研究人員采用了一種混合策略。對(duì)于不確定性閾值，他們使用了動(dòng)態(tài)百分位數(shù)方法。具體來(lái)說(shuō)，系統(tǒng)會(huì)在每個(gè)訓(xùn)練批次中計(jì)算所有詞匯不確定性的分布，然后將處于最低20%的詞匯標(biāo)記為"低不確定性"。這種動(dòng)態(tài)調(diào)整的好處是能夠適應(yīng)訓(xùn)練過(guò)程中AI信心水平的變化，確保始終捕捉到真正"過(guò)度自信"的詞匯選擇。

與此不同，對(duì)于概率閾值，研究團(tuán)隊(duì)經(jīng)過(guò)大量實(shí)驗(yàn)后選擇了固定的絕對(duì)值。這個(gè)決定基于一個(gè)重要的觀(guān)察：如果使用相對(duì)百分位數(shù)來(lái)設(shè)定概率閾值，系統(tǒng)就會(huì)不分青紅皂白地屏蔽掉固定比例的低概率詞匯，這樣很可能會(huì)誤傷那些雖然罕見(jiàn)但確實(shí)有價(jià)值的專(zhuān)業(yè)表達(dá)。通過(guò)使用絕對(duì)閾值，STAPO能夠更精準(zhǔn)地識(shí)別那些真正"異常低概率"的詞匯選擇。

在實(shí)現(xiàn)細(xì)節(jié)上，STAPO還引入了一個(gè)重要的重新歸一化步驟。當(dāng)系統(tǒng)屏蔽掉一部分虛假信號(hào)詞匯的學(xué)習(xí)信號(hào)后，剩余詞匯的學(xué)習(xí)權(quán)重需要重新調(diào)整，以保證整體學(xué)習(xí)強(qiáng)度的一致性。這個(gè)步驟類(lèi)似于在音頻處理中移除噪音后對(duì)有效信號(hào)進(jìn)行增益補(bǔ)償，確保信息傳遞的完整性。

研究團(tuán)隊(duì)還對(duì)STAPO的計(jì)算開(kāi)銷(xiāo)進(jìn)行了優(yōu)化。雖然需要對(duì)每個(gè)詞匯進(jìn)行額外的監(jiān)控和判斷，但這些操作都是輕量級(jí)的，不會(huì)顯著增加訓(xùn)練時(shí)間。實(shí)際測(cè)試顯示，使用STAPO的訓(xùn)練過(guò)程相比傳統(tǒng)方法只增加了不到2%的計(jì)算時(shí)間，這個(gè)微小的開(kāi)銷(xiāo)相對(duì)于獲得的性能提升來(lái)說(shuō)是完全值得的。

七、廣泛驗(yàn)證：跨規(guī)?？缛蝿?wù)的卓越表現(xiàn)

研究團(tuán)隊(duì)為了確保STAPO方法的普適性，進(jìn)行了極為全面的實(shí)驗(yàn)驗(yàn)證。他們不僅測(cè)試了不同規(guī)模的模型，還在多個(gè)不同難度和類(lèi)型的數(shù)學(xué)推理任務(wù)上進(jìn)行了評(píng)估。

在模型規(guī)模測(cè)試中，從17億參數(shù)的"小型"模型到140億參數(shù)的"大型"模型，STAPO都顯示出了一致的優(yōu)越性。這種跨規(guī)模的穩(wěn)定表現(xiàn)說(shuō)明了STAPO解決的是一個(gè)基礎(chǔ)性問(wèn)題，而不是某種特定規(guī)模下的特殊現(xiàn)象。有趣的是，研究人員發(fā)現(xiàn)在較小的模型上，STAPO的改善效果相對(duì)更加顯著，這可能是因?yàn)樾⌒湍Ｐ透菀资艿教摷傩盘?hào)的干擾。

在任務(wù)多樣性測(cè)試中，研究團(tuán)隊(duì)選擇了六個(gè)不同特征的數(shù)學(xué)推理基準(zhǔn)測(cè)試。這些測(cè)試涵蓋了從高中水平到大學(xué)競(jìng)賽水平的各種數(shù)學(xué)問(wèn)題，包括代數(shù)、幾何、概率論和數(shù)論等多個(gè)分支。STAPO在所有這些不同類(lèi)型的任務(wù)上都表現(xiàn)出色，證明了這種方法對(duì)于數(shù)學(xué)推理的普遍適用性。

特別值得關(guān)注的是敏感性分析結(jié)果。研究團(tuán)隊(duì)系統(tǒng)性地測(cè)試了不同參數(shù)設(shè)置對(duì)STAPO性能的影響。他們發(fā)現(xiàn)，概率閾值的選擇對(duì)性能有顯著影響：當(dāng)閾值設(shè)置得過(guò)高時(shí)（比如0.02），會(huì)屏蔽掉太多正常的低頻但有用的詞匯；當(dāng)閾值設(shè)置得過(guò)低時(shí)（比如0.0002），則無(wú)法有效識(shí)別虛假信號(hào)詞匯。通過(guò)細(xì)致的網(wǎng)格搜索，研究人員找到了最優(yōu)的參數(shù)配置。

在不確定性閾值方面，實(shí)驗(yàn)顯示使用20%百分位數(shù)是最佳選擇。當(dāng)這個(gè)比例提高到50%或80%時(shí)，性能會(huì)明顯下降，因?yàn)橄到y(tǒng)開(kāi)始錯(cuò)誤地屏蔽一些正常的高確定性詞匯選擇。這些敏感性分析不僅幫助優(yōu)化了STAPO的性能，也為未來(lái)在其他任務(wù)上應(yīng)用這種方法提供了重要的參考指南。

研究團(tuán)隊(duì)還進(jìn)行了消融研究，分別測(cè)試了只使用概率信息、只使用不確定性信息，以及只使用評(píng)價(jià)信號(hào)信息的效果。結(jié)果清楚地顯示，只有將這三個(gè)維度結(jié)合起來(lái)，STAPO才能達(dá)到最佳效果。任何單一維度的判斷都無(wú)法準(zhǔn)確識(shí)別真正的虛假信號(hào)詞匯，這再次驗(yàn)證了STAPO設(shè)計(jì)理念的正確性。

說(shuō)到底，這項(xiàng)研究為我們揭示了一個(gè)深刻的道理：有時(shí)候最大的問(wèn)題來(lái)自最小的細(xì)節(jié)。就像一粒沙子可能卡住整個(gè)精密機(jī)械一樣，那些看似微不足道的錯(cuò)誤詞匯選擇，竟然能夠干擾整個(gè)AI系統(tǒng)的學(xué)習(xí)過(guò)程。STAPO方法的成功告訴我們，解決復(fù)雜問(wèn)題有時(shí)不需要大刀闊斧的改革，而是需要精準(zhǔn)的"微調(diào)"。

這項(xiàng)研究的意義遠(yuǎn)不止于提升AI解數(shù)學(xué)題的能力。它為我們理解AI學(xué)習(xí)過(guò)程中的細(xì)微機(jī)制提供了新的視角，也為開(kāi)發(fā)更穩(wěn)定、更可靠的AI系統(tǒng)指明了方向。當(dāng)我們看到STAPO僅僅通過(guò)屏蔽0.01%的有問(wèn)題詞匯就能帶來(lái)如此顯著的改善時(shí)，不禁讓人思考：在AI快速發(fā)展的今天，我們是否應(yīng)該更多地關(guān)注這些"細(xì)節(jié)中的魔鬼"，而不僅僅是追求更大的模型和更多的數(shù)據(jù)？

歸根結(jié)底，STAPO的故事告訴我們，真正的智能不在于處理更多的信息，而在于能夠識(shí)別和過(guò)濾掉那些看似正確但實(shí)際有害的信息。這或許正是未來(lái)AI發(fā)展需要重點(diǎn)關(guān)注的方向：不是讓AI學(xué)得更多，而是讓AI學(xué)得更準(zhǔn)確、更智慧。對(duì)于那些希望深入了解技術(shù)實(shí)現(xiàn)細(xì)節(jié)的讀者，完整的研究?jī)?nèi)容可以通過(guò)論文編號(hào)arXiv:2602.15620v1在學(xué)術(shù)數(shù)據(jù)庫(kù)中查閱。

Q&A

Q1：STAPO方法是如何識(shí)別出有害詞匯的？

A：STAPO通過(guò)監(jiān)控三個(gè)關(guān)鍵指標(biāo)來(lái)識(shí)別有害詞匯：詞匯是否獲得正面評(píng)價(jià)、出現(xiàn)概率是否很低（小于0.002%）、AI對(duì)選擇該詞的確定性是否很高（處于最低20%不確定性）。只有同時(shí)滿(mǎn)足這三個(gè)條件的詞匯才會(huì)被標(biāo)記為虛假信號(hào)詞匯并被屏蔽。

Q2：為什么只屏蔽0.01%的詞匯就能帶來(lái)20%的性能提升？

A：雖然虛假信號(hào)詞匯數(shù)量很少，但它們產(chǎn)生的學(xué)習(xí)信號(hào)異常強(qiáng)烈。研究發(fā)現(xiàn)這些詞匯的學(xué)習(xí)強(qiáng)度比正常詞匯高16.7%，因?yàn)榈透怕屎透叽_定性的組合會(huì)放大學(xué)習(xí)信號(hào)。就像安靜環(huán)境中的一點(diǎn)噪音會(huì)特別刺耳一樣，這些少量的錯(cuò)誤信號(hào)會(huì)嚴(yán)重干擾AI的整體學(xué)習(xí)過(guò)程。

Q3：STAPO方法適用于數(shù)學(xué)題以外的其他AI任務(wù)嗎？

A：目前的研究主要集中在數(shù)學(xué)推理任務(wù)上，但研究團(tuán)隊(duì)認(rèn)為這種方法的原理具有普適性。任何需要精確表達(dá)和邏輯推理的AI任務(wù)都可能存在類(lèi)似的虛假信號(hào)問(wèn)題。不過(guò)要在其他領(lǐng)域應(yīng)用STAPO，需要根據(jù)具體任務(wù)特點(diǎn)調(diào)整參數(shù)設(shè)置和識(shí)別標(biāo)準(zhǔn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.