国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

阿里巴巴團(tuán)隊(duì)讓AI學(xué)會(huì)"知道自己知道什么"——當(dāng)工具不再被濫用

0
分享至


這項(xiàng)由阿里巴巴集團(tuán)Accio團(tuán)隊(duì)與華中科技大學(xué)聯(lián)合開(kāi)展的研究,以預(yù)印本形式發(fā)布于2026年4月,論文編號(hào)為arXiv:2604.08545。有興趣深入了解的讀者可以通過(guò)該編號(hào)在arXiv平臺(tái)查閱完整論文。

你有沒(méi)有遇到過(guò)這種人:明明自己就能回答的問(wèn)題,非要掏出手機(jī)搜索一番,反而把事情搞得更復(fù)雜?更糟糕的是,搜索出來(lái)的結(jié)果根本用不上,甚至把原本正確的思路給帶跑偏了?,F(xiàn)代AI助手正在面臨完全相同的困境——而這支來(lái)自阿里巴巴的研究團(tuán)隊(duì),花了大量精力來(lái)解決這個(gè)問(wèn)題。

說(shuō)到底,這篇論文講的是一個(gè)關(guān)于"自知之明"的故事。研究團(tuán)隊(duì)給他們訓(xùn)練出來(lái)的AI起名叫Metis——這是希臘神話中智慧女神的名字,象征著不僅聰明,還懂得何時(shí)該用智慧、何時(shí)該保持沉默。這個(gè)名字選得頗為貼切,因?yàn)檎麄€(gè)研究的核心,就是讓AI學(xué)會(huì)一種人類稱為"元認(rèn)知"的能力:知道自己知道什么,也知道自己不知道什么。

一、被濫用的"工具箱":AI為什么總在亂用外部工具

要理解這個(gè)問(wèn)題,先從AI的工具這個(gè)概念說(shuō)起。現(xiàn)代強(qiáng)大的視覺(jué)AI模型,不只是被動(dòng)地"看"圖片然后回答問(wèn)題,它們還配備了一整套外部工具,就像一名工作人員除了自己的知識(shí)儲(chǔ)備之外,還有一部電話可以打、一臺(tái)電腦可以查資料、一套專業(yè)儀器可以精密測(cè)量。這些工具包括:在網(wǎng)上搜索文字信息、用圖片去搜索相關(guān)視覺(jué)內(nèi)容、用代碼來(lái)處理和分析圖像數(shù)據(jù)等等。

當(dāng)一個(gè)問(wèn)題超出了AI自身能力范圍時(shí),調(diào)用這些工具確實(shí)非常有用。比如,看一張照片里某個(gè)著名建筑的內(nèi)部測(cè)量尺寸,AI自然無(wú)法憑空得知,這時(shí)候去搜索資料就很合理。再比如,圖片里的某個(gè)圖表分辨率太低,AI看不清細(xì)節(jié),這時(shí)候用代碼把圖表裁剪放大就是明智之舉。

然而,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)讓人哭笑不得的現(xiàn)象:當(dāng)前最先進(jìn)的開(kāi)源AI模型,會(huì)對(duì)幾乎所有問(wèn)題都觸發(fā)工具調(diào)用,哪怕這些問(wèn)題完全不需要外部幫助。就像那個(gè)非要掏手機(jī)查"一加一等于幾"的人一樣。研究中的數(shù)據(jù)非常直觀:對(duì)比模型在一個(gè)測(cè)試集上的工具調(diào)用率高達(dá)98%,而Metis只有2%。

這種"盲目工具調(diào)用"帶來(lái)的問(wèn)題不只是效率上的浪費(fèi)。每調(diào)用一次外部工具,系統(tǒng)都需要等待——這在實(shí)際應(yīng)用中意味著真實(shí)的延遲。更嚴(yán)重的是,搜索引擎返回的內(nèi)容可能與當(dāng)前問(wèn)題無(wú)關(guān),甚至包含錯(cuò)誤信息,這些噪音會(huì)干擾AI后續(xù)的推理過(guò)程,就像你本來(lái)思路很清晰,突然有人插進(jìn)來(lái)說(shuō)了一堆不相關(guān)的話,反而把你搞糊涂了。研究數(shù)據(jù)也印證了這一點(diǎn):工具調(diào)用率高的模型,其準(zhǔn)確率反而不如Metis。

二、舊方法的死結(jié):用一個(gè)獎(jiǎng)勵(lì)同時(shí)馴服兩匹馬

發(fā)現(xiàn)了問(wèn)題,研究者們自然想到了解決辦法。既然AI總是亂用工具,那就在訓(xùn)練時(shí)懲罰它多用工具不就好了?這個(gè)思路看似合理,但研究團(tuán)隊(duì)深入分析后發(fā)現(xiàn),這條路其實(shí)走不通——或者說(shuō),走起來(lái)會(huì)遇到一個(gè)幾乎無(wú)法調(diào)和的矛盾。

理解這個(gè)矛盾,需要先知道AI是怎么被訓(xùn)練的。研究團(tuán)隊(duì)使用的是一種叫做強(qiáng)化學(xué)習(xí)的訓(xùn)練方式,通俗地說(shuō),就是AI做對(duì)了給獎(jiǎng)勵(lì),做錯(cuò)了給懲罰,通過(guò)無(wú)數(shù)次的嘗試和反饋,AI逐漸學(xué)會(huì)做正確的事情。為了同時(shí)鼓勵(lì)準(zhǔn)確性和節(jié)約工具使用,現(xiàn)有的大多數(shù)做法是把這兩個(gè)目標(biāo)合并成一個(gè)總分:總獎(jiǎng)勵(lì) = 答題準(zhǔn)確得分 + α × 工具節(jié)約得分,其中α是一個(gè)用來(lái)調(diào)節(jié)兩者權(quán)重的系數(shù)。

問(wèn)題就出在這個(gè)"合并"上。研究團(tuán)隊(duì)通過(guò)數(shù)學(xué)分析揭示了這種合并會(huì)導(dǎo)致三種具體的訓(xùn)練災(zāi)難。

第一種災(zāi)難是"梯度糾纏"。在AI訓(xùn)練過(guò)程中,更新模型參數(shù)的"指令"(也就是梯度)會(huì)因?yàn)檫@種混合獎(jiǎng)勵(lì)而變得相互干擾。提升準(zhǔn)確性的訓(xùn)練信號(hào)和減少工具使用的訓(xùn)練信號(hào)會(huì)互相影響,導(dǎo)致兩個(gè)目標(biāo)都學(xué)不好,就像兩個(gè)人同時(shí)往相反方向拉一根繩子,結(jié)果哪邊都沒(méi)動(dòng)。

第二種災(zāi)難是"語(yǔ)義混淆"。一個(gè)答對(duì)了但用了很多工具的軌跡,和一個(gè)答錯(cuò)了但完全沒(méi)用工具的軌跡,把它們的總分一算,可能得到非常接近的數(shù)值。這對(duì)AI來(lái)說(shuō)是一種極具誤導(dǎo)性的信號(hào)——它完全無(wú)法分辨這兩種行為的本質(zhì)區(qū)別,因?yàn)樗鼈兊?分?jǐn)?shù)"幾乎一樣。

第三種災(zāi)難是"超參數(shù)脆弱性"。α這個(gè)系數(shù)該設(shè)多大?如果設(shè)得大,AI會(huì)為了省工具而寧可不回答或亂答題,嚴(yán)重?fù)p害準(zhǔn)確性;如果設(shè)得小,研究團(tuán)隊(duì)通過(guò)數(shù)學(xué)推導(dǎo)證明,這個(gè)工具效率信號(hào)在訓(xùn)練過(guò)程中會(huì)被準(zhǔn)確性信號(hào)的波動(dòng)完全淹沒(méi),變成一個(gè)無(wú)效的擺設(shè)。這就像在嘈雜的集市上用耳語(yǔ)傳遞命令——聲音太小,根本沒(méi)人聽(tīng)見(jiàn)。

三、新框架的誕生:把兩匹馬分開(kāi)馴

既然把兩個(gè)目標(biāo)合并會(huì)造成混亂,研究團(tuán)隊(duì)的解決思路非常清晰:把它們徹底分開(kāi)。這就是他們提出的核心算法——層次解耦策略優(yōu)化,英文縮寫為HDPO。

"解耦"這個(gè)詞聽(tīng)起來(lái)很技術(shù),但本質(zhì)上就是把一件事拆成兩件獨(dú)立的事來(lái)做。就像訓(xùn)練一個(gè)廚師,你可以先單獨(dú)考核他的菜做得好不好(準(zhǔn)確性),再單獨(dú)考核他有沒(méi)有浪費(fèi)食材(效率),而不是把兩個(gè)分?jǐn)?shù)混在一起變成一個(gè)讓人摸不著頭腦的綜合分。

HDPO內(nèi)部有兩條相互獨(dú)立的"優(yōu)化通道"。第一條叫做準(zhǔn)確性通道,它的目標(biāo)很簡(jiǎn)單:不管AI用沒(méi)用工具、用了多少工具,只要最終答案是對(duì)的,就給高分;答錯(cuò)了就給低分。這個(gè)通道不關(guān)心效率問(wèn)題,它的唯一使命就是讓AI學(xué)會(huì)答對(duì)題。

第二條叫做效率通道,這條通道的設(shè)計(jì)就精妙得多了。它的獎(jiǎng)勵(lì)公式是這樣的:如果AI答對(duì)了,獎(jiǎng)勵(lì)值等于1除以(調(diào)用工具次數(shù)加1)。這意味著:答對(duì)了且一次工具都沒(méi)用,得滿分1分;答對(duì)了且用了一次工具,得0.5分;答對(duì)了且用了兩次工具,得約0.33分,以此類推,工具用得越多分越低。關(guān)鍵是最后這一條——如果答錯(cuò)了,效率獎(jiǎng)勵(lì)直接是零分,不管你用了多少工具或者一次都沒(méi)用。

這個(gè)設(shè)計(jì)背后有一個(gè)非常重要的哲學(xué):效率必須以正確性為前提。一個(gè)答題快但答錯(cuò)的AI毫無(wú)價(jià)值。通過(guò)把答錯(cuò)的情況排除在效率考核之外,研究團(tuán)隊(duì)確保了AI永遠(yuǎn)不會(huì)為了少用工具而放棄思考的嚴(yán)謹(jǐn)性。

更巧妙的是效率通道在計(jì)算相對(duì)分?jǐn)?shù)(也就是"優(yōu)勢(shì)值")時(shí)的處理方式。它只在"答對(duì)了的那些嘗試"之間進(jìn)行橫向比較——哪幾次答對(duì)了但少用工具,哪幾次答對(duì)了但多用工具,通過(guò)比較找到工具使用方面的改進(jìn)空間。如果某個(gè)問(wèn)題的所有嘗試中只有零個(gè)或一個(gè)答對(duì)的,那就干脆不計(jì)算效率信號(hào),因?yàn)榇藭r(shí)樣本太少,比較沒(méi)有意義。

兩條通道各自獨(dú)立計(jì)算完訓(xùn)練信號(hào)之后,才在最后一步按照一定權(quán)重(準(zhǔn)確性權(quán)重為1.0,效率權(quán)重為0.15)合并成最終的訓(xùn)練指令。這就像兩位獨(dú)立工作的考官分別打分,最后才把分?jǐn)?shù)匯總,而不是一開(kāi)始就讓他們湊在一起打一個(gè)混合分——兩種方式表面上看起來(lái)相似,實(shí)際效果卻天差地別。

四、意外驚喜:訓(xùn)練過(guò)程中自動(dòng)出現(xiàn)的"學(xué)習(xí)課程"

HDPO框架有一個(gè)研究團(tuán)隊(duì)稱之為"隱式認(rèn)知課程"的美妙性質(zhì),這是一個(gè)在設(shè)計(jì)階段并未刻意為之,但自然浮現(xiàn)的結(jié)構(gòu)。

回憶效率通道的規(guī)則:只有當(dāng)AI答對(duì)的嘗試數(shù)量達(dá)到至少兩個(gè)時(shí),效率信號(hào)才會(huì)被激活。在訓(xùn)練的最初階段,AI能力還很弱,絕大多數(shù)嘗試都會(huì)答錯(cuò),效率通道幾乎一直處于休眠狀態(tài)。這意味著在訓(xùn)練早期,整個(gè)系統(tǒng)實(shí)際上只在優(yōu)化準(zhǔn)確性,強(qiáng)迫AI先把答題這件事搞明白。

隨著訓(xùn)練的深入,AI的準(zhǔn)確性逐漸提升,越來(lái)越多的嘗試開(kāi)始答對(duì),效率通道被激活的頻率也越來(lái)越高,AI開(kāi)始受到"在答對(duì)的前提下盡量少用工具"的引導(dǎo)。于是訓(xùn)練過(guò)程自動(dòng)分成了兩個(gè)階段:先學(xué)會(huì)答對(duì),再學(xué)會(huì)高效。

這種兩階段的發(fā)展軌跡,正是人類學(xué)習(xí)新技能的自然規(guī)律。一個(gè)剛開(kāi)始學(xué)開(kāi)車的人,應(yīng)該先把方向盤和油門剎車搞清楚,再去考慮如何節(jié)省燃油;一個(gè)剛?cè)肼毜男聠T工,應(yīng)該先把工作任務(wù)完成好,再去優(yōu)化流程、提高效率。HDPO把這種樸素的教育智慧編碼進(jìn)了訓(xùn)練算法本身。

五、訓(xùn)練數(shù)據(jù)的"去污工程":光有好算法還不夠

好的算法需要好的數(shù)據(jù)來(lái)配合。研究團(tuán)隊(duì)在準(zhǔn)備訓(xùn)練材料時(shí),發(fā)現(xiàn)了現(xiàn)有數(shù)據(jù)集中存在的嚴(yán)重問(wèn)題,并設(shè)計(jì)了一套針對(duì)性的清理流程。

在監(jiān)督微調(diào)階段(可以理解為AI正式訓(xùn)練之前的"預(yù)習(xí)"階段),研究團(tuán)隊(duì)從多個(gè)公開(kāi)的工具增強(qiáng)型多模態(tài)數(shù)據(jù)集中收集素材,然后通過(guò)三道關(guān)卡進(jìn)行篩選。

第一道關(guān)卡是清除"虛假執(zhí)行記錄"。很多現(xiàn)有數(shù)據(jù)集中存在這樣的糟糕示例:代碼寫錯(cuò)了,語(yǔ)法都有問(wèn)題,但AI給出的"工具返回結(jié)果"卻神奇地正確;或者代碼運(yùn)行報(bào)錯(cuò)了,AI直接無(wú)視錯(cuò)誤信息,假裝執(zhí)行成功并給出了正確答案。訓(xùn)練時(shí)如果讓AI看到這些例子,它學(xué)到的不是真正的推理能力,而是"遇到錯(cuò)誤就假裝沒(méi)事,直接猜一個(gè)正確答案"這種投機(jī)取巧的壞習(xí)慣。為此,團(tuán)隊(duì)把所有代碼都放到一個(gè)隔離的沙盒環(huán)境中實(shí)際運(yùn)行,凡是運(yùn)行失敗或者結(jié)果與記錄不符的數(shù)據(jù),一律丟棄。

第二道關(guān)卡是過(guò)濾"假工具必要性"案例。很多數(shù)據(jù)集是用能力較弱的舊模型標(biāo)注的,那時(shí)候需要借助工具才能回答的問(wèn)題,現(xiàn)在新模型憑自身能力就能輕松解決。用這些過(guò)時(shí)的數(shù)據(jù)訓(xùn)練新模型,會(huì)讓新模型學(xué)到"這類問(wèn)題需要用工具"這種錯(cuò)誤的慣性。團(tuán)隊(duì)的解決辦法是:用當(dāng)前最強(qiáng)的基礎(chǔ)模型(Qwen3-VL-8B)在完全沒(méi)有工具輔助的情況下對(duì)每道題嘗試八次,如果八次都答對(duì)了,說(shuō)明這道題根本不需要工具,就把它從數(shù)據(jù)集里剔除。

第三道關(guān)卡是"元認(rèn)知質(zhì)量審核"。團(tuán)隊(duì)使用谷歌最強(qiáng)的Gemini 3.1 Pro模型作為自動(dòng)評(píng)審,對(duì)每一條訓(xùn)練示例從多個(gè)維度進(jìn)行細(xì)粒度評(píng)分,包括視覺(jué)內(nèi)容的相關(guān)性、推理邏輯的連貫性、使用工具的合理性等。評(píng)審會(huì)明確懲罰"無(wú)意義工具調(diào)用"——比如對(duì)一張已經(jīng)清晰可讀的圖片進(jìn)行旋轉(zhuǎn)操作,這種行為毫無(wú)意義卻浪費(fèi)計(jì)算資源。低于質(zhì)量門檻的數(shù)據(jù)統(tǒng)統(tǒng)淘汰。

在正式強(qiáng)化學(xué)習(xí)階段的數(shù)據(jù)準(zhǔn)備上,研究團(tuán)隊(duì)同樣有一套精心設(shè)計(jì)的篩選標(biāo)準(zhǔn)。除了剔除圖片質(zhì)量差或者問(wèn)題描述模糊的樣本之外,他們還特別注重"難度校準(zhǔn)":那些太簡(jiǎn)單(八次全對(duì))或者太難(八次全錯(cuò))的問(wèn)題都不要,只保留有一定成功率但又不是手到擒來(lái)的問(wèn)題。原因很直接:太簡(jiǎn)單的問(wèn)題訓(xùn)練不出什么,AI不會(huì)學(xué)到新東西;太難的問(wèn)題也沒(méi)用,AI完全答不對(duì),強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)信號(hào)就成了一張廢紙。最終篩選出來(lái)的高質(zhì)量強(qiáng)化學(xué)習(xí)訓(xùn)練集約有5000條題目,覆蓋感知類任務(wù)(占45%)、搜索類任務(wù)(占36%)以及數(shù)學(xué)和通用推理任務(wù)(占19%)。

六、實(shí)驗(yàn)結(jié)果:數(shù)字背后的真實(shí)含義

研究團(tuán)隊(duì)用非常全面的測(cè)試來(lái)檢驗(yàn)Metis的實(shí)際表現(xiàn),測(cè)試范圍跨越了兩大類能力:視覺(jué)感知與文檔理解,以及數(shù)學(xué)與邏輯推理。

在視覺(jué)感知類測(cè)試中,有幾個(gè)數(shù)字格外引人注目。V*Bench是一個(gè)專門測(cè)試高分辨率圖像理解能力的基準(zhǔn),Metis得分91.1%,而用相同基礎(chǔ)模型加上常規(guī)強(qiáng)化學(xué)習(xí)訓(xùn)練出來(lái)的對(duì)比模型只有88.7%,差了2.4個(gè)百分點(diǎn)。HRBench-8K是一個(gè)難度更大的高分辨率測(cè)試,Metis達(dá)到82.0%,同樣超過(guò)了所有對(duì)比模型,包括參數(shù)量是Metis三倍多的Skywork-R1V4-30B模型(該模型在這個(gè)測(cè)試上得79.8%)。這意味著Metis用更少的參數(shù)量,反而表現(xiàn)得更好,從一個(gè)側(cè)面說(shuō)明減少噪音干擾確實(shí)有助于提升推理質(zhì)量。

圖表理解類測(cè)試(CharXiv)中,Metis在推理性問(wèn)題上得到54.1%,而之前最強(qiáng)的同類模型DeepEyesV2只有48.9%,提升了超過(guò)5個(gè)百分點(diǎn)。圖表推理要求AI看懂復(fù)雜圖表中的數(shù)據(jù)關(guān)系并進(jìn)行推斷,是一項(xiàng)對(duì)理解能力要求非常高的任務(wù)。

在數(shù)學(xué)推理類測(cè)試中,最讓研究團(tuán)隊(duì)感到興奮的結(jié)果來(lái)自WeMath數(shù)據(jù)集,Metis以65.2%的成績(jī)大幅超越基礎(chǔ)模型的38.8%,提升了整整26.4個(gè)百分點(diǎn)。相比之下,同類最強(qiáng)的對(duì)比模型DeepEyesV2只有38.1%,幾乎沒(méi)有進(jìn)步。這個(gè)結(jié)果揭示了一個(gè)反直覺(jué)的現(xiàn)象:當(dāng)AI不再被無(wú)關(guān)的搜索結(jié)果干擾,能夠?qū)P挠么a執(zhí)行精確的數(shù)學(xué)計(jì)算時(shí),數(shù)學(xué)解題能力反而大幅提升了。在五個(gè)數(shù)學(xué)和邏輯推理數(shù)據(jù)集上,Metis的平均分達(dá)到66.9%,遠(yuǎn)超所有參與比較的模型。

消融實(shí)驗(yàn)部分的結(jié)果進(jìn)一步驗(yàn)證了HDPO設(shè)計(jì)的合理性。當(dāng)效率權(quán)重設(shè)為0時(shí)(即退化為普通強(qiáng)化學(xué)習(xí)),模型在V*Bench上只有88.7%;把效率權(quán)重調(diào)到0.10,提升到88.0%(反而下降了一點(diǎn),說(shuō)明信號(hào)太弱不夠用);設(shè)為0.15時(shí)達(dá)到最佳的91.1%;再調(diào)高到0.20,又下降到87.4%。這種"先升后降"的倒U形曲線,精確地指向了效率懲罰的最優(yōu)點(diǎn)——不夠用的懲罰起不到作用,過(guò)度的懲罰讓AI變得過(guò)于保守。

七、智慧的邊界:兩個(gè)具體案例

研究團(tuán)隊(duì)精心挑選了幾個(gè)具體例子來(lái)展示Metis的行為模式,這些例子比任何數(shù)字都更直觀地說(shuō)明了問(wèn)題。

第一個(gè)場(chǎng)景:給AI看一張圖,里面是兩名穿著USA球衣的籃球運(yùn)動(dòng)員,其中一人背號(hào)6,問(wèn)題是"6號(hào)球衣的人是誰(shuí)"。對(duì)于普通人來(lái)說(shuō),看到美國(guó)男籃、6號(hào)背號(hào)、運(yùn)動(dòng)員的外形,大概率會(huì)認(rèn)出這是勒布朗·詹姆斯——這是一個(gè)憑借視覺(jué)感知加上常識(shí)就能回答的問(wèn)題。Metis的做法正是如此:它直接根據(jù)圖片內(nèi)容和已有知識(shí)作出判斷,給出答案,全程沒(méi)有調(diào)用任何工具。而對(duì)比模型(同樣的基礎(chǔ)模型,用普通強(qiáng)化學(xué)習(xí)訓(xùn)練)的做法截然不同:它先坦承"沒(méi)有額外信息很難確認(rèn)",然后觸發(fā)圖片搜索工具,檢索了10條搜索結(jié)果,然后才說(shuō)"根據(jù)搜索結(jié)果,這應(yīng)該是勒布朗·詹姆斯"。兩者都答對(duì)了,但過(guò)程完全不同——一個(gè)是真正的理解,一個(gè)是繞了一大圈的確認(rèn)。

第二個(gè)場(chǎng)景:給AI看一個(gè)學(xué)術(shù)論文中的圖表,圖表里有兩個(gè)子圖,問(wèn)題是"子圖(b)在200k時(shí)間步處,第二高的曲線叫什么名字"。這道題的難點(diǎn)在于,三條顏色接近的曲線在小圖中非常難以區(qū)分,直接看原圖可能出錯(cuò)。Metis面對(duì)這種情況的處理方式非??酥贫珳?zhǔn):它先在腦子里對(duì)圖表進(jìn)行了分析,認(rèn)為藍(lán)色曲線最高,橙色第二,綠色第三,然后認(rèn)為有必要做一次視覺(jué)驗(yàn)證,于是調(diào)用代碼將子圖(b)裁剪放大,對(duì)比確認(rèn)后給出答案。整個(gè)過(guò)程只用了一次工具,目的明確、用完即止。

這兩個(gè)案例共同描繪了Metis行為邊界的清晰輪廓:當(dāng)知識(shí)和視覺(jué)能力足夠時(shí),不用工具;當(dāng)視覺(jué)信息確實(shí)不夠精確時(shí),精準(zhǔn)地用一次代碼工具;當(dāng)需要識(shí)別陌生事物時(shí),用圖像搜索;當(dāng)需要查閱具體數(shù)據(jù)時(shí),用文字搜索。每一次工具調(diào)用都有明確的理由,每一次不調(diào)用也都是主動(dòng)的判斷,而非遺漏。

說(shuō)到底,這篇論文解決的不僅僅是一個(gè)技術(shù)問(wèn)題,而是觸及了AI"自知之明"這個(gè)更深層的議題。當(dāng)前的很多AI系統(tǒng),更像是一個(gè)過(guò)度依賴查手機(jī)的人——面對(duì)任何問(wèn)題都先去搜一搜,哪怕答案明明就在自己腦子里。這種習(xí)慣帶來(lái)的不只是速度上的低效,更會(huì)因?yàn)橐霟o(wú)關(guān)信息而污染原本清晰的思路。

歸根結(jié)底,Metis團(tuán)隊(duì)的貢獻(xiàn)在于證明了一件重要的事:讓AI變聰明,不一定要給它配備更多工具或者更強(qiáng)的搜索能力,有時(shí)候更有價(jià)值的恰恰是教會(huì)它什么時(shí)候不要使用工具。這種克制,正是真正智慧的標(biāo)志。

對(duì)于普通用戶來(lái)說(shuō),這項(xiàng)研究意味著未來(lái)的AI助手在處理日常問(wèn)題時(shí)可能會(huì)更快、更干凈,不會(huì)動(dòng)不動(dòng)就給你塞一堆搜索結(jié)果——尤其是當(dāng)你只是想要一個(gè)簡(jiǎn)單直接的答案的時(shí)候。對(duì)于開(kāi)發(fā)者和研究者來(lái)說(shuō),HDPO提供了一個(gè)方法論上的啟示:在強(qiáng)化學(xué)習(xí)訓(xùn)練中,目標(biāo)之間的干凈分離,往往比精心調(diào)節(jié)的混合獎(jiǎng)勵(lì)更加有效。

值得進(jìn)一步思考的是,這種元認(rèn)知能力的邊界在哪里?Metis能判斷"這道視覺(jué)題我自己能解",但能否判斷"這道知識(shí)題我的記憶可能已經(jīng)過(guò)時(shí)了,需要去查"?隨著AI能力邊界不斷擴(kuò)展,這種自我評(píng)估的挑戰(zhàn)只會(huì)越來(lái)越復(fù)雜。如果你對(duì)這些問(wèn)題感興趣,可以通過(guò)arXiv編號(hào)2604.08545查閱完整論文,其中附錄部分還包含了更多具體案例分析和完整的系統(tǒng)提示詞設(shè)計(jì)。

Q&A

Q1:Metis和普通AI助手在使用外部工具上有什么本質(zhì)區(qū)別?

A:普通AI助手(以及使用常規(guī)強(qiáng)化學(xué)習(xí)訓(xùn)練的模型)往往對(duì)幾乎所有問(wèn)題都觸發(fā)工具調(diào)用,工具使用率可高達(dá)98%。Metis則通過(guò)HDPO訓(xùn)練,學(xué)會(huì)了主動(dòng)判斷:當(dāng)視覺(jué)信息和已有知識(shí)足夠回答問(wèn)題時(shí),直接作答;只有當(dāng)問(wèn)題真正超出自身能力范圍時(shí)(比如需要精確測(cè)量、識(shí)別陌生事物或查詢具體數(shù)據(jù)),才會(huì)精準(zhǔn)調(diào)用一次相應(yīng)工具。這種選擇性讓Metis的工具使用率降低到約2%,同時(shí)準(zhǔn)確率反而更高。

Q2:HDPO訓(xùn)練方法和普通強(qiáng)化學(xué)習(xí)方法有什么不同?

A:普通強(qiáng)化學(xué)習(xí)把答題準(zhǔn)確分和工具節(jié)約分加在一起變成一個(gè)總分,這會(huì)造成兩個(gè)訓(xùn)練目標(biāo)互相干擾,導(dǎo)致工具效率信號(hào)被準(zhǔn)確性的波動(dòng)淹沒(méi)。HDPO的核心改進(jìn)是把兩個(gè)目標(biāo)完全分開(kāi):準(zhǔn)確性通道獨(dú)立優(yōu)化答題質(zhì)量,效率通道只在答對(duì)的情況下才激活,單獨(dú)優(yōu)化工具使用效率,最后才在損失函數(shù)層面合并。這種分離消除了梯度干擾,還自動(dòng)產(chǎn)生了"先學(xué)會(huì)答對(duì)再學(xué)高效"的訓(xùn)練課程。

Q3:Metis是開(kāi)源的嗎,普通人能用嗎?

A:是的,研究團(tuán)隊(duì)已將Metis-8B-RL模型的權(quán)重開(kāi)源發(fā)布在HuggingFace平臺(tái)(賬號(hào)Accio-Lab),代碼也在GitHub上公開(kāi)(倉(cāng)庫(kù)名Accio-Lab/Metis)。對(duì)于有技術(shù)能力的開(kāi)發(fā)者來(lái)說(shuō),可以直接下載使用或在此基礎(chǔ)上進(jìn)行二次開(kāi)發(fā)。普通用戶目前可能需要通過(guò)相關(guān)應(yīng)用產(chǎn)品來(lái)間接體驗(yàn)這類能力,直接調(diào)用模型仍需要一定的技術(shù)門檻。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
晚年米芾寫出此大字神作,筆法縱橫莫測(cè),堪稱生平不世出的經(jīng)典

晚年米芾寫出此大字神作,筆法縱橫莫測(cè),堪稱生平不世出的經(jīng)典

幸福娃3790
2026-04-09 11:55:20
你見(jiàn)過(guò)老板是怎么把生意干黃的?網(wǎng)友:拿了雙一次性筷子還追出來(lái)

你見(jiàn)過(guò)老板是怎么把生意干黃的?網(wǎng)友:拿了雙一次性筷子還追出來(lái)

夜深愛(ài)雜談
2026-04-20 09:31:31
蔚來(lái),我算是把你看清了

蔚來(lái),我算是把你看清了

汽車十三行
2026-04-21 11:56:48
為什么2026教育突然松綁了?網(wǎng)友:過(guò)度內(nèi)卷只會(huì)影響孩子心理健康

為什么2026教育突然松綁了?網(wǎng)友:過(guò)度內(nèi)卷只會(huì)影響孩子心理健康

另子維愛(ài)讀史
2026-04-21 20:14:40
中方禁令為何時(shí)隔百天才爆發(fā)?日本媒體不再隱瞞,遮羞布被揭下

中方禁令為何時(shí)隔百天才爆發(fā)?日本媒體不再隱瞞,遮羞布被揭下

誰(shuí)將笑到最后
2026-04-22 17:27:39
汪嘉偉之子汪崎:心疼母親鄧星,再難不“啃”父親,贏得繼母好評(píng)

汪嘉偉之子汪崎:心疼母親鄧星,再難不“啃”父親,贏得繼母好評(píng)

細(xì)品名人
2026-03-26 07:10:29
2105km續(xù)航,9.79萬(wàn)!比亞迪官宣:新車上市

2105km續(xù)航,9.79萬(wàn)!比亞迪官宣:新車上市

新浪財(cái)經(jīng)
2026-04-21 14:30:59
收拾完伊朗,下一個(gè)輪到中國(guó)?以色列發(fā)戰(zhàn)爭(zhēng)威脅,中方送出5個(gè)字

收拾完伊朗,下一個(gè)輪到中國(guó)?以色列發(fā)戰(zhàn)爭(zhēng)威脅,中方送出5個(gè)字

千羽解讀
2026-04-18 10:12:15
阿斯塔納航空將于6月3日開(kāi)通廣州—阿斯塔納直飛航線

阿斯塔納航空將于6月3日開(kāi)通廣州—阿斯塔納直飛航線

北京商報(bào)
2026-04-21 15:34:11
凱特致敬伊麗莎白女王,戴其生前珍珠項(xiàng)鏈亮相,細(xì)節(jié)盡顯高情商

凱特致敬伊麗莎白女王,戴其生前珍珠項(xiàng)鏈亮相,細(xì)節(jié)盡顯高情商

世界王室那些事
2026-04-22 17:29:57
港媒:兩岸已步入到“準(zhǔn)統(tǒng)一”階段,“西藏模式”更具參考!

港媒:兩岸已步入到“準(zhǔn)統(tǒng)一”階段,“西藏模式”更具參考!

娛樂(lè)圈的筆娛君
2026-04-21 17:59:45
美加州熱氣球耗盡燃料降民居后院 13乘客淡定揮手 房主:難以置信

美加州熱氣球耗盡燃料降民居后院 13乘客淡定揮手 房主:難以置信

環(huán)球趣聞分享
2026-04-22 13:40:09
我國(guó)肝癌高發(fā),茶葉是背后的禍因?醫(yī)生勸告:3種茶才是幫兇

我國(guó)肝癌高發(fā),茶葉是背后的禍因?醫(yī)生勸告:3種茶才是幫兇

岐黃傳人孫大夫
2026-04-12 06:30:03
特朗普下令“無(wú)限期停戰(zhàn)”,9千萬(wàn)伊朗人熬過(guò)最艱苦時(shí)刻?

特朗普下令“無(wú)限期停戰(zhàn)”,9千萬(wàn)伊朗人熬過(guò)最艱苦時(shí)刻?

牛鍋巴小釩
2026-04-22 16:01:58
603169,被證監(jiān)會(huì)立案!

603169,被證監(jiān)會(huì)立案!

證券時(shí)報(bào)e公司
2026-04-22 17:54:29
51歲李健,每天只吃一餐,每周4次健身,身體狀態(tài)像20歲小伙子

51歲李健,每天只吃一餐,每周4次健身,身體狀態(tài)像20歲小伙子

馬拉松跑步健身
2026-04-13 22:00:23
解秀梅大膽擁抱毛主席,多年后呂厚民回憶稱:主席可能被嚇到了

解秀梅大膽擁抱毛主席,多年后呂厚民回憶稱:主席可能被嚇到了

春秋硯
2026-04-22 11:40:08
iPhone 17突然降價(jià),這應(yīng)該是目前最香的iPhone了

iPhone 17突然降價(jià),這應(yīng)該是目前最香的iPhone了

劉奔跑
2026-04-19 23:10:21
蘋果8號(hào)員工干了49年:裁員名單繞著他走,因?yàn)橘r不起

蘋果8號(hào)員工干了49年:裁員名單繞著他走,因?yàn)橘r不起

世界圈
2026-04-04 13:13:03
發(fā)現(xiàn)了嗎,越是分床睡、經(jīng)濟(jì)AA制、不干涉對(duì)方隱私的夫妻,感情濃度往往越低,越把婚姻過(guò)成......

發(fā)現(xiàn)了嗎,越是分床睡、經(jīng)濟(jì)AA制、不干涉對(duì)方隱私的夫妻,感情濃度往往越低,越把婚姻過(guò)成......

LULU生活家
2026-04-21 19:20:03
2026-04-22 18:07:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8088文章數(shù) 562關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒(méi)有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

特朗普180°轉(zhuǎn)彎延長(zhǎng)?;?伊朗硬剛首次直接回絕談判

頭條要聞

特朗普180°轉(zhuǎn)彎延長(zhǎng)?;?伊朗硬剛首次直接回絕談判

體育要聞

網(wǎng)易傳媒再度簽約法國(guó)隊(duì)和阿根廷隊(duì)

娛樂(lè)要聞

復(fù)婚無(wú)望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長(zhǎng)?;鹌谙?/h3>

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬(wàn)起

態(tài)度原創(chuàng)

數(shù)碼
藝術(shù)
家居
旅游
房產(chǎn)

數(shù)碼要聞

Beats發(fā)布3米USB-C數(shù)據(jù)線:售229元 最高240W快充

藝術(shù)要聞

無(wú)花不風(fēng)景

家居要聞

極簡(jiǎn)繪夢(mèng) 克制和諧

旅游要聞

四月的諸城茶園,到底能帶來(lái)多少驚喜?

房產(chǎn)要聞

狂搶284輪!中海??谠倌弥匕跽?!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版