国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大語言模型排名并不可靠,三萬分之一的數(shù)據(jù)變動即可左右結(jié)果

0
分享至


(來源:麻省理工科技評論)

企業(yè)若想使用大語言模型整理銷售報告或分類處理客戶咨詢,可從數(shù)百款獨立大語言模型中進(jìn)行選擇,每款模型的性能都存在細(xì)微差異。

為縮小選擇范圍,企業(yè)通常會參考大語言模型排名平臺。這類平臺會收集用戶與模型交互的反饋,依據(jù)模型在特定任務(wù)中的表現(xiàn),對最新的大語言模型進(jìn)行排名。

但麻省理工學(xué)院的研究人員發(fā)現(xiàn),少量用戶交互數(shù)據(jù)就會導(dǎo)致結(jié)果出現(xiàn)偏差,讓人們誤判某款大語言模型是特定應(yīng)用場景的理想選擇。該研究表明,剔除極少一部分眾包數(shù)據(jù),就會改變模型的排名位次。

研究人員研發(fā)出一種快速檢測方法,可測試排名平臺是否容易受到這類問題影響。該評估方法能定位到對結(jié)果偏差影響最大的單條投票,方便用戶核查這些高影響力投票。

研究人員表示,這項研究凸顯了制定更嚴(yán)謹(jǐn)策略評估模型排名的必要性。他們在本次研究中并未重點研究解決方案,但提出了可提升平臺穩(wěn)定性的建議,例如收集更詳細(xì)的反饋數(shù)據(jù)來生成排名。

該研究同時向依賴排名選擇大語言模型的用戶發(fā)出警示。這類決策可能會對企業(yè)或機(jī)構(gòu)產(chǎn)生深遠(yuǎn)且高昂的代價。

麻省理工學(xué)院電氣工程與計算機(jī)科學(xué)系副教授、信息與決策系統(tǒng)實驗室及數(shù)據(jù)系統(tǒng)與社會研究所成員、計算機(jī)科學(xué)與人工智能實驗室附屬研究員、該研究資深作者塔瑪拉?布羅德里克(Tamara Broderick)表示:“我們驚訝地發(fā)現(xiàn),這類排名平臺對該問題的敏感度極高。如果數(shù)萬條用戶反饋中,僅兩三條就決定了排名第一的大語言模型,那么人們就不能認(rèn)定,這款模型投入使用后會持續(xù)優(yōu)于其他所有模型。”

該論文的第一作者為電氣工程與計算機(jī)科學(xué)系研究生黃珍妮(Jenny Huang)、申云逸(Yunyi Shen),還有 IBM 研究院高級研究科學(xué)家丹尼斯?魏(Dennis Wei),他們與布羅德里克共同完成了這項研究。該研究成果將在國際學(xué)習(xí)表征大會上發(fā)布。

大語言模型排名平臺的類型眾多,最主流的模式是讓用戶向兩款模型提交同一查詢,再選擇輸出效果更好的模型。

平臺會匯總這類對比結(jié)果生成排名,展示各款大語言模型在編程、視覺理解等特定任務(wù)中的最優(yōu)表現(xiàn)。

用戶選擇排名靠前的大語言模型時,通常會認(rèn)為該模型的優(yōu)異排名具備泛化性。這意味著在全新數(shù)據(jù)集、相似但不完全相同的應(yīng)用場景中,這款模型依舊能優(yōu)于其他模型。

麻省理工學(xué)院的研究人員此前曾研究統(tǒng)計學(xué)、經(jīng)濟(jì)學(xué)等領(lǐng)域的泛化性問題。相關(guān)研究發(fā)現(xiàn),部分場景中剔除小部分?jǐn)?shù)據(jù)就會改變模型結(jié)果,這說明這類研究的結(jié)論可能無法適用于更廣泛的場景。

研究人員希望驗證,這類分析方法能否應(yīng)用于大語言模型排名平臺。

布羅德里克表示:“用戶最終想知道的,是自己是否選到了最優(yōu)的大語言模型。如果僅有少量提示詞決定了排名,就說明這份排名并非絕對權(quán)威?!?/p>

但人工測試剔除數(shù)據(jù)的影響并不現(xiàn)實。例如,他們評估的一個排名平臺擁有超 5.7 萬條投票。測試剔除 0.1% 數(shù)據(jù),需要從 5.7 萬條投票中逐一剔除 57 條投票的子集,子集數(shù)量超 10 的 194 次方,再重新計算排名。

研究人員基于此前的研究成果,研發(fā)出一種高效的近似計算方法,并將其適配應(yīng)用于大語言模型排名系統(tǒng)。

布羅德里克表示:“我們雖有理論證明該近似方法在特定假設(shè)下有效,但用戶無需僅憑理論判斷。我們的方法最終會為用戶標(biāo)注出問題數(shù)據(jù)點,用戶只需剔除這些數(shù)據(jù),重新運行分析,就能查看排名是否發(fā)生變化。”

研究人員將該方法應(yīng)用于主流排名平臺后,驚訝地發(fā)現(xiàn),僅需剔除極少數(shù)據(jù)點,就會讓頭部大語言模型的排名發(fā)生顯著變化。有案例顯示,從 5.7 萬余條投票中僅剔除 2 條,占比 0.0035%,就改變了排名第一的模型。

另一家使用專業(yè)標(biāo)注人員、高質(zhì)量提示詞的排名平臺,穩(wěn)定性則更強(qiáng)。該平臺需剔除 2575 條評估中的 83 條,占比約 3%,才會改變頭部模型的排名。

布羅德里克表示,核查結(jié)果顯示,許多高影響力投票可能源于用戶操作失誤。部分案例中,明明有明確的最優(yōu)模型答案,用戶卻選擇了另一款模型。

她補(bǔ)充道:“我們無法知曉用戶當(dāng)時的想法,可能是誤點、注意力不集中,也可能是確實無法判斷優(yōu)劣。核心結(jié)論是,排名第一的大語言模型,不應(yīng)由噪聲數(shù)據(jù)、用戶失誤或異常值決定?!?/p>

研究人員建議,平臺可收集用戶的額外反饋,例如每條投票的信心程度,以此獲取更豐富的信息,緩解該問題。排名平臺也可安排人工審核人員,評估眾包反饋的有效性。

研究人員計劃繼續(xù)探索其他場景下的泛化性問題,同時研發(fā)更優(yōu)質(zhì)的近似計算方法,捕捉更多不穩(wěn)定性案例。

未參與此項研究的西北大學(xué)計算機(jī)科學(xué)系講席教授杰西卡?赫爾曼(Jessica Hullman)表示:“布羅德里克及其學(xué)生的研究,解決了現(xiàn)代機(jī)器學(xué)習(xí)模型與數(shù)據(jù)集規(guī)模過大、無法窮盡計算的難題,展示了如何有效估算特定數(shù)據(jù)對下游流程的影響?!?/p>

赫爾曼補(bǔ)充道:“這項最新研究讓我們看到,日常使用的人類偏好匯總與模型更新方法雖普遍應(yīng)用,卻十分脆弱,且高度依賴數(shù)據(jù)。極少的偏好數(shù)據(jù)就能改變微調(diào)模型的表現(xiàn),這一發(fā)現(xiàn)有望推動更嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)收集方法誕生?!?/p>

https://news.mit.edu/2026/study-platforms-rank-latest-llms-can-be-unreliable-0209

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
李詠女兒法圖麥曬男友,眼光不錯,男友五官端正濃眉大眼眉清目秀

李詠女兒法圖麥曬男友,眼光不錯,男友五官端正濃眉大眼眉清目秀

陳意小可愛
2026-02-25 17:41:51
“福特”號航母650個廁所壞了近9成,近5000人上廁所排隊要四五十分鐘,美軍只能先??肯ED

“福特”號航母650個廁所壞了近9成,近5000人上廁所排隊要四五十分鐘,美軍只能先??肯ED

大象新聞
2026-02-24 12:44:26
四戰(zhàn)83中28鐵到哭!格林遭嘲諷吹噓過度 美媒:火箭換走KD贏麻了

四戰(zhàn)83中28鐵到哭!格林遭嘲諷吹噓過度 美媒:火箭換走KD贏麻了

顏小白的籃球夢
2026-02-25 17:53:00
這一科室醫(yī)生不會被AI取代,高薪、缺人!

這一科室醫(yī)生不會被AI取代,高薪、缺人!

醫(yī)學(xué)界
2026-02-24 18:42:05
四川一維修隊打開下水道,發(fā)現(xiàn)里面躺著3個女人,一查身份嚇一跳

四川一維修隊打開下水道,發(fā)現(xiàn)里面躺著3個女人,一查身份嚇一跳

清茶淺談
2025-03-30 15:06:25
巔峰對決!2月25日晚19:30!中央5套CCTV5、CCTV5+直播節(jié)目表

巔峰對決!2月25日晚19:30!中央5套CCTV5、CCTV5+直播節(jié)目表

皮皮觀天下
2026-02-25 13:17:52
歐冠悲喜夜:國米慘遭黑馬雙殺2-5出局 馬競7-4晉級 勒沃庫森2-0

歐冠悲喜夜:國米慘遭黑馬雙殺2-5出局 馬競7-4晉級 勒沃庫森2-0

狍子歪解體壇
2026-02-25 05:55:00
大理4公里1400元拖車費后續(xù)!官方介入調(diào)查,拖車公司緊急回應(yīng)

大理4公里1400元拖車費后續(xù)!官方介入調(diào)查,拖車公司緊急回應(yīng)

寶哥精彩賽事
2026-02-25 16:05:50
全國統(tǒng)一執(zhí)行!3月1日起,公職人員戴上緊箍咒,老百姓迎來大便利

全國統(tǒng)一執(zhí)行!3月1日起,公職人員戴上緊箍咒,老百姓迎來大便利

福建平子
2026-02-25 10:54:52
兩大概念明天有望脈沖拉升!

兩大概念明天有望脈沖拉升!

鴻牛
2026-02-25 15:21:51
李小璐的新瓜,信息量有點大啊…

李小璐的新瓜,信息量有點大啊…

美芽
2026-02-25 18:13:04
楊某(男,46歲)被抓獲,移交上海警方!還有人開價15萬元打包干這事兒

楊某(男,46歲)被抓獲,移交上海警方!還有人開價15萬元打包干這事兒

新民晚報
2026-02-25 10:34:02
悲?。?0歲球員生日夜毆打母親 決絕跳海赴死:第1次失敗后重跳

悲??!20歲球員生日夜毆打母親 決絕跳海赴死:第1次失敗后重跳

風(fēng)過鄉(xiāng)
2026-02-25 10:32:10
李亞鵬大年初八請前岳母吃米線,3歲女兒開心,海哈金喜明媚漂亮

李亞鵬大年初八請前岳母吃米線,3歲女兒開心,海哈金喜明媚漂亮

離離言幾許
2026-02-24 13:33:57
哪怕辟謠100次,如今依舊有球迷對NBA這5大謠言深信不疑

哪怕辟謠100次,如今依舊有球迷對NBA這5大謠言深信不疑

毒舌NBA
2026-02-24 07:05:56
國家能源集團(tuán)平莊煤業(yè)黨委書記杜善周接受審查調(diào)查

國家能源集團(tuán)平莊煤業(yè)黨委書記杜善周接受審查調(diào)查

界面新聞
2026-02-25 15:33:15
不出意外!2026年3月起,房子、車子、存款或?qū)⒂瓉碇卮蟾淖?>
    </a>
        <h3>
      <a href=財經(jīng)保探長
2026-02-23 19:40:52
在剛剛!官宣中國男籃12人名單!杜鋒愛將無緣,5后衛(wèi)5鋒線2中鋒

在剛剛!官宣中國男籃12人名單!杜鋒愛將無緣,5后衛(wèi)5鋒線2中鋒

老吳說體育
2026-02-25 19:48:58
90后男生上門喂貓,春節(jié)前后20多天賺16萬,最多1天跑55單只睡3小時,律師提醒:上門喂貓需提前明確責(zé)任

90后男生上門喂貓,春節(jié)前后20多天賺16萬,最多1天跑55單只睡3小時,律師提醒:上門喂貓需提前明確責(zé)任

瀟湘晨報
2026-02-18 16:28:53
去了一趟潮汕,我被飯桌上的教育震撼:活該人家一代比一代富!

去了一趟潮汕,我被飯桌上的教育震撼:活該人家一代比一代富!

小陸搞笑日常
2026-02-23 22:27:30
2026-02-25 20:52:50
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16320文章數(shù) 514653關(guān)注度
往期回顧 全部

科技要聞

“機(jī)器人只跳舞,沒什么用”

頭條要聞

近百萬元存款被送快遞小伙悄悄轉(zhuǎn)走 獨居老太毫無察覺

頭條要聞

近百萬元存款被送快遞小伙悄悄轉(zhuǎn)走 獨居老太毫無察覺

體育要聞

曝雄鹿計劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

娛樂要聞

黃曉明新戀情!與小22歲美女同游新加坡

財經(jīng)要聞

上海樓市放大招,地產(chǎn)預(yù)期別太大

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

藝術(shù)
本地
手機(jī)
公開課
軍事航空

藝術(shù)要聞

這位藝術(shù)家的馬賽克畫讓人驚嘆不已!

本地新聞

津南好·四時總相宜

手機(jī)要聞

國產(chǎn)雙雄交卷了!華為Mate80銷量311萬、小米17系列超350萬

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄烏沖突四周年:和平談判希望渺茫

無障礙瀏覽 進(jìn)入關(guān)懷版