国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

機(jī)器學(xué)習(xí)基準(zhǔn)測試:一場沒有終點的科學(xué)革命

0
分享至

導(dǎo)讀:基準(zhǔn)測試既是驅(qū)動AI進(jìn)步的引擎,也是束縛研究視野的枷鎖——這門新興科學(xué)正在重新定義我們?nèi)绾魏饬繖C(jī)器智能。

機(jī)器學(xué)習(xí)的核心秘訣驚人地簡單:把數(shù)據(jù)一分為二,訓(xùn)練集與測試集。訓(xùn)練階段可以無所不用其極,最終卻在測試集上一決高下。讓模型建造者們同臺競技,這就是基準(zhǔn)測試。


機(jī)器學(xué)習(xí)研究者們向來熱衷于哀嘆基準(zhǔn)測試的種種缺陷。批評者指出,靜態(tài)的測試集與評估指標(biāo)助長了狹隘的研究目標(biāo),扼殺了更具創(chuàng)造性的科學(xué)探索。基準(zhǔn)測試還刺激人們鉆營指標(biāo)漏洞,導(dǎo)致分?jǐn)?shù)虛高。古德哈特定律警告過我們,過度競爭統(tǒng)計測量會帶來惡果,但基準(zhǔn)測試對此置若罔聞。久而久之,批評者認(rèn)為,研究者們對基準(zhǔn)數(shù)據(jù)集產(chǎn)生了過擬合,構(gòu)建的模型只是在利用數(shù)據(jù)中的偽影。于是乎,測試集性能對模型能力的描繪嚴(yán)重失真,尤其在人機(jī)對比時更具欺騙性。此外,從基準(zhǔn)測試到現(xiàn)實世界的遷移失效,原因更是不一而足。

這些尖銳的批評與倫理層面的反對意見相伴相生。基準(zhǔn)測試強(qiáng)化并延續(xù)著我們對人、社會關(guān)系、文化乃至社會的表征中存在的偏見。更糟糕的是,海量人工標(biāo)注數(shù)據(jù)集的創(chuàng)建,從邊緣化勞動力身上榨取了勞動價值,而這些勞動者卻被排除在其所創(chuàng)造的經(jīng)濟(jì)收益之外。

許多人說得在理,批評者的論證令人信服。我對一個觀點尤其認(rèn)同:基準(zhǔn)測試服務(wù)于產(chǎn)業(yè)目標(biāo),為大型科技實驗室賦予了結(jié)構(gòu)性優(yōu)勢。在我看來,反對基準(zhǔn)測試的理由已經(jīng)足夠充分。

遠(yuǎn)不那么清晰的,是基準(zhǔn)測試的科學(xué)依據(jù)。

基準(zhǔn)測試作為領(lǐng)域進(jìn)步驅(qū)動力的成功,這一點無可否認(rèn)。ImageNet與2010年代的深度學(xué)習(xí)革命密不可分,各家公司為最佳犬種分類器展開了激烈角逐。區(qū)分布倫海姆獵犬與威爾士激飛獵犬,竟成了嚴(yán)肅的競爭焦點。十年之后,語言模型基準(zhǔn)測試在全球人工智能競爭中達(dá)到了地緣政治層面的重要性。科技CEO們在向股東匯報時,會背誦公司在MMLU——一套大學(xué)水平的多選題測試——上的得分。DeepSeek的R1在某些具有挑戰(zhàn)性的推理基準(zhǔn)測試上擊敗OpenAI的o1,這一消息引發(fā)了狂熱,震動了全球股市。

基準(zhǔn)測試來來去去,但其核心地位從未改變。競爭性排行榜攀登,一直是機(jī)器學(xué)習(xí)進(jìn)步的主要方式。

如果我們承認(rèn)人工智能的進(jìn)步是真實的,那我們也必須承認(rèn),基準(zhǔn)測試在某種程度上是「奏效」的。但基準(zhǔn)測試奏效這一事實,與其說是科學(xué)教訓(xùn),不如說是后見之明?;鶞?zhǔn)測試興起于早期。

一、從數(shù)據(jù)集到競技場:基準(zhǔn)測試的進(jìn)化邏輯

基準(zhǔn)測試的誕生并非偶然,它回應(yīng)了機(jī)器學(xué)習(xí)領(lǐng)域一個根本性的組織難題:如何判斷一個模型是否「更好」?在缺乏統(tǒng)一標(biāo)準(zhǔn)的前基準(zhǔn)時代,研究者們各說各話,論文中的「改進(jìn)」往往難以復(fù)現(xiàn),更難以比較。訓(xùn)練集與測試集的劃分,看似簡單的技術(shù)操作,實則構(gòu)建了一個相對公平的競技舞臺。

這個舞臺的規(guī)則清晰透明:任何人都可以參與,任何方法都可以嘗試,最終由同一套測試數(shù)據(jù)說話。這種開放性是基準(zhǔn)測試吸引力的核心來源。它降低了進(jìn)入門檻,讓學(xué)術(shù)實驗室能夠與工業(yè)界的龐大算力一較高下;它提供了即時反饋,研究者可以迅速驗證想法;它創(chuàng)造了可見的進(jìn)度,排行榜上的數(shù)字跳動成為領(lǐng)域前進(jìn)的可量化證明。

ImageNet的故事最能說明這種機(jī)制的力量。2009年,李飛飛團(tuán)隊發(fā)布這個包含1400萬張圖像、2.2萬個類別的大規(guī)模數(shù)據(jù)集時,很少有人預(yù)料到它將成為深度學(xué)習(xí)的催化劑。2012年,AlexNet在ImageNet競賽中將圖像分類錯誤率從26%驟降至15%,這一突破不僅證明了深度卷積神經(jīng)網(wǎng)絡(luò)的潛力,更確立了一種新的研究范式:數(shù)據(jù)+算力+基準(zhǔn)測試=可預(yù)期的進(jìn)步。

此后數(shù)年,ImageNet上的準(zhǔn)確率曲線持續(xù)攀升,ResNet、DenseNet、EfficientNet等架構(gòu)輪番刷新紀(jì)錄。每一次百分點的提升,都伴隨著論文發(fā)表、會議演講和媒體報導(dǎo)?;鶞?zhǔn)測試成功地將技術(shù)進(jìn)步轉(zhuǎn)化為可傳播、可消費(fèi)、可投資的故事。對于產(chǎn)業(yè)界而言,這是向董事會和股東展示AI價值的便捷工具;對于學(xué)術(shù)界而言,這是獲得引用和認(rèn)可的可靠路徑。

然而,這種成功模式也埋下了自我復(fù)制的種子。當(dāng)基準(zhǔn)測試成為進(jìn)步的主要度量,優(yōu)化基準(zhǔn)測試本身就成為研究的目標(biāo)。研究者們開始設(shè)計專門針對ImageNet特性的網(wǎng)絡(luò)結(jié)構(gòu),數(shù)據(jù)增強(qiáng)策略越來越激進(jìn),集成方法越來越復(fù)雜。2017年,當(dāng)頂級模型在ImageNet上的top-5錯誤率已經(jīng)低于3%——超越人類水平——時,一個尷尬的問題浮現(xiàn)出來:我們究竟在測量什么?

批評者指出,ImageNet的測試集存在系統(tǒng)性偏差。某些類別依賴于背景線索而非物體本身,某些圖像的標(biāo)注存在歧義,某些錯誤模式在人類視覺中幾乎不會出現(xiàn)。更深層的問題在于,ImageNet的靜態(tài)性質(zhì)使得過擬合成為可能。研究社區(qū)作為一個整體,實際上在不斷地「窺視」測試集——通過公開發(fā)表的論文、開源的代碼、研討會的討論,關(guān)于測試集的信息持續(xù)泄漏,指導(dǎo)著后續(xù)模型的設(shè)計。

這種集體過擬合并非惡意作弊,而是基準(zhǔn)測試結(jié)構(gòu)的內(nèi)在悖論。測試集的存在是為了模擬「未見過的數(shù)據(jù)」,但當(dāng)整個領(lǐng)域圍繞同一測試集運(yùn)轉(zhuǎn)多年,它就不再是真正的「未見」?;鶞?zhǔn)測試的開放性,恰恰成為其科學(xué)有效性的威脅。

二、指標(biāo)的游戲:當(dāng)優(yōu)化目標(biāo)扭曲研究軌跡

基準(zhǔn)測試的第二個核心爭議,在于指標(biāo)選擇對研究方向的塑造力。機(jī)器學(xué)習(xí)評估并非價值中立的測量活動,每一個指標(biāo)都嵌入著特定的優(yōu)先級判斷,而指標(biāo)一旦確立,就會通過激勵機(jī)制重塑研究者的行為。

以自然語言處理領(lǐng)域為例,BLEU分?jǐn)?shù)曾長期占據(jù)機(jī)器翻譯評估的主導(dǎo)地位。這一基于n-gram精確匹配的指標(biāo),確實提供了自動、快速、可復(fù)現(xiàn)的評估手段,但它對流暢性、語法正確性和語義忠實度的捕捉極為有限。研究者們很快學(xué)會了「優(yōu)化BLEU」的技巧:使用更短譯文(減少分母)、復(fù)制高頻短語、避免創(chuàng)造性表達(dá)。翻譯質(zhì)量的主觀感受與BLEU分?jǐn)?shù)之間的脫節(jié)日益嚴(yán)重,但論文中呈現(xiàn)的仍然是那條上升的曲線。

類似的故事在問答系統(tǒng)、文本摘要、對話生成等任務(wù)中反復(fù)上演。ROUGE、METEOR、CIDEr等指標(biāo)各有其偏狹,而研究社區(qū)對它們的依賴,導(dǎo)致模型在「容易測量的地方」過度發(fā)展,在「真正重要的地方」相對忽視。當(dāng)GPT-3在2020年展示出驚人的少樣本學(xué)習(xí)能力時,傳統(tǒng)的基準(zhǔn)測試框架幾乎無法捕捉這種新范式的價值——沒有固定的訓(xùn)練集,沒有標(biāo)準(zhǔn)的微調(diào)流程,如何在排行榜上定位這樣一個系統(tǒng)?

古德哈特定律——「當(dāng)一個指標(biāo)成為目標(biāo),它就不再是一個好的指標(biāo)」——在機(jī)器學(xué)習(xí)領(lǐng)域得到了充分驗證。但基準(zhǔn)測試的設(shè)計者們并非對此無知,他們持續(xù)推出新的指標(biāo)、新的測試集,試圖跟上技術(shù)發(fā)展的步伐。GLUE、SuperGLUE、XTREME、BIG-bench等基準(zhǔn)相繼問世,每一個都聲稱解決了前任的缺陷,卻又在幾年內(nèi)暴露出新的局限。

這種指標(biāo)通脹反映了更深層的張力:我們究竟希望基準(zhǔn)測試測量什么?是特定任務(wù)上的熟練程度,還是通用智能的某種 proxy?是模型在分布內(nèi)數(shù)據(jù)的表現(xiàn),還是面對分布偏移的魯棒性?是人類可感知的質(zhì)量,還是可自動計算的分?jǐn)?shù)?不同的目標(biāo)導(dǎo)向不同的指標(biāo)設(shè)計,而指標(biāo)的選擇從來不是純粹的技術(shù)決策。

近年來,大語言模型的評估尤其凸顯了這種困境。MMLU(Massive Multitask Language Understanding)作為一個涵蓋57個學(xué)科的大學(xué)水平多選題測試,被廣泛用于展示模型的知識廣度。但批評者指出,MMLU的高分可能反映的是訓(xùn)練數(shù)據(jù)中的記憶效應(yīng),而非真正的理解能力;多選題格式本身限制了評估的深度;學(xué)科覆蓋的不均衡使得分?jǐn)?shù)難以公平比較。盡管如此,科技CEO們在股東面前背誦MMLU分?jǐn)?shù)已成為標(biāo)準(zhǔn)操作,這一數(shù)字的波動足以引發(fā)市場震蕩。

2025年初,DeepSeek的R1模型在若干推理基準(zhǔn)上超越OpenAI的o1,這一消息的傳播速度和影響范圍,揭示了基準(zhǔn)測試在當(dāng)今AI生態(tài)中的符號權(quán)力。分?jǐn)?shù)差異被解讀為技術(shù)代差的證據(jù),進(jìn)而影響投資決策、地緣政治判斷和公眾認(rèn)知?;鶞?zhǔn)測試已經(jīng)從學(xué)術(shù)工具演變?yōu)樯鐣A(chǔ)設(shè)施,其科學(xué)局限性與社會影響力之間的鴻溝日益擴(kuò)大。

三、數(shù)據(jù)集的政治:誰的數(shù)據(jù),誰的勞動,誰的利益

基準(zhǔn)測試的科學(xué)爭議之外,還存在著更為根本的倫理和政治維度。每一個基準(zhǔn)數(shù)據(jù)集都是社會過程的產(chǎn)物,涉及數(shù)據(jù)收集、清洗、標(biāo)注的復(fù)雜鏈條,而這個鏈條中分布著不平等的權(quán)力關(guān)系和隱蔽的勞動剝削。


ImageNet的1400萬張圖像并非憑空出現(xiàn)。它們來自Flickr等平臺的用戶上傳,在Creative Commons許可下被抓取、篩選、分類。這個過程中,圖像創(chuàng)作者的知識勞動被無償征用,他們的隱私預(yù)期被技術(shù)架構(gòu)所覆蓋,他們的文化背景被西方中心的類別體系所規(guī)整。當(dāng)ImageNet的「人」類別被發(fā)現(xiàn)包含冒犯性標(biāo)簽時,這不僅是技術(shù)失誤,更是數(shù)據(jù)收集權(quán)力不對稱的癥狀。

更嚴(yán)重的剝削發(fā)生在人工標(biāo)注環(huán)節(jié)。機(jī)器學(xué)習(xí)對高質(zhì)量標(biāo)注數(shù)據(jù)的需求,催生了一個全球性的數(shù)據(jù)標(biāo)注產(chǎn)業(yè)??夏醽?、印度、菲律賓等國家的低薪工人,通過Amazon Mechanical Turk等平臺,為圖像畫邊界框、為文本做情感標(biāo)注、為對話做質(zhì)量排序。他們的時薪往往不足2美元,卻要承受暴力、仇恨言論和色情內(nèi)容的持續(xù)暴露。2023年,《時代》雜志的調(diào)查揭示了OpenAI外包肯尼亞工人的惡劣工作條件,這些工人為ChatGPT的安全過濾系統(tǒng)提供了關(guān)鍵的標(biāo)注數(shù)據(jù),卻被排除在AI繁榮的收益分配之外。

基準(zhǔn)測試的創(chuàng)建者通常不是這些標(biāo)注工人,而是擁有資源組織大規(guī)模標(biāo)注項目的機(jī)構(gòu)——大學(xué)研究組、科技公司的AI實驗室、政府資助的研究中心。他們定義任務(wù)、設(shè)計指南、質(zhì)量控制,最終發(fā)布數(shù)據(jù)集并收獲學(xué)術(shù)聲譽(yù)。標(biāo)注工人的貢獻(xiàn)被隱藏在「眾包」或「外包」的抽象概念之下,他們的名字不會出現(xiàn)在論文作者列表中,他們的勞動條件不會進(jìn)入數(shù)據(jù)集文檔。

這種剝削結(jié)構(gòu)并非基準(zhǔn)測試獨有,但基準(zhǔn)測試的權(quán)威性使其尤為隱蔽。當(dāng)一個數(shù)據(jù)集被確立為「標(biāo)準(zhǔn)」,它的社會建構(gòu)起源就被自然化了。研究者們使用它、引用它、改進(jìn)它,卻很少追問:這些標(biāo)簽是誰生產(chǎn)的?在什么條件下?代表誰的視角?ImageNet的類別體系反映的是WordNet的英語詞匯結(jié)構(gòu),這一選擇使得非西方文化中的概念難以被準(zhǔn)確表達(dá);人臉識別基準(zhǔn)測試的種族分布失衡,直接導(dǎo)致算法在深色皮膚上的錯誤率更高;醫(yī)學(xué)影像數(shù)據(jù)集的地理集中,限制了模型在全球范圍內(nèi)的適用性。

基準(zhǔn)測試還參與著更宏觀的知識權(quán)力運(yùn)作。它們定義什么是「標(biāo)準(zhǔn)」任務(wù),什么值得被測量,什么構(gòu)成「進(jìn)步」。這種定義權(quán)高度集中于少數(shù)機(jī)構(gòu)和國家。英語在NLP基準(zhǔn)中的主導(dǎo)地位,美國機(jī)構(gòu)在計算機(jī)視覺數(shù)據(jù)集中的影響力,西方價值觀在AI倫理基準(zhǔn)中的滲透——這些結(jié)構(gòu)性偏差不因研究者的善意而自動消解?;鶞?zhǔn)測試的全球采用,實際上是一種知識標(biāo)準(zhǔn)的輸出,將特定地區(qū)的特定實踐普遍化為「通用」基準(zhǔn)。

批評者將基準(zhǔn)測試視為大科技公司的結(jié)構(gòu)性優(yōu)勢來源,這一判斷需要審慎對待。確實,擁有更多算力、更多數(shù)據(jù)、更多標(biāo)注資源的機(jī)構(gòu),在基準(zhǔn)測試競爭中占據(jù)有利位置。但基準(zhǔn)測試的開放性也創(chuàng)造了逆襲的可能:DeepSeek、Mistral等相對較小的團(tuán)隊,通過算法創(chuàng)新和效率優(yōu)化,在特定基準(zhǔn)上挑戰(zhàn)了OpenAI、Google的領(lǐng)先地位?;鶞?zhǔn)測試既是鞏固現(xiàn)有權(quán)力的工具,也是挑戰(zhàn)者可以利用的杠桿——關(guān)鍵在于能否找到現(xiàn)有指標(biāo)的盲點,或創(chuàng)造新的評估維度。

四、過擬合的幽靈:測試集泄漏與科學(xué)誠信

基準(zhǔn)測試面臨的最古老批評,莫過于過擬合問題。當(dāng)同一個測試集被反復(fù)使用多年,研究社區(qū)作為一個整體,實際上在不斷地適應(yīng)這個特定數(shù)據(jù)集的特性。這不是傳統(tǒng)意義上的訓(xùn)練集過擬合——沒有研究者直接將測試標(biāo)簽用于訓(xùn)練——而是一種更隱蔽、更系統(tǒng)的「測試集污染」。

污染的來源是多方面的。論文發(fā)表是最主要的渠道:成功的模型架構(gòu)、有效的訓(xùn)練技巧、關(guān)鍵的數(shù)據(jù)增強(qiáng)策略,都在論文中被詳細(xì)描述,后續(xù)研究可以針對性地借鑒。開源代碼加速了這種知識傳播:GitHub上的實現(xiàn)不僅展示了最終模型,還揭示了超參數(shù)選擇、預(yù)處理流程、集成策略等細(xì)節(jié)。社交媒體和學(xué)術(shù)會議創(chuàng)造了非正式的信息網(wǎng)絡(luò),研究者們分享失敗嘗試、邊界案例、數(shù)據(jù)特性觀察——所有這些都潛移默化地塑造著后續(xù)模型的設(shè)計。

更嚴(yán)重的是有意的測試集使用。雖然主流會議和期刊禁止直接使用測試集進(jìn)行模型選擇,但「開發(fā)集」的反復(fù)調(diào)試實際上起到了類似作用。研究者們將原始訓(xùn)練集劃分為多個子集,進(jìn)行廣泛的超參數(shù)搜索和架構(gòu)比較,最終選擇在開發(fā)集上表現(xiàn)最好的配置。當(dāng)開發(fā)集與測試集高度相關(guān)時——這在多年使用同一基準(zhǔn)的情況下幾乎必然——這種實踐等價于間接的測試集優(yōu)化。

ImageNet的歷史充分展示了這種動態(tài)。2012年至2017年間,top-5錯誤率從15%降至2%以下,這一進(jìn)步有多少來自真正的算法創(chuàng)新,多少來自對ImageNet特定統(tǒng)計特性的適應(yīng)?后續(xù)分析發(fā)現(xiàn),許多「改進(jìn)」在更換測試集后消失或大幅縮減。2019年,ImageNet團(tuán)隊發(fā)布了新的測試集ImageNetV2,在嚴(yán)格匹配原始分布的條件下重新收集。結(jié)果顯示,頂級模型在V2上的準(zhǔn)確率比原始測試集低11-15%,且模型在原測試集上的排名與V2上的排名相關(guān)性有限。這一發(fā)現(xiàn)震撼了社區(qū):我們多年追逐的數(shù)字,究竟測量了什么?

語言模型領(lǐng)域面臨著更復(fù)雜的挑戰(zhàn)。預(yù)訓(xùn)練數(shù)據(jù)集的規(guī)模已達(dá)數(shù)萬億token,幾乎不可能保證其中不包含任何基準(zhǔn)測試材料。MMLU、GSM8K、HumanEval等測試集中的問題,很可能以某種形式出現(xiàn)在Common Crawl、GitHub、教科書網(wǎng)站等預(yù)訓(xùn)練數(shù)據(jù)源中。研究者們開發(fā)了各種「去污染」方法,但徹底的保證幾乎不可能。當(dāng)模型在訓(xùn)練時「見過」測試問題,即使不是以標(biāo)準(zhǔn)形式,其性能評估就失去了科學(xué)意義。

一些機(jī)構(gòu)嘗試通過動態(tài)測試集來緩解這一問題。Kaggle等競賽平臺使用私有測試集,只在提交時返回分?jǐn)?shù);Chatbot Arena等眾包評估持續(xù)收集人類偏好數(shù)據(jù),形成不斷更新的排行榜。但這些方法引入了新問題:私有測試集的可解釋性和可審計性降低,動態(tài)評估的可比性和穩(wěn)定性受損。沒有完美的解決方案,只有不同缺陷之間的權(quán)衡。

過擬合問題的深層啟示在于,基準(zhǔn)測試的科學(xué)有效性依賴于一個理想化的假設(shè):測試集是獨立同分布的「未來數(shù)據(jù)」的代表。但在研究社區(qū)的集體實踐中,測試集被反復(fù)分析、討論、適應(yīng),其「獨立性」被系統(tǒng)性侵蝕?;鶞?zhǔn)測試的成功——作為進(jìn)步驅(qū)動力——恰恰成為其科學(xué)嚴(yán)謹(jǐn)性的威脅。這是一個結(jié)構(gòu)性悖論,而非可以通過更好的規(guī)則設(shè)計完全解決的工程問題。

五、從實驗室到現(xiàn)實世界:遷移失效的謎團(tuán)

即使我們接受基準(zhǔn)測試分?jǐn)?shù)的某種有效性,一個更根本的問題依然存在:這些分?jǐn)?shù)與現(xiàn)實世界性能之間的關(guān)系是什么?研究者們長期觀察到,基準(zhǔn)測試上的領(lǐng)先不保證實際部署的成功,這種「遷移失效」困擾著從自動駕駛到醫(yī)療診斷的眾多應(yīng)用領(lǐng)域。

遷移失效的原因是多層次的。最表層的是分布偏移:基準(zhǔn)測試數(shù)據(jù)經(jīng)過精心篩選和清洗,而真實數(shù)據(jù)充滿噪聲、異常值和未預(yù)見的情況。ImageNet的圖像質(zhì)量、光照條件、物體姿態(tài)分布,與手機(jī)拍攝的日常照片差異顯著;MMLU的多選題格式與開放式問答的認(rèn)知需求不同;模擬環(huán)境中的機(jī)器人控制策略,面對真實世界的摩擦、磨損和意外干擾時往往失效。

更深層的差異在于評估維度。基準(zhǔn)測試通常優(yōu)化單一指標(biāo)——準(zhǔn)確率、BLEU分?jǐn)?shù)、推理速度——而實際應(yīng)用需要平衡多個相互沖突的目標(biāo)。一個醫(yī)療影像模型可能在基準(zhǔn)測試上達(dá)到99%的準(zhǔn)確率,但如果其錯誤集中在罕見但致命的病例上,或者其置信度校準(zhǔn)不良導(dǎo)致醫(yī)生過度信任,其實際價值就大打折扣。基準(zhǔn)測試的「平均情況」優(yōu)化,掩蓋了「最壞情況」風(fēng)險,而后者往往是高 stakes 應(yīng)用的決定性因素。

還有社會技術(shù)系統(tǒng)的復(fù)雜性?;鶞?zhǔn)測試假設(shè)一個干凈的輸入-輸出映射,而真實部署涉及人機(jī)交互、組織流程、監(jiān)管約束、用戶行為的復(fù)雜網(wǎng)絡(luò)。一個對話系統(tǒng)在標(biāo)準(zhǔn)測試集上表現(xiàn)優(yōu)異,可能在面對真實用戶的非合作行為、邊緣請求或情感需求時崩潰;一個推薦算法在離線評估中提升點擊率,可能在實際使用中加劇信息繭房或引發(fā)用戶反感。這些效應(yīng)難以在基準(zhǔn)測試中捕捉,因為它們依賴于系統(tǒng)與環(huán)境的動態(tài)耦合。

研究社區(qū)對遷移失效的回應(yīng),是創(chuàng)造更多、更「真實」的基準(zhǔn)。Robustness Gym、CheckList、Dynabench等嘗試引入對抗性測試、行為測試、人機(jī)協(xié)作評估;WILDS、Wilds 2.0等數(shù)據(jù)集強(qiáng)調(diào)分布偏移和領(lǐng)域泛化;各種「現(xiàn)實世界」基準(zhǔn)聲稱捕捉了實際部署的復(fù)雜性。但這些努力面臨一個根本困境:任何可重復(fù)、可比較的基準(zhǔn)都必然是對現(xiàn)實的簡化,而簡化的選擇本身嵌入著價值判斷。更「真實」的基準(zhǔn)往往更昂貴、更慢、更難解釋,在學(xué)術(shù)激勵體系中處于劣勢。

遷移失效還揭示了基準(zhǔn)測試與產(chǎn)業(yè)需求之間的張力??萍脊拘枰鶞?zhǔn)測試來展示技術(shù)進(jìn)步、獲取投資和人才,但他們也深知基準(zhǔn)測試的局限。內(nèi)部評估通常包含大量未公開的測試集、A/B實驗、用戶研究——這些「真實」評估與公開基準(zhǔn)的關(guān)系復(fù)雜而曖昧。有時公開基準(zhǔn)的領(lǐng)先確實預(yù)示著產(chǎn)品改進(jìn),有時則是精心策劃的營銷敘事。這種信息不對稱使得外部觀察者難以判斷基準(zhǔn)測試分?jǐn)?shù)的實際意義。

六、基準(zhǔn)測試的科學(xué):一門新興學(xué)科的輪廓

面對上述種種批評和挑戰(zhàn),一個自然的反應(yīng)是放棄基準(zhǔn)測試,尋找替代性的進(jìn)步衡量方式。但歷史經(jīng)驗表明,基準(zhǔn)測試的韌性遠(yuǎn)超預(yù)期。它們不斷演化、適應(yīng)、擴(kuò)展,始終占據(jù)著機(jī)器學(xué)習(xí)研究的核心位置。與其簡單地褒貶,不如認(rèn)真對待基準(zhǔn)測試作為一種社會實踐和科學(xué)對象本身——這正是「機(jī)器學(xué)習(xí)基準(zhǔn)測試科學(xué)」的興起背景。

這門新興科學(xué)關(guān)注的核心問題包括:什么是好的基準(zhǔn)測試?如何設(shè)計能夠抵抗過擬合的評估協(xié)議?指標(biāo)與實際性能之間的關(guān)系如何建模?基準(zhǔn)測試如何塑造研究議程和知識生產(chǎn)?不同利益相關(guān)者——研究者、工程師、政策制定者、公眾——對基準(zhǔn)測試有何不同期待?

方法論上,基準(zhǔn)測試科學(xué)借鑒了多個傳統(tǒng)領(lǐng)域??茖W(xué)計量學(xué)提供了分析研究趨勢和引用模式的工具;科學(xué)技術(shù)研究(STS)關(guān)注基準(zhǔn)測試的社會建構(gòu)和政治經(jīng)濟(jì);測量理論探討信度、效度、公平性的形式化定義;因果

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
張雪峰遺產(chǎn)分割復(fù)雜!11歲女兒面臨跟后媽爭產(chǎn),是否立遺囑成關(guān)鍵

張雪峰遺產(chǎn)分割復(fù)雜!11歲女兒面臨跟后媽爭產(chǎn),是否立遺囑成關(guān)鍵

萌神木木
2026-03-25 18:56:27
中國買了歐洲1000億人民幣的飛機(jī):東航向空客購買101架A320

中國買了歐洲1000億人民幣的飛機(jī):東航向空客購買101架A320

觀察者網(wǎng)
2026-03-25 18:00:06
趙繼偉14中1!遼寧爆冷惜敗吉林 姜宇星戰(zhàn)舊主吃T姜偉澤21+5+5

趙繼偉14中1!遼寧爆冷惜敗吉林 姜宇星戰(zhàn)舊主吃T姜偉澤21+5+5

醉臥浮生
2026-03-25 21:37:11
堅決反對中國任何城市申辦奧運(yùn)會,國際奧委會這次怕是真失算了

堅決反對中國任何城市申辦奧運(yùn)會,國際奧委會這次怕是真失算了

南權(quán)先生
2026-03-25 15:25:11
信達(dá)證券所長被曝猥褻女員工,撫摸私密處,正臉照被扒,警方介入

信達(dá)證券所長被曝猥褻女員工,撫摸私密處,正臉照被扒,警方介入

180視角
2026-03-25 15:58:41
75歲劉曉慶發(fā)文:這么想我死啊

75歲劉曉慶發(fā)文:這么想我死啊

都市快報橙柿互動
2026-03-25 15:21:36
美國想不通,伊朗為啥突然變強(qiáng)大了?靠山是誰?

美國想不通,伊朗為啥突然變強(qiáng)大了?靠山是誰?

凡人侃史
2026-03-25 10:55:46
荒唐!伊朗兩大高層獲美以臨時豁免,嘴上的強(qiáng)硬抵不過保命要緊

荒唐!伊朗兩大高層獲美以臨時豁免,嘴上的強(qiáng)硬抵不過保命要緊

老馬拉車莫少裝
2026-03-25 20:09:39
伊朗:倡議建立“無美以聯(lián)盟”!特朗普要談判,以色列慌了,繼續(xù)轟炸德黑蘭!以軍要強(qiáng)占黎巴嫩10%土地建“緩沖區(qū)”,真主黨:抵抗到底

伊朗:倡議建立“無美以聯(lián)盟”!特朗普要談判,以色列慌了,繼續(xù)轟炸德黑蘭!以軍要強(qiáng)占黎巴嫩10%土地建“緩沖區(qū)”,真主黨:抵抗到底

每日經(jīng)濟(jì)新聞
2026-03-25 17:30:14
曝張雪峰倒下30分鐘后才被發(fā)現(xiàn),飲食習(xí)慣糟糕,一口氣吃8根雪糕

曝張雪峰倒下30分鐘后才被發(fā)現(xiàn),飲食習(xí)慣糟糕,一口氣吃8根雪糕

古希臘掌管松餅的神
2026-03-25 11:08:46
周杰倫的INS被網(wǎng)友沖爆,新歌MV里手表調(diào)到“83”,疑用舊戀情炒作賣新唱片

周杰倫的INS被網(wǎng)友沖爆,新歌MV里手表調(diào)到“83”,疑用舊戀情炒作賣新唱片

回旋鏢
2026-03-25 20:38:44
前女友緬懷張雪峰,呼吁大家嘴下留德,曾自曝遭家暴污蔑才分手!

前女友緬懷張雪峰,呼吁大家嘴下留德,曾自曝遭家暴污蔑才分手!

古希臘掌管松餅的神
2026-03-25 15:38:23
意大利經(jīng)濟(jì)發(fā)展部前副部長:建議想要與中國合作的外企都讀一讀“十五五”規(guī)劃

意大利經(jīng)濟(jì)發(fā)展部前副部長:建議想要與中國合作的外企都讀一讀“十五五”規(guī)劃

界面新聞
2026-03-25 15:50:08
1000億背后的陽謀:拼多多利用中國制造的優(yōu)勢,要狂掃國外市場

1000億背后的陽謀:拼多多利用中國制造的優(yōu)勢,要狂掃國外市場

風(fēng)向觀察
2026-03-25 20:46:14
釋永信“開光”真相大白,過程不堪入目,易中天也有牽扯

釋永信“開光”真相大白,過程不堪入目,易中天也有牽扯

尋墨閣
2026-03-25 11:39:10
明日二月初八是“兇日”,牢記3個忌諱:1不拜、2不問、3不吃

明日二月初八是“兇日”,牢記3個忌諱:1不拜、2不問、3不吃

阿龍美食記
2026-03-25 06:17:12
張雪峰登上這份死亡名單,他們有一個很玄的共同特點

張雪峰登上這份死亡名單,他們有一個很玄的共同特點

田先生研究室
2026-03-25 06:05:11
張雪峰6年前已離婚,獨女張姩菡只能分16.5%遺產(chǎn),現(xiàn)任妻子占大頭

張雪峰6年前已離婚,獨女張姩菡只能分16.5%遺產(chǎn),現(xiàn)任妻子占大頭

楓紅染山徑
2026-03-25 16:56:22
11連勝升聯(lián)賽第一!上海32分狂勝山西 李弘權(quán)27+7三分李添榮18分

11連勝升聯(lián)賽第一!上海32分狂勝山西 李弘權(quán)27+7三分李添榮18分

醉臥浮生
2026-03-25 21:33:39
押注中國!迪拜資本大轉(zhuǎn)移,數(shù)千億真金白銀連夜搬家到東方

押注中國!迪拜資本大轉(zhuǎn)移,數(shù)千億真金白銀連夜搬家到東方

小舟談歷史
2026-03-25 06:28:02
2026-03-25 21:52:49
固件更新中
固件更新中
有態(tài)度網(wǎng)友ytd
407文章數(shù) 3關(guān)注度
往期回顧 全部

科技要聞

紅極一時卻草草收場,Sora宣布正式關(guān)停

頭條要聞

于東來:我從30歲開始吃藥拍CT上百次 哪天說沒就沒了

頭條要聞

于東來:我從30歲開始吃藥拍CT上百次 哪天說沒就沒了

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰經(jīng)搶救無效不幸去世 年僅41歲

財經(jīng)要聞

管濤:中東局勢如何影響人民幣匯率走勢?

汽車要聞

智己LS8放大招 30萬內(nèi)8系旗艦+全線控底盤秀實力

態(tài)度原創(chuàng)

藝術(shù)
時尚
旅游
本地
軍事航空

藝術(shù)要聞

《百花譜》,這個春天畫花不用愁!

今年春天最時髦的穿法:長外套+長裙、長針織+長褲,太高級了!

旅游要聞

北京花溪覓春:櫻花河驚艷亮相,多處濱水空間成“賞花長廊”

本地新聞

來永泰同安 赴一場春天的約會

軍事要聞

伊朗重申非交戰(zhàn)國家船只可安全通過霍爾木茲海峽

無障礙瀏覽 進(jìn)入關(guān)懷版