機(jī)器學(xué)習(xí)基準(zhǔn)測試：一場沒有終點的科學(xué)革命

2026-03-19 12:16:22　來源: 固件更新中

北京舉報

分享至

導(dǎo)讀：基準(zhǔn)測試既是驅(qū)動AI進(jìn)步的引擎，也是束縛研究視野的枷鎖——這門新興科學(xué)正在重新定義我們?nèi)绾魏饬繖C(jī)器智能。

機(jī)器學(xué)習(xí)的核心秘訣驚人地簡單：把數(shù)據(jù)一分為二，訓(xùn)練集與測試集。訓(xùn)練階段可以無所不用其極，最終卻在測試集上一決高下。讓模型建造者們同臺競技，這就是基準(zhǔn)測試。

機(jī)器學(xué)習(xí)研究者們向來熱衷于哀嘆基準(zhǔn)測試的種種缺陷。批評者指出，靜態(tài)的測試集與評估指標(biāo)助長了狹隘的研究目標(biāo)，扼殺了更具創(chuàng)造性的科學(xué)探索。基準(zhǔn)測試還刺激人們鉆營指標(biāo)漏洞，導(dǎo)致分?jǐn)?shù)虛高。古德哈特定律警告過我們，過度競爭統(tǒng)計測量會帶來惡果，但基準(zhǔn)測試對此置若罔聞。久而久之，批評者認(rèn)為，研究者們對基準(zhǔn)數(shù)據(jù)集產(chǎn)生了過擬合，構(gòu)建的模型只是在利用數(shù)據(jù)中的偽影。于是乎，測試集性能對模型能力的描繪嚴(yán)重失真，尤其在人機(jī)對比時更具欺騙性。此外，從基準(zhǔn)測試到現(xiàn)實世界的遷移失效，原因更是不一而足。

這些尖銳的批評與倫理層面的反對意見相伴相生。基準(zhǔn)測試強(qiáng)化并延續(xù)著我們對人、社會關(guān)系、文化乃至社會的表征中存在的偏見。更糟糕的是，海量人工標(biāo)注數(shù)據(jù)集的創(chuàng)建，從邊緣化勞動力身上榨取了勞動價值，而這些勞動者卻被排除在其所創(chuàng)造的經(jīng)濟(jì)收益之外。

許多人說得在理，批評者的論證令人信服。我對一個觀點尤其認(rèn)同：基準(zhǔn)測試服務(wù)于產(chǎn)業(yè)目標(biāo)，為大型科技實驗室賦予了結(jié)構(gòu)性優(yōu)勢。在我看來，反對基準(zhǔn)測試的理由已經(jīng)足夠充分。

遠(yuǎn)不那么清晰的，是基準(zhǔn)測試的科學(xué)依據(jù)。

基準(zhǔn)測試作為領(lǐng)域進(jìn)步驅(qū)動力的成功，這一點無可否認(rèn)。ImageNet與2010年代的深度學(xué)習(xí)革命密不可分，各家公司為最佳犬種分類器展開了激烈角逐。區(qū)分布倫海姆獵犬與威爾士激飛獵犬，竟成了嚴(yán)肅的競爭焦點。十年之后，語言模型基準(zhǔn)測試在全球人工智能競爭中達(dá)到了地緣政治層面的重要性。科技CEO們在向股東匯報時，會背誦公司在MMLU——一套大學(xué)水平的多選題測試——上的得分。DeepSeek的R1在某些具有挑戰(zhàn)性的推理基準(zhǔn)測試上擊敗OpenAI的o1，這一消息引發(fā)了狂熱，震動了全球股市。

基準(zhǔn)測試來來去去，但其核心地位從未改變。競爭性排行榜攀登，一直是機(jī)器學(xué)習(xí)進(jìn)步的主要方式。

如果我們承認(rèn)人工智能的進(jìn)步是真實的，那我們也必須承認(rèn)，基準(zhǔn)測試在某種程度上是「奏效」的。但基準(zhǔn)測試奏效這一事實，與其說是科學(xué)教訓(xùn)，不如說是后見之明?；鶞?zhǔn)測試興起于早期。

一、從數(shù)據(jù)集到競技場：基準(zhǔn)測試的進(jìn)化邏輯

基準(zhǔn)測試的誕生并非偶然，它回應(yīng)了機(jī)器學(xué)習(xí)領(lǐng)域一個根本性的組織難題：如何判斷一個模型是否「更好」？在缺乏統(tǒng)一標(biāo)準(zhǔn)的前基準(zhǔn)時代，研究者們各說各話，論文中的「改進(jìn)」往往難以復(fù)現(xiàn)，更難以比較。訓(xùn)練集與測試集的劃分，看似簡單的技術(shù)操作，實則構(gòu)建了一個相對公平的競技舞臺。

這個舞臺的規(guī)則清晰透明：任何人都可以參與，任何方法都可以嘗試，最終由同一套測試數(shù)據(jù)說話。這種開放性是基準(zhǔn)測試吸引力的核心來源。它降低了進(jìn)入門檻，讓學(xué)術(shù)實驗室能夠與工業(yè)界的龐大算力一較高下；它提供了即時反饋，研究者可以迅速驗證想法；它創(chuàng)造了可見的進(jìn)度，排行榜上的數(shù)字跳動成為領(lǐng)域前進(jìn)的可量化證明。

ImageNet的故事最能說明這種機(jī)制的力量。2009年，李飛飛團(tuán)隊發(fā)布這個包含1400萬張圖像、2.2萬個類別的大規(guī)模數(shù)據(jù)集時，很少有人預(yù)料到它將成為深度學(xué)習(xí)的催化劑。2012年，AlexNet在ImageNet競賽中將圖像分類錯誤率從26%驟降至15%，這一突破不僅證明了深度卷積神經(jīng)網(wǎng)絡(luò)的潛力，更確立了一種新的研究范式：數(shù)據(jù)+算力+基準(zhǔn)測試=可預(yù)期的進(jìn)步。

此后數(shù)年，ImageNet上的準(zhǔn)確率曲線持續(xù)攀升，ResNet、DenseNet、EfficientNet等架構(gòu)輪番刷新紀(jì)錄。每一次百分點的提升，都伴隨著論文發(fā)表、會議演講和媒體報導(dǎo)?；鶞?zhǔn)測試成功地將技術(shù)進(jìn)步轉(zhuǎn)化為可傳播、可消費(fèi)、可投資的故事。對于產(chǎn)業(yè)界而言，這是向董事會和股東展示AI價值的便捷工具；對于學(xué)術(shù)界而言，這是獲得引用和認(rèn)可的可靠路徑。

然而，這種成功模式也埋下了自我復(fù)制的種子。當(dāng)基準(zhǔn)測試成為進(jìn)步的主要度量，優(yōu)化基準(zhǔn)測試本身就成為研究的目標(biāo)。研究者們開始設(shè)計專門針對ImageNet特性的網(wǎng)絡(luò)結(jié)構(gòu)，數(shù)據(jù)增強(qiáng)策略越來越激進(jìn)，集成方法越來越復(fù)雜。2017年，當(dāng)頂級模型在ImageNet上的top-5錯誤率已經(jīng)低于3%——超越人類水平——時，一個尷尬的問題浮現(xiàn)出來：我們究竟在測量什么？

批評者指出，ImageNet的測試集存在系統(tǒng)性偏差。某些類別依賴于背景線索而非物體本身，某些圖像的標(biāo)注存在歧義，某些錯誤模式在人類視覺中幾乎不會出現(xiàn)。更深層的問題在于，ImageNet的靜態(tài)性質(zhì)使得過擬合成為可能。研究社區(qū)作為一個整體，實際上在不斷地「窺視」測試集——通過公開發(fā)表的論文、開源的代碼、研討會的討論，關(guān)于測試集的信息持續(xù)泄漏，指導(dǎo)著后續(xù)模型的設(shè)計。

這種集體過擬合并非惡意作弊，而是基準(zhǔn)測試結(jié)構(gòu)的內(nèi)在悖論。測試集的存在是為了模擬「未見過的數(shù)據(jù)」，但當(dāng)整個領(lǐng)域圍繞同一測試集運(yùn)轉(zhuǎn)多年，它就不再是真正的「未見」?；鶞?zhǔn)測試的開放性，恰恰成為其科學(xué)有效性的威脅。

二、指標(biāo)的游戲：當(dāng)優(yōu)化目標(biāo)扭曲研究軌跡

基準(zhǔn)測試的第二個核心爭議，在于指標(biāo)選擇對研究方向的塑造力。機(jī)器學(xué)習(xí)評估并非價值中立的測量活動，每一個指標(biāo)都嵌入著特定的優(yōu)先級判斷，而指標(biāo)一旦確立，就會通過激勵機(jī)制重塑研究者的行為。

以自然語言處理領(lǐng)域為例，BLEU分?jǐn)?shù)曾長期占據(jù)機(jī)器翻譯評估的主導(dǎo)地位。這一基于n-gram精確匹配的指標(biāo)，確實提供了自動、快速、可復(fù)現(xiàn)的評估手段，但它對流暢性、語法正確性和語義忠實度的捕捉極為有限。研究者們很快學(xué)會了「優(yōu)化BLEU」的技巧：使用更短譯文（減少分母）、復(fù)制高頻短語、避免創(chuàng)造性表達(dá)。翻譯質(zhì)量的主觀感受與BLEU分?jǐn)?shù)之間的脫節(jié)日益嚴(yán)重，但論文中呈現(xiàn)的仍然是那條上升的曲線。

類似的故事在問答系統(tǒng)、文本摘要、對話生成等任務(wù)中反復(fù)上演。ROUGE、METEOR、CIDEr等指標(biāo)各有其偏狹，而研究社區(qū)對它們的依賴，導(dǎo)致模型在「容易測量的地方」過度發(fā)展，在「真正重要的地方」相對忽視。當(dāng)GPT-3在2020年展示出驚人的少樣本學(xué)習(xí)能力時，傳統(tǒng)的基準(zhǔn)測試框架幾乎無法捕捉這種新范式的價值——沒有固定的訓(xùn)練集，沒有標(biāo)準(zhǔn)的微調(diào)流程，如何在排行榜上定位這樣一個系統(tǒng)？

古德哈特定律——「當(dāng)一個指標(biāo)成為目標(biāo)，它就不再是一個好的指標(biāo)」——在機(jī)器學(xué)習(xí)領(lǐng)域得到了充分驗證。但基準(zhǔn)測試的設(shè)計者們并非對此無知，他們持續(xù)推出新的指標(biāo)、新的測試集，試圖跟上技術(shù)發(fā)展的步伐。GLUE、SuperGLUE、XTREME、BIG-bench等基準(zhǔn)相繼問世，每一個都聲稱解決了前任的缺陷，卻又在幾年內(nèi)暴露出新的局限。

這種指標(biāo)通脹反映了更深層的張力：我們究竟希望基準(zhǔn)測試測量什么？是特定任務(wù)上的熟練程度，還是通用智能的某種 proxy？是模型在分布內(nèi)數(shù)據(jù)的表現(xiàn)，還是面對分布偏移的魯棒性？是人類可感知的質(zhì)量，還是可自動計算的分?jǐn)?shù)？不同的目標(biāo)導(dǎo)向不同的指標(biāo)設(shè)計，而指標(biāo)的選擇從來不是純粹的技術(shù)決策。

近年來，大語言模型的評估尤其凸顯了這種困境。MMLU（Massive Multitask Language Understanding）作為一個涵蓋57個學(xué)科的大學(xué)水平多選題測試，被廣泛用于展示模型的知識廣度。但批評者指出，MMLU的高分可能反映的是訓(xùn)練數(shù)據(jù)中的記憶效應(yīng)，而非真正的理解能力；多選題格式本身限制了評估的深度；學(xué)科覆蓋的不均衡使得分?jǐn)?shù)難以公平比較。盡管如此，科技CEO們在股東面前背誦MMLU分?jǐn)?shù)已成為標(biāo)準(zhǔn)操作，這一數(shù)字的波動足以引發(fā)市場震蕩。

2025年初，DeepSeek的R1模型在若干推理基準(zhǔn)上超越OpenAI的o1，這一消息的傳播速度和影響范圍，揭示了基準(zhǔn)測試在當(dāng)今AI生態(tài)中的符號權(quán)力。分?jǐn)?shù)差異被解讀為技術(shù)代差的證據(jù)，進(jìn)而影響投資決策、地緣政治判斷和公眾認(rèn)知?；鶞?zhǔn)測試已經(jīng)從學(xué)術(shù)工具演變?yōu)樯鐣A(chǔ)設(shè)施，其科學(xué)局限性與社會影響力之間的鴻溝日益擴(kuò)大。

三、數(shù)據(jù)集的政治：誰的數(shù)據(jù)，誰的勞動，誰的利益

基準(zhǔn)測試的科學(xué)爭議之外，還存在著更為根本的倫理和政治維度。每一個基準(zhǔn)數(shù)據(jù)集都是社會過程的產(chǎn)物，涉及數(shù)據(jù)收集、清洗、標(biāo)注的復(fù)雜鏈條，而這個鏈條中分布著不平等的權(quán)力關(guān)系和隱蔽的勞動剝削。

ImageNet的1400萬張圖像并非憑空出現(xiàn)。它們來自Flickr等平臺的用戶上傳，在Creative Commons許可下被抓取、篩選、分類。這個過程中，圖像創(chuàng)作者的知識勞動被無償征用，他們的隱私預(yù)期被技術(shù)架構(gòu)所覆蓋，他們的文化背景被西方中心的類別體系所規(guī)整。當(dāng)ImageNet的「人」類別被發(fā)現(xiàn)包含冒犯性標(biāo)簽時，這不僅是技術(shù)失誤，更是數(shù)據(jù)收集權(quán)力不對稱的癥狀。

更嚴(yán)重的剝削發(fā)生在人工標(biāo)注環(huán)節(jié)。機(jī)器學(xué)習(xí)對高質(zhì)量標(biāo)注數(shù)據(jù)的需求，催生了一個全球性的數(shù)據(jù)標(biāo)注產(chǎn)業(yè)?？夏醽?、印度、菲律賓等國家的低薪工人，通過Amazon Mechanical Turk等平臺，為圖像畫邊界框、為文本做情感標(biāo)注、為對話做質(zhì)量排序。他們的時薪往往不足2美元，卻要承受暴力、仇恨言論和色情內(nèi)容的持續(xù)暴露。2023年，《時代》雜志的調(diào)查揭示了OpenAI外包肯尼亞工人的惡劣工作條件，這些工人為ChatGPT的安全過濾系統(tǒng)提供了關(guān)鍵的標(biāo)注數(shù)據(jù)，卻被排除在AI繁榮的收益分配之外。

基準(zhǔn)測試的創(chuàng)建者通常不是這些標(biāo)注工人，而是擁有資源組織大規(guī)模標(biāo)注項目的機(jī)構(gòu)——大學(xué)研究組、科技公司的AI實驗室、政府資助的研究中心。他們定義任務(wù)、設(shè)計指南、質(zhì)量控制，最終發(fā)布數(shù)據(jù)集并收獲學(xué)術(shù)聲譽(yù)。標(biāo)注工人的貢獻(xiàn)被隱藏在「眾包」或「外包」的抽象概念之下，他們的名字不會出現(xiàn)在論文作者列表中，他們的勞動條件不會進(jìn)入數(shù)據(jù)集文檔。

這種剝削結(jié)構(gòu)并非基準(zhǔn)測試獨有，但基準(zhǔn)測試的權(quán)威性使其尤為隱蔽。當(dāng)一個數(shù)據(jù)集被確立為「標(biāo)準(zhǔn)」，它的社會建構(gòu)起源就被自然化了。研究者們使用它、引用它、改進(jìn)它，卻很少追問：這些標(biāo)簽是誰生產(chǎn)的？在什么條件下？代表誰的視角？ImageNet的類別體系反映的是WordNet的英語詞匯結(jié)構(gòu)，這一選擇使得非西方文化中的概念難以被準(zhǔn)確表達(dá)；人臉識別基準(zhǔn)測試的種族分布失衡，直接導(dǎo)致算法在深色皮膚上的錯誤率更高；醫(yī)學(xué)影像數(shù)據(jù)集的地理集中，限制了模型在全球范圍內(nèi)的適用性。

基準(zhǔn)測試還參與著更宏觀的知識權(quán)力運(yùn)作。它們定義什么是「標(biāo)準(zhǔn)」任務(wù)，什么值得被測量，什么構(gòu)成「進(jìn)步」。這種定義權(quán)高度集中于少數(shù)機(jī)構(gòu)和國家。英語在NLP基準(zhǔn)中的主導(dǎo)地位，美國機(jī)構(gòu)在計算機(jī)視覺數(shù)據(jù)集中的影響力，西方價值觀在AI倫理基準(zhǔn)中的滲透——這些結(jié)構(gòu)性偏差不因研究者的善意而自動消解?；鶞?zhǔn)測試的全球采用，實際上是一種知識標(biāo)準(zhǔn)的輸出，將特定地區(qū)的特定實踐普遍化為「通用」基準(zhǔn)。

批評者將基準(zhǔn)測試視為大科技公司的結(jié)構(gòu)性優(yōu)勢來源，這一判斷需要審慎對待。確實，擁有更多算力、更多數(shù)據(jù)、更多標(biāo)注資源的機(jī)構(gòu)，在基準(zhǔn)測試競爭中占據(jù)有利位置。但基準(zhǔn)測試的開放性也創(chuàng)造了逆襲的可能：DeepSeek、Mistral等相對較小的團(tuán)隊，通過算法創(chuàng)新和效率優(yōu)化，在特定基準(zhǔn)上挑戰(zhàn)了OpenAI、Google的領(lǐng)先地位?；鶞?zhǔn)測試既是鞏固現(xiàn)有權(quán)力的工具，也是挑戰(zhàn)者可以利用的杠桿——關(guān)鍵在于能否找到現(xiàn)有指標(biāo)的盲點，或創(chuàng)造新的評估維度。

四、過擬合的幽靈：測試集泄漏與科學(xué)誠信

基準(zhǔn)測試面臨的最古老批評，莫過于過擬合問題。當(dāng)同一個測試集被反復(fù)使用多年，研究社區(qū)作為一個整體，實際上在不斷地適應(yīng)這個特定數(shù)據(jù)集的特性。這不是傳統(tǒng)意義上的訓(xùn)練集過擬合——沒有研究者直接將測試標(biāo)簽用于訓(xùn)練——而是一種更隱蔽、更系統(tǒng)的「測試集污染」。

污染的來源是多方面的。論文發(fā)表是最主要的渠道：成功的模型架構(gòu)、有效的訓(xùn)練技巧、關(guān)鍵的數(shù)據(jù)增強(qiáng)策略，都在論文中被詳細(xì)描述，后續(xù)研究可以針對性地借鑒。開源代碼加速了這種知識傳播：GitHub上的實現(xiàn)不僅展示了最終模型，還揭示了超參數(shù)選擇、預(yù)處理流程、集成策略等細(xì)節(jié)。社交媒體和學(xué)術(shù)會議創(chuàng)造了非正式的信息網(wǎng)絡(luò)，研究者們分享失敗嘗試、邊界案例、數(shù)據(jù)特性觀察——所有這些都潛移默化地塑造著后續(xù)模型的設(shè)計。

更嚴(yán)重的是有意的測試集使用。雖然主流會議和期刊禁止直接使用測試集進(jìn)行模型選擇，但「開發(fā)集」的反復(fù)調(diào)試實際上起到了類似作用。研究者們將原始訓(xùn)練集劃分為多個子集，進(jìn)行廣泛的超參數(shù)搜索和架構(gòu)比較，最終選擇在開發(fā)集上表現(xiàn)最好的配置。當(dāng)開發(fā)集與測試集高度相關(guān)時——這在多年使用同一基準(zhǔn)的情況下幾乎必然——這種實踐等價于間接的測試集優(yōu)化。

ImageNet的歷史充分展示了這種動態(tài)。2012年至2017年間，top-5錯誤率從15%降至2%以下，這一進(jìn)步有多少來自真正的算法創(chuàng)新，多少來自對ImageNet特定統(tǒng)計特性的適應(yīng)？后續(xù)分析發(fā)現(xiàn)，許多「改進(jìn)」在更換測試集后消失或大幅縮減。2019年，ImageNet團(tuán)隊發(fā)布了新的測試集ImageNetV2，在嚴(yán)格匹配原始分布的條件下重新收集。結(jié)果顯示，頂級模型在V2上的準(zhǔn)確率比原始測試集低11-15%，且模型在原測試集上的排名與V2上的排名相關(guān)性有限。這一發(fā)現(xiàn)震撼了社區(qū)：我們多年追逐的數(shù)字，究竟測量了什么？

語言模型領(lǐng)域面臨著更復(fù)雜的挑戰(zhàn)。預(yù)訓(xùn)練數(shù)據(jù)集的規(guī)模已達(dá)數(shù)萬億token，幾乎不可能保證其中不包含任何基準(zhǔn)測試材料。MMLU、GSM8K、HumanEval等測試集中的問題，很可能以某種形式出現(xiàn)在Common Crawl、GitHub、教科書網(wǎng)站等預(yù)訓(xùn)練數(shù)據(jù)源中。研究者們開發(fā)了各種「去污染」方法，但徹底的保證幾乎不可能。當(dāng)模型在訓(xùn)練時「見過」測試問題，即使不是以標(biāo)準(zhǔn)形式，其性能評估就失去了科學(xué)意義。

一些機(jī)構(gòu)嘗試通過動態(tài)測試集來緩解這一問題。Kaggle等競賽平臺使用私有測試集，只在提交時返回分?jǐn)?shù)；Chatbot Arena等眾包評估持續(xù)收集人類偏好數(shù)據(jù)，形成不斷更新的排行榜。但這些方法引入了新問題：私有測試集的可解釋性和可審計性降低，動態(tài)評估的可比性和穩(wěn)定性受損。沒有完美的解決方案，只有不同缺陷之間的權(quán)衡。

過擬合問題的深層啟示在于，基準(zhǔn)測試的科學(xué)有效性依賴于一個理想化的假設(shè)：測試集是獨立同分布的「未來數(shù)據(jù)」的代表。但在研究社區(qū)的集體實踐中，測試集被反復(fù)分析、討論、適應(yīng)，其「獨立性」被系統(tǒng)性侵蝕?；鶞?zhǔn)測試的成功——作為進(jìn)步驅(qū)動力——恰恰成為其科學(xué)嚴(yán)謹(jǐn)性的威脅。這是一個結(jié)構(gòu)性悖論，而非可以通過更好的規(guī)則設(shè)計完全解決的工程問題。

五、從實驗室到現(xiàn)實世界：遷移失效的謎團(tuán)

即使我們接受基準(zhǔn)測試分?jǐn)?shù)的某種有效性，一個更根本的問題依然存在：這些分?jǐn)?shù)與現(xiàn)實世界性能之間的關(guān)系是什么？研究者們長期觀察到，基準(zhǔn)測試上的領(lǐng)先不保證實際部署的成功，這種「遷移失效」困擾著從自動駕駛到醫(yī)療診斷的眾多應(yīng)用領(lǐng)域。

遷移失效的原因是多層次的。最表層的是分布偏移：基準(zhǔn)測試數(shù)據(jù)經(jīng)過精心篩選和清洗，而真實數(shù)據(jù)充滿噪聲、異常值和未預(yù)見的情況。ImageNet的圖像質(zhì)量、光照條件、物體姿態(tài)分布，與手機(jī)拍攝的日常照片差異顯著；MMLU的多選題格式與開放式問答的認(rèn)知需求不同；模擬環(huán)境中的機(jī)器人控制策略，面對真實世界的摩擦、磨損和意外干擾時往往失效。

更深層的差異在于評估維度。基準(zhǔn)測試通常優(yōu)化單一指標(biāo)——準(zhǔn)確率、BLEU分?jǐn)?shù)、推理速度——而實際應(yīng)用需要平衡多個相互沖突的目標(biāo)。一個醫(yī)療影像模型可能在基準(zhǔn)測試上達(dá)到99%的準(zhǔn)確率，但如果其錯誤集中在罕見但致命的病例上，或者其置信度校準(zhǔn)不良導(dǎo)致醫(yī)生過度信任，其實際價值就大打折扣。基準(zhǔn)測試的「平均情況」優(yōu)化，掩蓋了「最壞情況」風(fēng)險，而后者往往是高 stakes 應(yīng)用的決定性因素。

還有社會技術(shù)系統(tǒng)的復(fù)雜性?；鶞?zhǔn)測試假設(shè)一個干凈的輸入-輸出映射，而真實部署涉及人機(jī)交互、組織流程、監(jiān)管約束、用戶行為的復(fù)雜網(wǎng)絡(luò)。一個對話系統(tǒng)在標(biāo)準(zhǔn)測試集上表現(xiàn)優(yōu)異，可能在面對真實用戶的非合作行為、邊緣請求或情感需求時崩潰；一個推薦算法在離線評估中提升點擊率，可能在實際使用中加劇信息繭房或引發(fā)用戶反感。這些效應(yīng)難以在基準(zhǔn)測試中捕捉，因為它們依賴于系統(tǒng)與環(huán)境的動態(tài)耦合。

研究社區(qū)對遷移失效的回應(yīng)，是創(chuàng)造更多、更「真實」的基準(zhǔn)。Robustness Gym、CheckList、Dynabench等嘗試引入對抗性測試、行為測試、人機(jī)協(xié)作評估；WILDS、Wilds 2.0等數(shù)據(jù)集強(qiáng)調(diào)分布偏移和領(lǐng)域泛化；各種「現(xiàn)實世界」基準(zhǔn)聲稱捕捉了實際部署的復(fù)雜性。但這些努力面臨一個根本困境：任何可重復(fù)、可比較的基準(zhǔn)都必然是對現(xiàn)實的簡化，而簡化的選擇本身嵌入著價值判斷。更「真實」的基準(zhǔn)往往更昂貴、更慢、更難解釋，在學(xué)術(shù)激勵體系中處于劣勢。

遷移失效還揭示了基準(zhǔn)測試與產(chǎn)業(yè)需求之間的張力?？萍脊拘枰鶞?zhǔn)測試來展示技術(shù)進(jìn)步、獲取投資和人才，但他們也深知基準(zhǔn)測試的局限。內(nèi)部評估通常包含大量未公開的測試集、A/B實驗、用戶研究——這些「真實」評估與公開基準(zhǔn)的關(guān)系復(fù)雜而曖昧。有時公開基準(zhǔn)的領(lǐng)先確實預(yù)示著產(chǎn)品改進(jìn)，有時則是精心策劃的營銷敘事。這種信息不對稱使得外部觀察者難以判斷基準(zhǔn)測試分?jǐn)?shù)的實際意義。

六、基準(zhǔn)測試的科學(xué)：一門新興學(xué)科的輪廓

面對上述種種批評和挑戰(zhàn)，一個自然的反應(yīng)是放棄基準(zhǔn)測試，尋找替代性的進(jìn)步衡量方式。但歷史經(jīng)驗表明，基準(zhǔn)測試的韌性遠(yuǎn)超預(yù)期。它們不斷演化、適應(yīng)、擴(kuò)展，始終占據(jù)著機(jī)器學(xué)習(xí)研究的核心位置。與其簡單地褒貶，不如認(rèn)真對待基準(zhǔn)測試作為一種社會實踐和科學(xué)對象本身——這正是「機(jī)器學(xué)習(xí)基準(zhǔn)測試科學(xué)」的興起背景。

這門新興科學(xué)關(guān)注的核心問題包括：什么是好的基準(zhǔn)測試？如何設(shè)計能夠抵抗過擬合的評估協(xié)議？指標(biāo)與實際性能之間的關(guān)系如何建模？基準(zhǔn)測試如何塑造研究議程和知識生產(chǎn)？不同利益相關(guān)者——研究者、工程師、政策制定者、公眾——對基準(zhǔn)測試有何不同期待？

方法論上，基準(zhǔn)測試科學(xué)借鑒了多個傳統(tǒng)領(lǐng)域?？茖W(xué)計量學(xué)提供了分析研究趨勢和引用模式的工具；科學(xué)技術(shù)研究（STS）關(guān)注基準(zhǔn)測試的社會建構(gòu)和政治經(jīng)濟(jì)；測量理論探討信度、效度、公平性的形式化定義；因果

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.