国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

別再迷信AI跑分了:考試成績好,工作干不了

0
分享至


(來源:麻省理工科技評論)

幾十年來,人類評估 AI 能力的方法論,都是圍繞著“機器能否超越人類”的思路展開的。從國際象棋到高等數(shù)學,從編程到寫作,AI 模型和應用的性能都是讓它和人類的表現(xiàn)水準做對比來檢驗的。

這種框架很有吸引力:在有明確對錯答案的獨立問題上做 AI 與人類的比較,容易標準化、容易比較、容易優(yōu)化。它能生成排行榜和新聞標題。

但問題在于:AI 被使用的方法,和 AI 被測試的方法,是兩種完全不同的體系。雖然研究人員和行業(yè)已經(jīng)開始改進基準測試,從靜態(tài)測試轉(zhuǎn)向更動態(tài)的評估方法,但這些創(chuàng)新只解決了部分問題。因為它們?nèi)匀辉诿撾x人類團隊和組織工作流程的條件下評估 AI 的表現(xiàn),而 AI 的真實性能恰恰是在這些環(huán)境中展現(xiàn)的。

AI 在真空中被逐項評估,但它的實際使用場景是混亂而復雜的,通常需要與不止一個人互動。它的表現(xiàn)(或表現(xiàn)不佳)只有經(jīng)過長時間使用才能顯現(xiàn)。這種錯位讓我們誤判了 AI 的能力,忽視了系統(tǒng)性風險,也對其經(jīng)濟和社會后果做出了錯誤估計。

為了改變這一狀況,是時候從狹隘的評估方法轉(zhuǎn)向一種新的基準測試了,這種測試應當評估 AI 系統(tǒng)在更長時間維度內(nèi)、在人類團隊、工作流程和組織中的實際表現(xiàn)。自 2022 年以來,我研究了 AI 在英國、美國和亞洲的小型企業(yè)、醫(yī)療、人道主義、非營利和高等教育機構(gòu)中的實際部署情況,也深入了解了倫敦和硅谷領先的 AI 設計生態(tài)。我提出了一種不同的方法,稱之為 HAIC 基準測試——即“人類-AI 場景化評估”(Human–AI, Context-Specific Evaluation)。



當前基準測試的盲區(qū)

對政府和企業(yè)而言,AI 基準分數(shù)看起來比供應商的自我宣傳更客觀。它們是判斷一個 AI 模型或應用是否“夠格”投入實際部署的關鍵依據(jù)。想象一個 AI 模型在最前沿的基準測試上取得了亮眼的技術(shù)分數(shù)——98% 的準確率、突破性的速度、令人信服的輸出。憑借這些成績,機構(gòu)可能決定采用這個模型,投入大量財務和技術(shù)資源進行采購和集成。

但一旦投入使用,基準成績和真實表現(xiàn)之間的差距就迅速暴露出來了。以大量通過 FDA 批準的、能比放射科專家更快更準地判讀醫(yī)學影像的 AI 模型為例。在從加州腹地到倫敦郊區(qū)的醫(yī)院放射科,我親眼看到工作人員使用排名靠前的放射科 AI 應用。他們反復需要花額外時間將 AI 的輸出結(jié)果與醫(yī)院特定的報告標準和各國不同的監(jiān)管要求進行對照解讀。一個在真空中測試時看似能提升生產(chǎn)力的 AI 工具,在實踐中反而帶來了延誤。

用來評估醫(yī)療 AI 模型的基準測試并沒有捕捉到醫(yī)療決策的真實過程。醫(yī)院依靠的是放射科醫(yī)生、腫瘤科醫(yī)生、物理師、護士等多學科團隊共同會診患者,治療方案很少取決于一個靜態(tài)的決定,它隨著幾天或幾周內(nèi)出現(xiàn)的新信息不斷演進。決策往往產(chǎn)生于建設性的討論,需要在專業(yè)標準、患者偏好和患者長期健康這一共同目標之間做出權(quán)衡。難怪即使得分很高的 AI 模型,一旦遇到真實臨床診療中復雜的協(xié)作流程,就難以兌現(xiàn)承諾的表現(xiàn)。

我在其他行業(yè)的研究中也看到了同樣的模式:即使在標準化測試中表現(xiàn)出色的 AI 模型,一旦嵌入真實的工作環(huán)境,表現(xiàn)就達不到預期。

當高基準分數(shù)無法轉(zhuǎn)化為真實表現(xiàn)時,即使得分最高的 AI 也很快會被丟進 AI 墳場”。代價是巨大的:時間、精力和資金都打了水漂。長此以往,這種反復的經(jīng)歷會侵蝕組織對 AI 的信心,在醫(yī)療等關鍵領域,還可能侵蝕公眾對這項技術(shù)的信任。

當現(xiàn)有的基準測試只能提供關于 AI 模型是否適合實際使用的片面甚至誤導性信號時,就會造成監(jiān)管盲區(qū):監(jiān)管框架是基于不反映現(xiàn)實的指標來制定的。這也讓組織和政府承擔了在敏感的真實場景中測試 AI 的風險,而且往往缺乏資源和支持。



如何構(gòu)建更好的測試

要彌合基準測試和真實表現(xiàn)之間的差距,我們必須關注 AI 模型實際使用的條件。核心問題是:AI 能否作為人類團隊中的一個有效參與者發(fā)揮作用?它能否產(chǎn)生持續(xù)的、集體性的價值?

通過我對多個行業(yè) AI 部署的研究,我看到一些組織已經(jīng)在有意識、實驗性地向我所倡導的 HAIC 基準測試方向邁進。

HAIC 基準測試從四個維度重構(gòu)了現(xiàn)有的評估框架:

分析單元而言,應從個人單任務表現(xiàn)轉(zhuǎn)向團隊和工作流程表現(xiàn);從時間指標角度,應從有標準答案的一次性測試轉(zhuǎn)向長期影響評估;從性能指標而言,應從正確性和速度轉(zhuǎn)向組織層面的成效、協(xié)作質(zhì)量和錯誤可發(fā)現(xiàn)性;從系統(tǒng)效應而言,應從孤立的輸出轉(zhuǎn)向上下游連鎖效應(系統(tǒng)效應)。

在這套方法開始被應用的組織中,第一步是改變分析單元。

以 2021 年至 2024 年間英國一家醫(yī)院體系為例,他們把問題從“某個醫(yī)療 AI 應用是否提高了診斷準確率”擴展為“AI 在醫(yī)院多學科團隊中的存在如何影響準確率、協(xié)作和集體討論”。醫(yī)院專門評估了使用和未使用 AI 的人類團隊在協(xié)作和討論方面的差異。院內(nèi)外的多方利益相關者共同確定了評估指標,比如 AI 如何影響集體推理、它是否能發(fā)現(xiàn)被忽略的考量、它是加強還是削弱了協(xié)作,以及它是否改變了已有的風險管控和合規(guī)實踐。

這一轉(zhuǎn)變具有根本性意義。在系統(tǒng)層面效應比單項任務準確率更重要的高風險場景中,這一點尤為關鍵。它可能有助于重新校正那些被夸大的生產(chǎn)力預期——這些預期迄今為止主要建立在提升個人任務表現(xiàn)的承諾之上。

在這個基礎建立之后,HAIC 基準測試才能開始納入時間維度。

今天的基準測試像學??荚?,是一次性的、標準化的準確率測試。但真正的職業(yè)能力是以不同的方式來評估的。初級醫(yī)生和律師是在真實工作流程中被持續(xù)考核的,有督導、有反饋機制、有問責體系。能力評估是在一段時間內(nèi)、在具體的環(huán)境中進行的,因為勝任力是關系性的。如果 AI 系統(tǒng)要與專業(yè)人士協(xié)同工作,它們的影響也應當以縱向視角來評判,反映其表現(xiàn)在反復互動中如何演變。

我在一個人道主義領域的案例研究中看到了 HAIC 這一維度的應用。在 18 個月的時間里,一個 AI 系統(tǒng)在真實工作流程中被持續(xù)評估,重點關注其錯誤的可發(fā)現(xiàn)性,也就是人類團隊能否方便地識別和糾正錯誤。這份長期的“錯誤可發(fā)現(xiàn)性記錄”讓相關組織能夠設計和測試針對具體場景的安全護欄,在 AI 不可避免會偶爾犯錯的前提下促進對系統(tǒng)的信任。

更長的時間維度還能揭示短期基準測試忽略的系統(tǒng)層面后果。一個 AI 應用可能在某個狹窄的診斷任務上超越單個醫(yī)生,但未能改善多學科決策。更糟糕的是,它可能引入系統(tǒng)性的扭曲:過早地讓團隊錨定在看似合理但并不完整的答案上,增加人們的認知負擔,或者在下游環(huán)節(jié)產(chǎn)生低效,抵消了 AI 使用點上的速度和效率收益。這些連鎖效應往往是現(xiàn)有基準測試看不到的,卻是理解真實影響的核心。

HAIC 方法確實會讓基準測試變得更復雜、更消耗資源、更難標準化。但如果我們繼續(xù)在脫離真實工作環(huán)境的無菌條件下評估 AI,就會一直誤解它真正能為我們做什么、不能做什么。要在真實場景中負責任地部署 AI,我們必須衡量真正重要的東西:不僅僅是一個模型獨自能做什么,而是當真實世界中的人和團隊與它協(xié)作時,它促成了什么,又破壞了什么。

https://www.technologyreview.com/2026/03/31/1134833/ai-benchmarks-are-broken-heres-what-we-need-instead/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
西方眼紅了!科威特豪擲300億,將國運全盤托付,指名只要中國干

西方眼紅了!科威特豪擲300億,將國運全盤托付,指名只要中國干

閱識
2026-04-10 10:02:18
搶在鄭麗文返臺前,解放軍定調(diào)統(tǒng)一,長鷹8升空,航程超三千公里

搶在鄭麗文返臺前,解放軍定調(diào)統(tǒng)一,長鷹8升空,航程超三千公里

影孖看世界
2026-04-10 23:09:08
48架F-35壓境,美日撕破臉!王毅專機直插平壤,中朝抄了美軍后路

48架F-35壓境,美日撕破臉!王毅專機直插平壤,中朝抄了美軍后路

阿校談史
2026-04-11 09:09:07
一場4-0!讓熱刺跌入降級區(qū):后7場拿15分有望保級,森林有難

一場4-0!讓熱刺跌入降級區(qū):后7場拿15分有望保級,森林有難

體育知多少
2026-04-11 10:33:16
一戰(zhàn)定乾坤!U20女足亞洲杯8強:中國vs烏茲別克斯坦 贏家晉級世青賽

一戰(zhàn)定乾坤!U20女足亞洲杯8強:中國vs烏茲別克斯坦 贏家晉級世青賽

愛奇藝體育
2026-04-11 09:08:04
2026年江蘇省養(yǎng)老金調(diào)整前瞻:方案發(fā)布時間參考與個人金額推演!

2026年江蘇省養(yǎng)老金調(diào)整前瞻:方案發(fā)布時間參考與個人金額推演!

云鵬敘事
2026-04-11 12:14:51
鄭麗文:尊重2300萬臺灣人意愿,絕不能武統(tǒng)!洪秀柱:當然可以打

鄭麗文:尊重2300萬臺灣人意愿,絕不能武統(tǒng)!洪秀柱:當然可以打

剛哥說法365
2025-11-01 17:15:20
風流成性 貪財好色,曾志偉與喬妹的合照,戳穿了內(nèi)娛的"隱形規(guī)則

風流成性 貪財好色,曾志偉與喬妹的合照,戳穿了內(nèi)娛的"隱形規(guī)則

阿訊說天下
2026-04-11 10:55:13
你最接近生理極限的一次經(jīng)歷是什么?網(wǎng)友分享讓人目瞪口呆!

你最接近生理極限的一次經(jīng)歷是什么?網(wǎng)友分享讓人目瞪口呆!

夜深愛雜談
2026-04-09 19:39:13
西部季后賽最有懸念的一場比賽 不僅關乎首輪對陣 還影響次輪對陣

西部季后賽最有懸念的一場比賽 不僅關乎首輪對陣 還影響次輪對陣

大話火箭隊
2026-04-11 14:46:34
毛主席時代建造的3座大橋,撞不倒、壓不塌、炸不壞,屹立至今

毛主席時代建造的3座大橋,撞不倒、壓不塌、炸不壞,屹立至今

豬小艷吖
2026-04-09 16:34:44
前國際級裁判:姆巴佩應該得到一個點球;VAR不介入沒有問題

前國際級裁判:姆巴佩應該得到一個點球;VAR不介入沒有問題

懂球帝
2026-04-11 07:05:10
汪寶兒回京落戶,祖母張?zhí)m全程操盤,父親汪小菲不見蹤影

汪寶兒回京落戶,祖母張?zhí)m全程操盤,父親汪小菲不見蹤影

人間煙火記事本
2026-04-11 11:29:51
報應來了?歐美工廠大面積癱瘓,現(xiàn)在來求中國復工?晚了!

報應來了?歐美工廠大面積癱瘓,現(xiàn)在來求中國復工?晚了!

月光作箋a
2026-04-10 21:14:58
國乒用人失誤!剛公布世乒賽陣容就出問題,鄧亞萍卻點出王皓無奈

國乒用人失誤!剛公布世乒賽陣容就出問題,鄧亞萍卻點出王皓無奈

三十年萊斯特城球迷
2026-04-10 21:16:39
越來越多的人查出腸癌!醫(yī)生含淚苦勸:冰箱久置的這4物是幫兇

越來越多的人查出腸癌!醫(yī)生含淚苦勸:冰箱久置的這4物是幫兇

岐黃傳人孫大夫
2026-03-17 23:25:03
暴跌95%!一代神車退場了,比燃油車賣不掉更可怕的事正在發(fā)生

暴跌95%!一代神車退場了,比燃油車賣不掉更可怕的事正在發(fā)生

毒sir財經(jīng)
2026-04-10 16:25:00
后悔了!曼聯(lián)棄將的真情告白:與阿莫林決裂是職業(yè)生涯最大的錯誤

后悔了!曼聯(lián)棄將的真情告白:與阿莫林決裂是職業(yè)生涯最大的錯誤

體壇鑒春秋
2026-04-11 11:59:23
真敢說!伊朗談判團抵達當天,美國喊話稱中國有“義不容辭之責”

真敢說!伊朗談判團抵達當天,美國喊話稱中國有“義不容辭之責”

健身狂人
2026-04-11 13:41:45
這是15歲孩子?非洲學校賽事遭打假:奪冠后一群30歲大叔上臺領獎

這是15歲孩子?非洲學校賽事遭打假:奪冠后一群30歲大叔上臺領獎

風過鄉(xiāng)
2026-04-11 07:40:31
2026-04-11 15:16:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16564文章數(shù) 514863關注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

媒體:多套雷達系統(tǒng)受損 美國尷尬發(fā)現(xiàn)"又要求助中國"

頭條要聞

媒體:多套雷達系統(tǒng)受損 美國尷尬發(fā)現(xiàn)"又要求助中國"

體育要聞

換帥之后,他們從降級區(qū)沖到升級區(qū)

娛樂要聞

浪姐7淘汰 該走的沒走,不該走的走了

財經(jīng)要聞

從日本翻身看:這次誰能扛住高油價?

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

藝術(shù)
游戲
數(shù)碼
公開課
軍事航空

藝術(shù)要聞

17位當代青年畫家油畫欣賞

打架還會爆衣!國產(chǎn)大尺度新游登陸Steam 首發(fā)打85折

數(shù)碼要聞

4月15日見!索尼INZONE英縱電競外設新品官宣

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗議長帶四名遇難兒童照片赴美伊談判

無障礙瀏覽 進入關懷版