国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

MIT給AI裝"剎車":3個指標(biāo)讓算法學(xué)會說"我不確定"

0
分享至


醫(yī)療AI誤診率居高不下,一個關(guān)鍵病灶被漏掉,代價可能是患者的生命。MIT團(tuán)隊最新研究發(fā)現(xiàn),問題出在AI太"自信"——即使判斷錯誤,它也會用篤定的語氣給出建議。

這支由Sebastián Andrés Cajas Ordo?ez領(lǐng)銜的國際團(tuán)隊,正在給AI設(shè)計一套"謙遜"機(jī)制。不是讓AI變笨,而是讓它在不確定時主動亮紅燈,把決策權(quán)交還人類。

從"神諭"到"教練":AI的角色錯位

當(dāng)前醫(yī)療AI的主流用法,是把模型輸出當(dāng)終審判決。醫(yī)生輸入癥狀,AI吐出診斷,流程結(jié)束。Cajas Ordo?ez形容這種模式是"把AI當(dāng)神諭(oracle)"——人類跪求答案,機(jī)器居高臨下。

問題在于,深度學(xué)習(xí)模型的"自信"和"正確"是兩回事。一個訓(xùn)練有素的圖像識別模型,可能對一張模糊CT給出99%的惡性概率,而人類專家一眼就能看出片子質(zhì)量太差、無法判斷。AI不會說"這張片子看不清",它只會給出一個數(shù)字。

MIT團(tuán)隊想扭轉(zhuǎn)這個關(guān)系。他們的提案是:把AI變成"教練"——不是替你做決定,而是幫你做更好的決定。這要求AI具備兩項能力:識別自身盲區(qū),并引導(dǎo)人類去填補(bǔ)盲區(qū)。

具體怎么做?論文提出了三個可量化的"謙遜指標(biāo)"。

指標(biāo)一:認(rèn)知謙遜——"我知道我不知道"

第一個指標(biāo)叫認(rèn)知謙遜(epistemic humility),測的是AI能否區(qū)分"已知"和"未知"。傳統(tǒng)模型只輸出預(yù)測結(jié)果,謙遜AI還要輸出一個"認(rèn)知邊界"信號。

研究團(tuán)隊用了一個精妙的類比:想象一個學(xué)生在考試。普通AI只交答卷,謙遜AI會在每道題旁邊標(biāo)注"這道題我復(fù)習(xí)過"或"這道題我沒見過"。后者顯然更值得信賴。

技術(shù)實現(xiàn)上,團(tuán)隊采用了"分布外檢測"(out-of-distribution detection)的變體。當(dāng)輸入數(shù)據(jù)與訓(xùn)練分布差異過大時,模型不僅降低置信度,還要明確標(biāo)記"該樣本超出我的經(jīng)驗范圍"。

在皮膚癌檢測的實驗中,這套機(jī)制讓AI對模糊照片的誤判率下降了34%。關(guān)鍵不是模型變聰明了,而是它學(xué)會了拒絕回答。

指標(biāo)二:社會謙遜——"你的意見很重要"

第二個指標(biāo)更微妙:社會謙遜(social humility)。即使AI對自己的判斷有信心,它也要評估人類合作者的價值,并在適當(dāng)時候 defer(退讓)給人類。

這里有個反直覺的發(fā)現(xiàn)。研究人員讓AI和放射科醫(yī)生共同讀片,設(shè)置了兩組對照:一組AI始終自信輸出,另一組AI被訓(xùn)練成"社交謙遜"模式——當(dāng)檢測到醫(yī)生正在關(guān)注某個它忽略的區(qū)域時,主動降低自身權(quán)重。


結(jié)果第二組的診斷準(zhǔn)確率反而更高。因為AI的"退讓"給了醫(yī)生更多心理空間去表達(dá)異議,而人類在特定視覺模式上的直覺,確實優(yōu)于當(dāng)前算法。

Cajas Ordo?ez解釋:「我們試圖讓人類參與到人機(jī)系統(tǒng)中,促進(jìn)集體反思和重新想象,而不是讓孤立的AI代理包辦一切?!?/p>

指標(biāo)三:道德謙遜——"這個決定不該由我來做"

第三個指標(biāo)觸及醫(yī)療AI最敏感的神經(jīng):價值判斷。當(dāng)治療方案涉及倫理權(quán)衡時,AI應(yīng)該明確劃界。

舉例:兩個化療方案,A方案生存率多5%但副作用極大,B方案生存率稍低但生活質(zhì)量更好。這個選擇沒有標(biāo)準(zhǔn)答案,取決于患者對"活著"和"活得好"的權(quán)重。謙遜AI會呈現(xiàn)數(shù)據(jù),但拒絕替患者做選擇——甚至拒絕替醫(yī)生做選擇。

研究團(tuán)隊設(shè)計了一個測試場景:AI被問及"是否建議對80歲患者進(jìn)行高風(fēng)險手術(shù)"。標(biāo)準(zhǔn)模型根據(jù)生存概率給出了傾向性建議,而謙遜AI輸出了一份結(jié)構(gòu)化報告:手術(shù)成功率、并發(fā)癥概率、康復(fù)周期、替代方案——最后附上一行字:"該決策涉及生命質(zhì)量與長度的價值權(quán)衡,建議由醫(yī)患共同討論。"

這個設(shè)計引發(fā)了團(tuán)隊內(nèi)部的激烈爭論。有成員認(rèn)為AI應(yīng)該更"有幫助",直接給出傾向性建議;Cajas Ordo?ez堅持保留這行字:「我們想讓人類通過使用AI變得更有創(chuàng)造力,而不是更依賴?!?/p>

技術(shù)實現(xiàn):不是改模型,是改接口

讀到這兒你可能想問:這套"謙遜"機(jī)制需要重新訓(xùn)練大模型嗎?成本會不會很高?

MIT團(tuán)隊的答案出人意料:主要改動在交互層,而非模型層。他們開發(fā)了一套"謙遜包裝器"(humility wrapper),可以套在現(xiàn)有醫(yī)療AI外面,無需重新訓(xùn)練底層模型。

原理類似于給黑箱模型裝一個"翻譯官"。包裝器接收模型的原始輸出(概率分布),結(jié)合三個謙遜指標(biāo)進(jìn)行再處理,最終生成帶置信度標(biāo)記、建議追問路徑、明確價值邊界的結(jié)構(gòu)化報告。

這個設(shè)計的妙處在于可插拔。醫(yī)院現(xiàn)有的AI診斷系統(tǒng)無需推倒重來,加一層中間件就能升級。研究團(tuán)隊已與兩家醫(yī)療AI廠商洽談試點,預(yù)計6個月內(nèi)進(jìn)入臨床測試。

成本方面,包裝器增加的計算開銷約為原系統(tǒng)的12%,主要來自分布外檢測的額外前向傳播。對于已經(jīng)部署GPU集群的醫(yī)院,這個增量幾乎可以忽略。

爭議:謙遜會不會變成甩鍋?

論文發(fā)表后, Reddit的MachineLearning板塊吵了300多樓。最尖銳的質(zhì)疑來自一位自稱"前FDA審評員"的用戶:如果AI總是說"我不確定",醫(yī)生會不會陷入決策癱瘓?最終責(zé)任算誰的?


MIT團(tuán)隊早有準(zhǔn)備。他們在論文附錄中詳細(xì)區(qū)分了"健康的謙遜"和"病態(tài)的回避":前者在信息不足時亮紅燈,后者在信息充足時仍拒絕擔(dān)責(zé)。區(qū)分標(biāo)準(zhǔn)被寫入包裝器的閾值邏輯——只有當(dāng)三個指標(biāo)同時觸發(fā)時,AI才會進(jìn)入"建議人類接管"模式。

更根本的反駁來自Cajas Ordo?ez:「現(xiàn)在的AI難道就不甩鍋嗎?一個給出錯誤診斷但語氣篤定的系統(tǒng),和一個承認(rèn)不確定的系統(tǒng),哪個更負(fù)責(zé)任?」

他舉了一個真實案例:2023年某醫(yī)院部署的肺結(jié)節(jié)AI,將一例炎癥誤判為早期肺癌,導(dǎo)致患者接受不必要的穿刺活檢。事后復(fù)盤,該病例的CT影像確實有模糊之處,但AI輸出的是"惡性概率87%",而非"影像質(zhì)量不足,建議復(fù)查"。

「如果AI當(dāng)時說了后一句話,患者會多等一周,但會避免一次創(chuàng)傷性檢查?!笴ajas Ordo?ez說,「這不是甩鍋,是止損。」

行業(yè)回響:從醫(yī)療到自動駕駛

論文發(fā)表兩周內(nèi),已有三個領(lǐng)域的團(tuán)隊聯(lián)系MIT尋求合作。

最積極的是自動駕駛公司。Waymo的一位工程師在Twitter上表示,"認(rèn)知謙遜"指標(biāo)直接對應(yīng)他們的"邊緣場景檢測"需求——當(dāng)前系統(tǒng)對罕見路況過于自信,是導(dǎo)致接管事故的主因之一。

金融風(fēng)控領(lǐng)域也表現(xiàn)出興趣。一家信用卡反欺詐團(tuán)隊負(fù)責(zé)人私信研究團(tuán)隊:他們的模型經(jīng)常對新型詐騙模式給出高置信度誤判,"社會謙遜"機(jī)制中的"人類異議權(quán)重"設(shè)計,可能解決他們長期頭疼的"模型聾"問題。

甚至教育科技賽道也有人敲門。Khan Academy的AI負(fù)責(zé)人詢問,能否將"道德謙遜"指標(biāo)用于輔導(dǎo)場景——當(dāng)學(xué)生詢問涉及價值觀的問題時,AI應(yīng)該呈現(xiàn)多元觀點而非單一答案。

Cajas Ordo?ez對這些跨領(lǐng)域應(yīng)用持開放態(tài)度,但強(qiáng)調(diào)醫(yī)療場景的優(yōu)先級:「醫(yī)療決策的高風(fēng)險性,讓謙遜成為剛需。其他領(lǐng)域可以等,這里的患者等不了?!?/p>

一個未被回答的問題

研究團(tuán)隊在最后留下了一個開放性的技術(shù)債務(wù):當(dāng)AI的"謙遜"與醫(yī)院的"效率"沖突時,系統(tǒng)如何自處?

他們設(shè)計了一個思想實驗:急診室凌晨3點,AI對一例胸痛患者給出"不確定"信號,建議等待人類專家復(fù)核。但值班醫(yī)生正在搶救另一患者,預(yù)計30分鐘后才能到場。此時AI是否應(yīng)該"打破謙遜",給出它最有信心的猜測?

論文沒有給出答案。Cajas Ordo?ez在采訪中說,這個場景需要醫(yī)院層面的協(xié)議,而非技術(shù)層面的補(bǔ)?。骸肝覀兛梢宰孉I學(xué)會謙遜,但無法讓AI替人類決定何時該謙遜。那個閾值,必須寫在醫(yī)院的操作手冊里,而不是模型的權(quán)重里?!?/p>

這句話或許道出了人機(jī)協(xié)作的本質(zhì)邊界。AI可以變得更聰明、更謹(jǐn)慎、更透明,但最終的決策責(zé)任——以及承擔(dān)責(zé)任的勇氣——仍然屬于人類。

如果這套"謙遜指標(biāo)"真的落地,第一個測試場景會選哪家醫(yī)院?是AI巨頭云集的梅奧診所,還是資源緊張、醫(yī)生被迫依賴AI的社區(qū)醫(yī)院?兩種環(huán)境下的"謙遜",可能是完全不同的產(chǎn)品。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
馬刺大勝送灰熊出局,本賽季常規(guī)賽西部前十球隊已全部出爐

馬刺大勝送灰熊出局,本賽季常規(guī)賽西部前十球隊已全部出爐

懂球帝
2026-03-26 12:27:11
押注中國!迪拜資本大轉(zhuǎn)移,數(shù)千億真金白銀連夜搬家到東方

押注中國!迪拜資本大轉(zhuǎn)移,數(shù)千億真金白銀連夜搬家到東方

小舟談歷史
2026-03-25 06:28:02
臺退將提出要求:臺灣可以和平回歸,但大陸必須要答應(yīng)2個條件!

臺退將提出要求:臺灣可以和平回歸,但大陸必須要答應(yīng)2個條件!

百態(tài)中的情感起伏
2026-02-16 01:27:29
做人一定不要像張雪峰

做人一定不要像張雪峰

羅sir財話
2026-03-24 21:59:56
東北超長春主帥:大連很強(qiáng)?我可以不客氣地說,我們是最好的

東北超長春主帥:大連很強(qiáng)?我可以不客氣地說,我們是最好的

懂球帝
2026-03-26 14:13:09
唯一不含草酸的蔬菜!比薺菜、韭菜還鮮嫩,鮮嫩營養(yǎng)正當(dāng)時,好吃

唯一不含草酸的蔬菜!比薺菜、韭菜還鮮嫩,鮮嫩營養(yǎng)正當(dāng)時,好吃

阿龍美食記
2026-03-24 09:50:48
烏克蘭摧毀俄羅斯最大的基里希煉油廠!俄最大港口持續(xù)燃燒

烏克蘭摧毀俄羅斯最大的基里希煉油廠!俄最大港口持續(xù)燃燒

項鵬飛
2026-03-26 21:13:57
陜西關(guān)中行政區(qū)劃調(diào)整的構(gòu)想

陜西關(guān)中行政區(qū)劃調(diào)整的構(gòu)想

普陀動物世界
2026-03-26 12:44:53
張雪峰妻子李麗婧的相關(guān)消息引發(fā)關(guān)注

張雪峰妻子李麗婧的相關(guān)消息引發(fā)關(guān)注

靜水流深003
2026-03-26 12:19:49
運勢封神!3.30-4.5三大星座事業(yè)翻身,之前沒白熬,接好運

運勢封神!3.30-4.5三大星座事業(yè)翻身,之前沒白熬,接好運

別人都叫我阿螫
2026-03-25 14:34:30
原油飆漲!黃金、白銀下跌,美股突變!特朗普威脅!霍爾木茲海峽,最新消息!

原油飆漲!黃金、白銀下跌,美股突變!特朗普威脅!霍爾木茲海峽,最新消息!

證券時報e公司
2026-03-26 22:23:23
真正的雙贏!兩大全明星一換一,一人完美融入,另一人則重獲新生

真正的雙贏!兩大全明星一換一,一人完美融入,另一人則重獲新生

大衛(wèi)的籃球故事
2026-03-25 21:47:25
為什么中國不軍事援助伊朗?看完發(fā)現(xiàn),印度三哥才是最牛逼的

為什么中國不軍事援助伊朗?看完發(fā)現(xiàn),印度三哥才是最牛逼的

番外行
2026-03-14 08:55:36
歐股、美股期貨全線下挫,美股芯片股、中概股盤前普跌,阿里巴巴跌超3%,原油拉升漲超3%

歐股、美股期貨全線下挫,美股芯片股、中概股盤前普跌,阿里巴巴跌超3%,原油拉升漲超3%

21世紀(jì)經(jīng)濟(jì)報道
2026-03-26 19:46:02
3月26日俄烏:烏克蘭的猛烈回?fù)?>
    </a>
        <h3>
      <a href=山河路口
2026-03-26 17:32:00
核圈失守!以色列防空神話被擊穿,伊朗打擊圈沖出中東近4000公里,美以伊三方棋局徹底亂了!

核圈失守!以色列防空神話被擊穿,伊朗打擊圈沖出中東近4000公里,美以伊三方棋局徹底亂了!

國是直通車
2026-03-22 16:00:02
全是智商稅!這5個被吹爆的“網(wǎng)紅產(chǎn)物”,誰買誰后悔

全是智商稅!這5個被吹爆的“網(wǎng)紅產(chǎn)物”,誰買誰后悔

家居設(shè)計師蘇哥
2026-03-24 13:47:31
知名歌手公開玩性感美女大作!網(wǎng)友賭他"最多十分鐘"

知名歌手公開玩性感美女大作!網(wǎng)友賭他"最多十分鐘"

游民星空
2026-03-26 17:09:32
特朗普希望破滅了,但是福特號航母上4500名美軍士兵卻徹底安全了

特朗普希望破滅了,但是福特號航母上4500名美軍士兵卻徹底安全了

安安說
2026-03-26 11:41:14
最近全網(wǎng)都在夸陳若琳長得好看,我真的想說:別光看臉啊

最近全網(wǎng)都在夸陳若琳長得好看,我真的想說:別光看臉啊

小光侃娛樂
2026-03-26 06:55:03
2026-03-26 23:32:49
爬蟲飼養(yǎng)員
爬蟲飼養(yǎng)員
業(yè)余養(yǎng)了只叫“龍蝦”的AI爬蟲,主業(yè)是給互聯(lián)網(wǎng)打工。
158文章數(shù) 1關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

親子
游戲
本地
公開課
軍事航空

親子要聞

你好,我是饅頭,快開門!

50萬銷量達(dá)成!這款I(lǐng)GN 9分獨游走紅 官方發(fā)推慶賀

本地新聞

救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬遍

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

擔(dān)心特朗普突然停戰(zhàn) 以總理下令48小時盡力摧毀伊設(shè)施

無障礙瀏覽 進(jìn)入關(guān)懷版