国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI學(xué)霸遇專業(yè)就懵圈!新研究揭老底:離開(kāi)日常場(chǎng)景,準(zhǔn)確率腰斬

0
分享至

哈嘍,大家好,我是小方,今天,我們主要來(lái)看看,那些在屏幕上能說(shuō)會(huì)道的AI大模型,一旦被扔進(jìn)真實(shí)世界的復(fù)雜場(chǎng)景,比如手術(shù)室或工廠車間,它們的“眼睛”和“腦子”還能不能跟上。





相信大家都習(xí)慣了AI生成美圖、對(duì)答如流的樣子,仿佛它無(wú)所不知,但最近一項(xiàng)來(lái)自華東師范大學(xué)等機(jī)構(gòu)的突破性研究,給這種樂(lè)觀潑了一盆冷水,研究團(tuán)隊(duì)創(chuàng)建了一個(gè)名為“EgoCross”的評(píng)測(cè)基準(zhǔn),專門考核AI模型在手術(shù)、工業(yè)維修、極限運(yùn)動(dòng)和動(dòng)物視角這四個(gè)專業(yè)領(lǐng)域的第一視角視頻理解能力。



結(jié)果呢?即使是頂尖的GPT-4.1、Gemini等模型,表現(xiàn)也堪稱“滑鐵盧”——在選擇題上的準(zhǔn)確率驟降至55%以下,開(kāi)放式問(wèn)答更是低于35%,說(shuō)白了,讓AI看著主刀醫(yī)生的視角選下一把手術(shù)鉗,或者看著維修工的視角判斷電路板故障,它很可能就懵了,這跟它在“如何切菜”這類日常問(wèn)題上的嫻熟表現(xiàn),形成了鮮明對(duì)比。



為什么會(huì)出現(xiàn)這種斷崖式的性能下跌?研究發(fā)現(xiàn),核心問(wèn)題在于“領(lǐng)域差異”,這不僅僅是畫面從廚房變成了手術(shù)室那么簡(jiǎn)單。



首先,專業(yè)細(xì)節(jié)要求極高,日常生活中,識(shí)別“一把刀”可能就夠了,但在手術(shù)中,模型必須精確區(qū)分“抓鉗”、“手術(shù)刀”和“雙極電凝鑷”,每一種器械的用途和出現(xiàn)時(shí)機(jī)都關(guān)乎生命。



視覺(jué)條件極端惡劣,極限運(yùn)動(dòng)視頻充滿劇烈抖動(dòng)和模糊幀,動(dòng)物視角則高度、運(yùn)動(dòng)軌跡完全不符合人類習(xí)慣。





其實(shí),這項(xiàng)研究指出的問(wèn)題,在最近的一些真實(shí)技術(shù)應(yīng)用中已經(jīng)聽(tīng)到了回響,就在上個(gè)月,國(guó)內(nèi)某知名汽車品牌在測(cè)試其自動(dòng)駕駛系統(tǒng)的城市通勤能力時(shí),工程師就發(fā)現(xiàn),系統(tǒng)在面對(duì)一場(chǎng)突如其來(lái)的、混雜著冰雹的暴雨時(shí),對(duì)路況和障礙物的判斷能力明顯下降。



研發(fā)負(fù)責(zé)人對(duì)媒體坦言,盡管模型在數(shù)千小時(shí)的晴好天氣和普通雨天數(shù)據(jù)中訓(xùn)練得很好,但對(duì)于這種極端且少見(jiàn)的“強(qiáng)對(duì)流天氣混合降水”場(chǎng)景,感知模塊的泛化能力遇到了瓶頸,這本質(zhì)上也是“領(lǐng)域差異”問(wèn)題——訓(xùn)練數(shù)據(jù)的主要“領(lǐng)域”是常規(guī)天氣,而現(xiàn)實(shí)拋來(lái)了一個(gè)分布之外的“新領(lǐng)域”。



同樣,在工業(yè)質(zhì)檢中,一個(gè)能精準(zhǔn)識(shí)別標(biāo)準(zhǔn)零件瑕疵的AI視覺(jué)系統(tǒng),當(dāng)生產(chǎn)線更換了一種表面反光特性完全不同的新材料時(shí),誤檢率可能會(huì)急劇上升。這些活生生的例子都在告訴我們,AI要真正在嚴(yán)苛的現(xiàn)實(shí)世界里“扛事”,遠(yuǎn)不是把實(shí)驗(yàn)室指標(biāo)做高那么簡(jiǎn)單。



面對(duì)短板,研究人員也在積極尋找解藥。EgoCross團(tuán)隊(duì)嘗試了幾種方法。最直接的是“提示學(xué)習(xí)”,就像考試前給考生劃重點(diǎn),在問(wèn)題前加上“這是一個(gè)手術(shù)視頻…”的提示,能稍微喚醒模型的一些相關(guān)知識(shí),但提升有限,更有效的方法是“監(jiān)督微調(diào)”,相當(dāng)于讓AI進(jìn)行專項(xiàng)特訓(xùn),用特定領(lǐng)域的數(shù)據(jù)去調(diào)整模型參數(shù),在工業(yè)領(lǐng)域數(shù)據(jù)上微調(diào)后,模型性能提升了接近20%。



目前看來(lái)最有潛力的是“強(qiáng)化學(xué)習(xí)”,它讓AI像學(xué)生做模擬題一樣,自己生成多個(gè)答案,然后由一個(gè)“獎(jiǎng)勵(lì)模型”評(píng)判對(duì)錯(cuò)并打分,通過(guò)不斷試錯(cuò)來(lái)優(yōu)化策略,這種方法帶來(lái)了平均22個(gè)百分點(diǎn)的顯著提升,這些探索雖然初步,但指明了方向:要讓AI變得更可靠,可能需要更精巧的、針對(duì)性的訓(xùn)練機(jī)制,而不僅僅是擴(kuò)大通用數(shù)據(jù)的規(guī)模。



說(shuō)到底,這項(xiàng)研究像一次精準(zhǔn)的“體檢”,暴露了當(dāng)前大模型光鮮外表下的能力邊界,它提醒我們,通往真正穩(wěn)健、可信賴的人工智能,道路還很長(zhǎng),但每一次對(duì)局限的清晰認(rèn)知,都是邁向下一步的堅(jiān)實(shí)基石。



未來(lái),隨著更多針對(duì)性的數(shù)據(jù)和訓(xùn)練方法的出現(xiàn),或許有一天,AI不僅能聊家常,還能成為各行各業(yè)真正得力的專業(yè)助手。

聲明:個(gè)人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
多地整治“世襲崗”,網(wǎng)友:都是交叉安置,換形式不變本質(zhì),為啥

多地整治“世襲崗”,網(wǎng)友:都是交叉安置,換形式不變本質(zhì),為啥

你食不食油餅
2025-12-25 23:38:53
球員身價(jià)2025排行榜!18歲亞馬爾登頂,皇馬10人躋身前100

球員身價(jià)2025排行榜!18歲亞馬爾登頂,皇馬10人躋身前100

奧拜爾
2025-12-26 21:35:25
和睦家回應(yīng)闞清子生產(chǎn)出事:無(wú)醫(yī)療糾紛,醫(yī)護(hù)人員沒(méi)泄露患者隱私

和睦家回應(yīng)闞清子生產(chǎn)出事:無(wú)醫(yī)療糾紛,醫(yī)護(hù)人員沒(méi)泄露患者隱私

八斗小先生
2025-12-26 19:14:18
上海情侶在塞班島“激情”結(jié)了個(gè)婚?回國(guó)想分手,傻眼了:需訴訟離婚

上海情侶在塞班島“激情”結(jié)了個(gè)婚?回國(guó)想分手,傻眼了:需訴訟離婚

環(huán)球網(wǎng)資訊
2025-12-26 11:05:05
內(nèi)行人預(yù)測(cè)2026年大勢(shì),4大現(xiàn)象席卷全國(guó)!

內(nèi)行人預(yù)測(cè)2026年大勢(shì),4大現(xiàn)象席卷全國(guó)!

老特有話說(shuō)
2025-12-25 12:01:20
王菲西藏祈福,頭戴綠頭巾,素顏下眼袋好明顯,歲月不饒人啊

王菲西藏祈福,頭戴綠頭巾,素顏下眼袋好明顯,歲月不饒人啊

韓馳
2025-12-26 22:37:49
小區(qū)樓上天天晚上都有女的大聲叫。。。

小區(qū)樓上天天晚上都有女的大聲叫。。。

微微熱評(píng)
2025-12-24 00:26:04
李關(guān)定辭去寧波市副市長(zhǎng)職務(wù)

李關(guān)定辭去寧波市副市長(zhǎng)職務(wù)

澎湃新聞
2025-12-26 21:32:21
國(guó)安部:某境外勢(shì)力通過(guò)深度偽造技術(shù)生成虛假視頻,企圖向境內(nèi)傳播制造恐慌

國(guó)安部:某境外勢(shì)力通過(guò)深度偽造技術(shù)生成虛假視頻,企圖向境內(nèi)傳播制造恐慌

澎湃新聞
2025-12-26 08:29:08
許亞軍捧著,段奕宏護(hù)著,郭京飛寵著,演了55部戲,41歲終于紅了

許亞軍捧著,段奕宏護(hù)著,郭京飛寵著,演了55部戲,41歲終于紅了

韓馳
2025-12-22 17:20:44
日本11月失業(yè)率為2.6%

日本11月失業(yè)率為2.6%

每日經(jīng)濟(jì)新聞
2025-12-26 07:42:04
北京一大型醫(yī)院停業(yè)!

北京一大型醫(yī)院停業(yè)!

美麗大北京
2025-12-26 11:02:43
天了!中國(guó)向全球正式宣布,禁止跟美合作,一記重拳轟向美軍七寸

天了!中國(guó)向全球正式宣布,禁止跟美合作,一記重拳轟向美軍七寸

瞳哥視界
2025-12-23 20:17:07
5架美制無(wú)人機(jī)圍堵釣魚島,日本賭中方不敢擊落?反制手段早備好

5架美制無(wú)人機(jī)圍堵釣魚島,日本賭中方不敢擊落?反制手段早備好

策前論
2025-12-26 16:02:44
6年了,郭麒麟的反擊幾乎斷送了朱亞文的演藝生涯

6年了,郭麒麟的反擊幾乎斷送了朱亞文的演藝生涯

小熊侃史
2025-12-25 11:24:12
新進(jìn)展!龐叔令被調(diào)查組問(wèn)詢5小時(shí),亞洲周刊遭水軍圍攻!

新進(jìn)展!龐叔令被調(diào)查組問(wèn)詢5小時(shí),亞洲周刊遭水軍圍攻!

知法而形
2025-12-26 23:21:46
消失的150萬(wàn)契丹人找到了?DNA比對(duì)結(jié)果一出,原來(lái)就在我們身邊

消失的150萬(wàn)契丹人找到了?DNA比對(duì)結(jié)果一出,原來(lái)就在我們身邊

近史博覽
2025-12-24 11:01:01
金球獎(jiǎng)排行更新!黑馬第一,姆巴佩僅第三,梅西殺入前十成亮點(diǎn)

金球獎(jiǎng)排行更新!黑馬第一,姆巴佩僅第三,梅西殺入前十成亮點(diǎn)

阿泰希特
2025-12-26 09:15:27
Google 這對(duì)組合拳太狠了!3 句話讓我的 Idea 變成真 App,全程不寫代碼,爽翻!

Google 這對(duì)組合拳太狠了!3 句話讓我的 Idea 變成真 App,全程不寫代碼,爽翻!

AI范兒
2025-12-25 14:01:00
嚴(yán)重財(cái)務(wù)造假!300391,將啟動(dòng)退市!

嚴(yán)重財(cái)務(wù)造假!300391,將啟動(dòng)退市!

中國(guó)基金報(bào)
2025-12-26 23:25:36
2025-12-27 02:16:49
看盡人間百態(tài)
看盡人間百態(tài)
聚焦國(guó)際,看盡人間百態(tài)!
95文章數(shù) 124關(guān)注度
往期回顧 全部

科技要聞

收割3000億!拼多多"土辦法"熬死所有巨頭

頭條要聞

老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

頭條要聞

老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

體育要聞

開(kāi)翻航母之后,他決定親手造一艘航母

娛樂(lè)要聞

王傳君生病后近照變化大,面部浮腫

財(cái)經(jīng)要聞

投資巨鱷羅杰斯最新持倉(cāng):只留四種資產(chǎn)

汽車要聞

兩大CEO試駕 華為乾崑*啟境開(kāi)啟首款獵裝轎跑路測(cè)

態(tài)度原創(chuàng)

手機(jī)
家居
旅游
親子
藝術(shù)

手機(jī)要聞

vivo藍(lán)河:以開(kāi)源和賽事,撬動(dòng)AGI時(shí)代底層技術(shù)生態(tài)

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

旅游要聞

多家博物館公告:暫停開(kāi)放

親子要聞

小小的身體大大的能量!被4歲萌娃的深情告白打動(dòng)?? #睡個(gè)好覺(jué)

藝術(shù)要聞

你絕對(duì)想不到,佛陀微笑隱藏的秘密竟然是!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版