国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

萬(wàn)能的AI大模型,患上“看表困難癥”

0
分享至


圖源:Unsplash / Thomas Bormans

導(dǎo)讀:

發(fā)表在IEEE Internet Computing的一項(xiàng)研究顯示,多模態(tài)大語(yǔ)言模型無(wú)法正確識(shí)別模擬時(shí)鐘的時(shí)間,暴露出此類(lèi)大模型的一個(gè)根本局限:缺乏人類(lèi)式的抽象思維和泛化能力。

你能想象嗎?一個(gè)能解讀醫(yī)學(xué)影像、分析復(fù)雜圖紙的多模態(tài)大模型,卻栽在了一個(gè)幼兒園孩子都能搞定的任務(wù)——看表上。

你可能會(huì)想,這不就是瞅一眼指針位置的事兒?jiǎn)??但最新研究發(fā)現(xiàn),多模態(tài)大語(yǔ)言模型在讀取老式模擬時(shí)鐘(Analog Clocks)時(shí)間這項(xiàng)“簡(jiǎn)單任務(wù)”上的表現(xiàn)卻不盡如人意。這背后暴露的,正是當(dāng)前人工智能在抽象思維和泛化能力上的天然短板。

SAIXIANSHENG

高材生模型的“看表困難癥”

我們熟知的大語(yǔ)言模型(Large Language Model,簡(jiǎn)稱(chēng)LLM),主要是利用海量的文本數(shù)據(jù),生成各種回答。在大語(yǔ)言模型成功的基礎(chǔ)上,許多人工智能公司也推出了多模態(tài)大語(yǔ)言模型(Multimodal Large Language Model,簡(jiǎn)稱(chēng) MLLM)。它不僅可以處理文字,還能利用圖像、視頻和音頻等信息,進(jìn)行表達(dá)、交流和理解。在人工智能領(lǐng)域,多模態(tài)讓機(jī)器能夠同時(shí)處理、整合和理解上述形態(tài)的信息,并進(jìn)行信息推理和生成。

但是,這樣一位頂尖學(xué)霸,能處理復(fù)雜的視覺(jué)問(wèn)答,卻看不懂墻上的模擬時(shí)鐘,就是那種帶有指針(時(shí)針、分針、秒針)的傳統(tǒng)時(shí)鐘。這就是目前多模態(tài)大語(yǔ)言模型的真實(shí)寫(xiě)照。

去年7月,來(lái)自西班牙和意大利的一個(gè)合作研究團(tuán)隊(duì),報(bào)告了對(duì)包括GPT-4o、Gemma3、LLaMa3.2和QwenVL-2.5在內(nèi)的多個(gè)主流多模態(tài)大模型的一個(gè)測(cè)試,發(fā)現(xiàn)它們?cè)跊](méi)有經(jīng)過(guò)專(zhuān)門(mén)訓(xùn)練前,基本上都無(wú)法正確讀取模擬時(shí)鐘的時(shí)間。


圖1 網(wǎng)絡(luò)搜索中常見(jiàn)的鐘表圖像示例

問(wèn)題根源很有趣:這些模型的訓(xùn)練數(shù)據(jù)主要來(lái)自互聯(lián)網(wǎng),而網(wǎng)絡(luò)上的鐘表圖片高度偏向于“經(jīng)典造型”,比如廣告中常見(jiàn)的10:10位置(指針形成優(yōu)美對(duì)稱(chēng)角度)。模型們只記住了常見(jiàn)樣式,卻沒(méi)真正理解看表的內(nèi)在原理。

SAIXIANSHENG

特訓(xùn)立竿見(jiàn)影,但治標(biāo)不治本

研究人員當(dāng)起了“補(bǔ)習(xí)老師”,創(chuàng)建了一個(gè)包含4.3萬(wàn)種可能時(shí)間的時(shí)鐘圖像數(shù)據(jù)集,并使用其中的5000個(gè)樣本對(duì)模型進(jìn)行精細(xì)微調(diào)。

結(jié)果如何?特訓(xùn)后模型們?cè)凇澳M考試”中成績(jī)飆升,在大多數(shù)情況下,能夠準(zhǔn)確讀出之前沒(méi)見(jiàn)過(guò)的時(shí)鐘時(shí)間。雖然仍然存在一些誤差,但預(yù)測(cè)時(shí)間與實(shí)際值相比更加吻合。


圖2 微調(diào)對(duì)模型預(yù)測(cè)性能的影響(a)調(diào)優(yōu)前(b)調(diào)優(yōu)后,模型包括GPT-4o、Gemma3-12B、LLaMa3.2-11B和QwenVL-2.5-7B。微調(diào)前,四個(gè)大模型的預(yù)測(cè)值都距離實(shí)際值相差較遠(yuǎn),而且結(jié)果很分散。微調(diào)后,雖然預(yù)測(cè)結(jié)果并不能都完全正確,但總體來(lái)說(shuō),預(yù)測(cè)值距離實(shí)際值更加接近

但是,當(dāng)面對(duì)131張真實(shí)環(huán)境中的時(shí)鐘圖片,所有模型都被打回原形:這四個(gè)模型都不能正確讀取時(shí)間。

研究者認(rèn)為,這表明模型未能將學(xué)習(xí)成果有效泛化到真實(shí)場(chǎng)景。

SAIXIANSHENG

達(dá)利式的挑戰(zhàn):當(dāng)時(shí)鐘開(kāi)始“融化”

研究者們?cè)跍y(cè)試以上四種大模型時(shí),意外發(fā)現(xiàn)OpenAI的多模型大模型已經(jīng)更新到GPT-4.1。當(dāng)他們對(duì)該模型測(cè)試時(shí),發(fā)現(xiàn)GPT-4.1能夠輕松讀取他們建立的時(shí)鐘圖像數(shù)據(jù)集中的時(shí)間,而且在真實(shí)時(shí)鐘圖像數(shù)據(jù)集上的表現(xiàn)更好。研究者們推測(cè),這可能是因?yàn)镚PT-4.1訓(xùn)練的數(shù)據(jù)集樣本更多。

若多模態(tài)大模型通過(guò)更多訓(xùn)練,也有可能辨識(shí)別出真實(shí)的時(shí)鐘圖像。那么,增加一點(diǎn)難度,如果是變形的模擬時(shí)鐘呢?

研究團(tuán)隊(duì)腦洞大開(kāi),創(chuàng)作了兩種“魔幻時(shí)鐘”:一種是表盤(pán)扭曲變形的,另一種是指針變細(xì)并加上箭頭的。這一靈感源于薩爾瓦多·達(dá)利的名畫(huà)《記憶的永恒》中那些軟塌塌的融化時(shí)鐘。

結(jié)果顯示,最新版的GPT-4.1面對(duì)這些“達(dá)利式”時(shí)鐘時(shí)無(wú)法準(zhǔn)確判斷。



圖3.(a) 正常時(shí)鐘 (b) 扭曲形狀表盤(pán) (c) 修改指針的時(shí)鐘圖像 三種情況下GPT-4.1原始和精調(diào)后的識(shí)別結(jié)果

具體來(lái)說(shuō),GPT-4.1模型在變形表盤(pán)上的誤差增加了近6倍,在修改指針后誤差更是飆升到16倍!一個(gè)指針上的小箭頭,就能讓聰明的AI模型暈頭轉(zhuǎn)向。這表明模型并未真正理解看時(shí)間的原理,而是依賴(lài)訓(xùn)練數(shù)據(jù)中的表面模式。

而另外三個(gè)模型,也沒(méi)能成功讀取扭曲或修改指針后的時(shí)鐘圖像的時(shí)間。

研究人員分析認(rèn)為,多模態(tài)大模型看表有兩個(gè)致命誤區(qū)。

誤區(qū)一:“方向感”差勁

模型在判斷指針指向時(shí)經(jīng)常出錯(cuò),不夠敏感。

誤區(qū)二:“指鹿為馬”

更嚴(yán)重的是,模型經(jīng)常分不清時(shí)針、分針和秒針。它似乎主要依靠指針的粗細(xì)來(lái)區(qū)分它們,一旦指針樣式變化,就徹底混亂。


圖4. GPT-4.1原始模型和精調(diào)后,指針功能混淆的示例(a)修改指針后(b)變形表盤(pán)時(shí)鐘

研究人員指出,這暴露了模型的真實(shí)學(xué)習(xí)方式:它缺乏人類(lèi)式的抽象思維和泛化能力,不是在學(xué)習(xí)“看表”這個(gè)概念,而是在記憶訓(xùn)練數(shù)據(jù)中的表面模式。

SAIXIANSHENG

給AI發(fā)展的啟示

這項(xiàng)研究的意義遠(yuǎn)不止于時(shí)鐘讀取這個(gè)具體任務(wù)。它揭示了當(dāng)前多模態(tài)大預(yù)言模型的一個(gè)根本局限:缺乏人類(lèi)式的抽象思維和泛化能力。

當(dāng)模型在一個(gè)環(huán)節(jié),如區(qū)分指針功能,遇到困難時(shí),它在其他環(huán)節(jié)(如判斷指針?lè)较颍┑谋憩F(xiàn)也會(huì)受到影響。這種“連鎖反應(yīng)”式的性能下降在真實(shí)世界中可能帶來(lái)嚴(yán)重后果。

想象一下,一個(gè)用于醫(yī)療影像分析的AI,如果因?yàn)樗鼪](méi)見(jiàn)過(guò)的某個(gè)設(shè)備型號(hào)或拍攝角度而判斷失誤,代價(jià)將是巨大的。

目前的解決方案主要是“填鴨式”教育——通過(guò)增加更多訓(xùn)練數(shù)據(jù)來(lái)覆蓋各種情況。但研究人員指出,真正的突破需要模型能夠像人類(lèi)一樣進(jìn)行抽象學(xué)習(xí),理解事物的本質(zhì)原理而非表面特征。

畢竟,我們希望AI是達(dá)利那樣的創(chuàng)意藝術(shù)家,而不是只會(huì)復(fù)制老師板書(shū)的好學(xué)生。

而作為人類(lèi),當(dāng)你輕松瞥一眼時(shí)鐘就知道時(shí)間時(shí),不妨對(duì)大腦的抽象思維能力多一份感激。至少,這還是我們當(dāng)前的優(yōu)勢(shì)之一。



圖5. GPT-4.1在不同時(shí)鐘變體上的性能及微調(diào)影響

作者簡(jiǎn)介:

黃磊,香港大學(xué)管理學(xué)博士,同濟(jì)大學(xué)自動(dòng)控制碩士,目前在互聯(lián)網(wǎng)企業(yè)從事數(shù)字營(yíng)銷(xiāo)相關(guān)業(yè)務(wù)管理工作。

參考資料:(上下滑動(dòng)可瀏覽)

[1] T. Fu, M. González, J. Conde, E. Merino-Gómez and P. Reviriego, "Have Multimodal Large Language Models Really Learned to Tell the Time on Analog Clocks?," in IEEE Internet Computing, vol. 29, no. 4, pp. 48-54, July-Aug. 2025, doi: 10.1109/MIC.2025.3618144.

來(lái)源:賽先生

編輯:ThymolBlue

轉(zhuǎn)載內(nèi)容僅代表作者觀點(diǎn)

不代表中科院物理所立場(chǎng)

如需轉(zhuǎn)載請(qǐng)聯(lián)系原公眾號(hào)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
韓寒的這場(chǎng)“豪賭”,贏得很徹底,他能分賬多少錢(qián)?

韓寒的這場(chǎng)“豪賭”,贏得很徹底,他能分賬多少錢(qián)?

八卦南風(fēng)
2026-02-25 13:37:35
香港自殺女警手機(jī)中發(fā)現(xiàn)遺書(shū)

香港自殺女警手機(jī)中發(fā)現(xiàn)遺書(shū)

現(xiàn)代快報(bào)
2026-02-25 20:33:04
iPhone 18 Pro靈動(dòng)島縮小35%,將首發(fā)搭載基于臺(tái)積電2nm工藝制造的A20 Pro芯片

iPhone 18 Pro靈動(dòng)島縮小35%,將首發(fā)搭載基于臺(tái)積電2nm工藝制造的A20 Pro芯片

中國(guó)能源網(wǎng)
2026-02-24 12:01:06
德國(guó)總理沒(méi)想到,落地中國(guó)才一天,訪華前一個(gè)舉動(dòng)讓自己口碑暴增

德國(guó)總理沒(méi)想到,落地中國(guó)才一天,訪華前一個(gè)舉動(dòng)讓自己口碑暴增

郭夷包工頭
2026-02-25 19:03:48
《太平年》在越南吵翻:同一段亂世,吳越選擇納土,越南選擇獨(dú)立

《太平年》在越南吵翻:同一段亂世,吳越選擇納土,越南選擇獨(dú)立

狐貍先森講升學(xué)規(guī)劃
2026-02-25 10:10:42
東契奇談最后拒投三分:我知道自己是空位,但覺(jué)得距離遠(yuǎn)了點(diǎn)

東契奇談最后拒投三分:我知道自己是空位,但覺(jué)得距離遠(yuǎn)了點(diǎn)

懂球帝
2026-02-25 15:12:18
升級(jí)版的仙人跳,比戴綠帽子還憋屈

升級(jí)版的仙人跳,比戴綠帽子還憋屈

霹靂炮
2026-02-24 22:53:34
金字塔碳14檢測(cè)后,真相混亂到讓學(xué)界集體“瘋魔”

金字塔碳14檢測(cè)后,真相混亂到讓學(xué)界集體“瘋魔”

混沌錄
2026-02-25 22:30:19
世界第一女巨人來(lái)自中國(guó)安徽,穿78碼的鞋子,一頓飯吃六碗炒面

世界第一女巨人來(lái)自中國(guó)安徽,穿78碼的鞋子,一頓飯吃六碗炒面

不寫(xiě)散文詩(shī)
2026-02-25 21:02:18
美媒解讀東契奇拒投絕殺后唇語(yǔ):詹姆斯讓我傳球,我就傳了

美媒解讀東契奇拒投絕殺后唇語(yǔ):詹姆斯讓我傳球,我就傳了

懂球帝
2026-02-26 09:45:10
男演員長(zhǎng)相多重要?把34歲黃景瑜和25歲陳飛宇對(duì)比,差距一目了然

男演員長(zhǎng)相多重要?把34歲黃景瑜和25歲陳飛宇對(duì)比,差距一目了然

銀河史記
2026-02-25 22:30:03
挪威前首相自殺未遂,命懸一線!其被指涉愛(ài)潑斯坦案,多處住所被突襲搜查!歐洲多國(guó)政要、王室成員被查

挪威前首相自殺未遂,命懸一線!其被指涉愛(ài)潑斯坦案,多處住所被突襲搜查!歐洲多國(guó)政要、王室成員被查

每日經(jīng)濟(jì)新聞
2026-02-25 17:15:06
痛心!廣東英德1歲走失男童在報(bào)警人家附近魚(yú)塘中被發(fā)現(xiàn),已無(wú)生命體征

痛心!廣東英德1歲走失男童在報(bào)警人家附近魚(yú)塘中被發(fā)現(xiàn),已無(wú)生命體征

封面新聞
2026-02-26 01:57:06
上海這晚,57歲周濤秒了30歲李雪琴,不愧是央視嚴(yán)選的國(guó)泰民安臉

上海這晚,57歲周濤秒了30歲李雪琴,不愧是央視嚴(yán)選的國(guó)泰民安臉

大鐵貓娛樂(lè)
2026-02-08 00:10:03
封神!株洲司機(jī)最后1秒沖過(guò)收費(fèi)站,收費(fèi)員比他還瘋,全網(wǎng)笑炸

封神!株洲司機(jī)最后1秒沖過(guò)收費(fèi)站,收費(fèi)員比他還瘋,全網(wǎng)笑炸

觀察鑒娛
2026-02-25 10:09:22
西湖大學(xué)打了誰(shuí)的臉?外籍學(xué)生學(xué)費(fèi)35萬(wàn)一年,國(guó)內(nèi)學(xué)生僅6千元

西湖大學(xué)打了誰(shuí)的臉?外籍學(xué)生學(xué)費(fèi)35萬(wàn)一年,國(guó)內(nèi)學(xué)生僅6千元

妍妍教育日記
2026-02-24 18:35:18
孩子第一天就轟動(dòng)學(xué)校是啥感覺(jué)?網(wǎng)友:這孩子以后能成大事

孩子第一天就轟動(dòng)學(xué)校是啥感覺(jué)?網(wǎng)友:這孩子以后能成大事

解讀熱點(diǎn)事件
2026-02-25 15:32:21
卡塞米羅表現(xiàn)下滑,卡里克或重用曼聯(lián)新博格巴!小將希文改打后腰

卡塞米羅表現(xiàn)下滑,卡里克或重用曼聯(lián)新博格巴!小將希文改打后腰

體壇關(guān)鍵幀
2026-02-26 09:51:39
33歲重慶女子命喪中靈山,遺體掛懸崖,目擊者發(fā)聲 丈夫行為引爭(zhēng)議

33歲重慶女子命喪中靈山,遺體掛懸崖,目擊者發(fā)聲 丈夫行為引爭(zhēng)議

小鹿姐姐情感說(shuō)
2026-02-25 19:37:04
宋彬彬晚年回國(guó)道歉仍不被原諒,其父宋任窮也不愿提起她,為何

宋彬彬晚年回國(guó)道歉仍不被原諒,其父宋任窮也不愿提起她,為何

春秋硯
2026-02-24 12:25:08
2026-02-26 11:28:49
中科院物理所 incentive-icons
中科院物理所
愛(ài)上物理,改變世界。
9911文章數(shù) 136466關(guān)注度
往期回顧 全部

科技要聞

單季營(yíng)收681億凈利429億!英偉達(dá)再次炸裂

頭條要聞

"花壇白骨案"2名兇手因4萬(wàn)元?dú)⑷寺袷?受害人兒子發(fā)聲

頭條要聞

"花壇白骨案"2名兇手因4萬(wàn)元?dú)⑷寺袷?受害人兒子發(fā)聲

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂(lè)要聞

尼格買(mǎi)提撒貝寧滑雪被偶遇 17年老友情

財(cái)經(jīng)要聞

短劇市場(chǎng)風(fēng)云突變!有人投百萬(wàn)賠得精光

汽車(chē)要聞

雷克薩斯ES雙色特別版上市 售30.79萬(wàn)元起

態(tài)度原創(chuàng)

旅游
親子
手機(jī)
游戲
公開(kāi)課

旅游要聞

“引客入滇”入境旅游激勵(lì)3月1日起申報(bào) 符合條件的企業(yè)最高可獲50萬(wàn)元激勵(lì)資金

親子要聞

筱梅沉浸當(dāng)母親喜悅!分享小寶睜眼吃奶照!箖箖看弟弟一舉動(dòng)被贊

手機(jī)要聞

想買(mǎi)抓緊!2026年中國(guó)手機(jī)市場(chǎng)迎全面普漲:3月后新機(jī)至少漲千元 老款機(jī)也提價(jià)

劇情設(shè)定已有爆料!《德軍總部》新作真要來(lái)了?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版