国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

最新研究:當(dāng)AI脫離語言,最強(qiáng)大模型視覺測試全輸給學(xué)前兒童!

0
分享至

如果你覺得多模態(tài)大模型已經(jīng)“什么都會了”,Gemini 、ChatGPT 智商已經(jīng)超越人類了,那這篇論文可能會給你潑一盆冷水。

日前,一篇來自arXiv 題為《BabyVision:超越語言的視覺推理》的論文給出了一個驚人的結(jié)論:如果完全不依賴語言,只考最基礎(chǔ)的視覺能力,今天最強(qiáng)多模態(tài)大模型的表現(xiàn),還不如三歲小孩。


該篇論文作者為 梁晨等來自 UniPat AI、北京大學(xué)、清華大學(xué)、阿里巴巴、普林斯頓等的 29 名研究員。

他們給這個研究方向設(shè)計了一個新基準(zhǔn),名字叫 BabyVision。

顧名可思義,考的不是博士級的復(fù)雜推理,而是人類在學(xué)會說話之前就已經(jīng)具備的視覺能力。

過去一年,多模態(tài)模型在各種榜單上進(jìn)步飛快,做數(shù)學(xué)題、看圖寫代碼、理解專業(yè)圖表,甚至在一些大學(xué)、博士水平的測試中超過普通人。

但作者指出,這些測試幾乎都有一個共同點(diǎn),高度依賴語言、知識和文本推理。

于是他們反過來做了一件事,把語言和知識全部剝離,只剩下視覺本身。

BabyVision 一共只有 388 道題,規(guī)模不大,但設(shè)計得非常克制。

問題文本被壓縮到極短,平均只有二十多字,不需要任何背景知識。

題目分布在四類最基礎(chǔ)的視覺能力上:細(xì)微差異的辨別、視覺路徑追蹤、空間關(guān)系判斷,以及圖形和模式識別。


換句話說,就是“哪個更大”、“線走到哪里”、“這個形狀轉(zhuǎn)一下會變成什么”、“規(guī)律下一格是什么”等,這一類問題。

為了避免“文字投機(jī)”,作者在數(shù)據(jù)構(gòu)建階段專門過濾了所有可能通過語言猜答案的樣本,甚至還請人反復(fù)驗證:如果遮住題目文字,只看圖,人類是否仍然可以完成判斷。

作為對照,他們不僅測了模型,還測了人。

測試對象包括 3 歲、6 歲、10 歲、12 歲的兒童,以及成年人。

結(jié)果是,人類的表現(xiàn),幾乎是壓倒性的。

數(shù)據(jù)顯示:成年人在 BabyVision 上的平均正確率是 94.1%;6 歲兒童已經(jīng)可以穩(wěn)定超過 70%。

而當(dāng)前表現(xiàn)最好的多模態(tài)模型,得分只有 49.7%。


而且,這還不是“平均模型”,而是作者測試中最強(qiáng)的那一個Gemini3-Pro-Preview。

換句話說,在這些不需要語言、只需要“看懂”的任務(wù)上,最先進(jìn)的多模態(tài)大模型,整體水平還低于學(xué)齡前兒童。

更殘酷的是,模型的弱點(diǎn)并不是集中在某一類題型上,而是系統(tǒng)性的。

論文展示了大量錯誤案例。

比如分不清細(xì)微形狀差別、無法連續(xù)追蹤一條曲線,比如在二維圖像中構(gòu)建錯誤的三維關(guān)系,或者完全誤判一個簡單的視覺規(guī)律。


分析原因,作者認(rèn)為,問題并不只是模型“沒訓(xùn)練夠”,而是當(dāng)前多模態(tài)架構(gòu)本身存在結(jié)構(gòu)性瓶頸。

他們認(rèn)為,大多數(shù)多模態(tài)模型的工作方式,本質(zhì)上是“先看圖,再把視覺信息壓縮成語言 token,然后在語言空間里思考”。

這個過程在面對知識型問題時很高效,但對基礎(chǔ)視覺任務(wù)是致命的。

因為圖片細(xì)節(jié)在壓縮過程中會丟失,連續(xù)結(jié)構(gòu)會被打斷,空間關(guān)系會被離散化,最終導(dǎo)致模型“會說,但看不清”。



為了驗證是不是“語言這一步”限制了能力,論文還提出了一個擴(kuò)展實驗,叫 BabyVision-Gen。

在這個設(shè)置中,模型不需要用文字回答,而是直接在圖像上生成答案,比如畫出正確路徑、圈出不同區(qū)域。

結(jié)果顯示,在少數(shù)任務(wù)上,生成式視覺輸出確實能略微改善表現(xiàn),但整體差距依然巨大。

這也讓論文的結(jié)論顯得更加清晰,即當(dāng)前多模態(tài)模型在“像人一樣看”這件事上,遠(yuǎn)沒有達(dá)到人類水平,哪怕人類還沒學(xué)會說話。

要知道,人類與世界的溝通,先有視覺后有語言,比如嬰兒幾個月大就能辨別形狀、追蹤物體。

但大模型在最基礎(chǔ)的視覺感知上近乎的“失明”表現(xiàn)說明,它們并非真正“看見”了圖像, 而是在用語言知識“猜測”答案。

抱著治病救人的態(tài)度,研究團(tuán)隊還嘗試基于可驗證獎勵的強(qiáng)化學(xué)習(xí)(RLVR) , 對Qwen3-VL-8B-Thinking 進(jìn)行訓(xùn)練,來為大模型進(jìn)行補(bǔ)救。

結(jié)果表明,準(zhǔn)確率從 13.1% 提升 4.8 個百分點(diǎn),到了 17.9%,但距離人類水平仍然遙不可及。


這表明,視覺能力的根本缺陷很難通過后訓(xùn)練彌補(bǔ),而可能需要架構(gòu)層面的創(chuàng)新。

但這篇論文的價值,不在于否定多模態(tài)模型的進(jìn)步,而是對多模態(tài)的發(fā)展路徑提出了條新的思考路徑。

論文明確指出,想要縮小人與模型之間的差距,靠堆數(shù)據(jù)、堆語言推理很可能不夠,必須重新思考視覺表征、連續(xù)空間建模,以及視覺與推理之間的連接方式。

論文地址為:

https://arxiv.org/pdf/2601.06521v1

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
古代講究血脈傳承,五代十國時期為何流行收義子,盛行假子繼位

古代講究血脈傳承,五代十國時期為何流行收義子,盛行假子繼位

長風(fēng)文史
2026-01-26 20:05:39
拒絕回歸曼城!除非瓜帥下課!英超mvp太高調(diào),還在記恨當(dāng)年替補(bǔ)

拒絕回歸曼城!除非瓜帥下課!英超mvp太高調(diào),還在記恨當(dāng)年替補(bǔ)

阿泰希特
2026-01-27 12:24:53
伊朗內(nèi)部傳出消息:哈梅內(nèi)伊躲入地堡,三兒子出面與外界聯(lián)系

伊朗內(nèi)部傳出消息:哈梅內(nèi)伊躲入地堡,三兒子出面與外界聯(lián)系

阿器談史
2026-01-26 02:58:44
馬斯克最擔(dān)心的事情來了,阿里投資了核電站!

馬斯克最擔(dān)心的事情來了,阿里投資了核電站!

花朵財經(jīng)
2026-01-27 18:28:55
河南一國企老總曝雷人雷語:ZF第一不擔(dān)當(dāng),國企第二不擔(dān)當(dāng)!

河南一國企老總曝雷人雷語:ZF第一不擔(dān)當(dāng),國企第二不擔(dān)當(dāng)!

兵叔評說
2026-01-27 11:27:18
紫金礦業(yè)成交額創(chuàng)上市以來新高

紫金礦業(yè)成交額創(chuàng)上市以來新高

證券時報
2026-01-27 14:43:05
不到48小時,特朗普身體傳噩耗,34國軍方高官集合,對英緊急改口

不到48小時,特朗普身體傳噩耗,34國軍方高官集合,對英緊急改口

通鑒史智
2026-01-27 19:58:50
收受21名老板現(xiàn)金、黃金、書畫等賄賂,來者不拒、大小通吃!武華太懺悔:“害了家人,害了親屬,害了下屬,害了一大堆人……”

收受21名老板現(xiàn)金、黃金、書畫等賄賂,來者不拒、大小通吃!武華太懺悔:“害了家人,害了親屬,害了下屬,害了一大堆人……”

每日經(jīng)濟(jì)新聞
2026-01-27 18:34:50
投資20億!同程中心總部大廈開工,蘇州未來新地標(biāo)!

投資20億!同程中心總部大廈開工,蘇州未來新地標(biāo)!

GA環(huán)球建筑
2026-01-26 18:02:24
逝者 | 前山東泰山主帥去世,曾自薦執(zhí)教國足

逝者 | 前山東泰山主帥去世,曾自薦執(zhí)教國足

天津廣播
2026-01-27 20:21:35
就在今天!申京打破塵封46年紀(jì)錄,登頂火箭隊史第一

就在今天!申京打破塵封46年紀(jì)錄,登頂火箭隊史第一

籃球大視野
2026-01-27 17:16:47
澳網(wǎng)男單四強(qiáng)決出兩席:阿卡解鎖全四強(qiáng),半決賽戰(zhàn)茲維列夫

澳網(wǎng)男單四強(qiáng)決出兩席:阿卡解鎖全四強(qiáng),半決賽戰(zhàn)茲維列夫

全景體育V
2026-01-27 19:57:57
特斯拉Model 3銷售:七成客戶只買23.55萬元入門款

特斯拉Model 3銷售:七成客戶只買23.55萬元入門款

CNMO科技
2026-01-27 10:26:03
10中2!正負(fù)值-20!勇士神射手徹底沒救了

10中2!正負(fù)值-20!勇士神射手徹底沒救了

籃球教學(xué)論壇
2026-01-27 18:39:36
紀(jì)實:女子強(qiáng)迫情夫老公三人同床,逼丈夫看兩人茍合,結(jié)局釀慘案

紀(jì)實:女子強(qiáng)迫情夫老公三人同床,逼丈夫看兩人茍合,結(jié)局釀慘案

談史論天地
2026-01-23 10:04:14
驚天大瓜,全民都在吃

驚天大瓜,全民都在吃

我是歷史其實挺有趣
2026-01-27 18:21:33
近3戰(zhàn)場均10助2斷!火箭找到控衛(wèi)答案?范甘迪:本賽季的DPOY熱門

近3戰(zhàn)場均10助2斷!火箭找到控衛(wèi)答案?范甘迪:本賽季的DPOY熱門

你的籃球頻道
2026-01-27 13:57:49
1月25日起正式實施;日本涉島法案通過,中國加速增兵,奉陪到底

1月25日起正式實施;日本涉島法案通過,中國加速增兵,奉陪到底

通文知史
2026-01-26 18:15:03
《白鹿原》里的兩家大戶,日常只吃油潑面,首富就這種水準(zhǔn)?

《白鹿原》里的兩家大戶,日常只吃油潑面,首富就這種水準(zhǔn)?

收藏大視界
2026-01-25 17:56:42
后悔也晚了!大批F35逼到家門口,伊朗卻發(fā)現(xiàn)紅旗9和殲10還未到位

后悔也晚了!大批F35逼到家門口,伊朗卻發(fā)現(xiàn)紅旗9和殲10還未到位

文雅筆墨
2026-01-25 03:11:20
2026-01-27 20:59:00
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應(yīng)用精選與評測
421文章數(shù) 40關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會講話透露了哪些關(guān)鍵信息

頭條要聞

回?fù)籼乩势?印度與歐盟達(dá)成"史上最大規(guī)模協(xié)議"

頭條要聞

回?fù)籼乩势?印度與歐盟達(dá)成"史上最大規(guī)模協(xié)議"

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學(xué)?

娛樂要聞

張雨綺被曝代孕,春晚被拒,代言跑路

財經(jīng)要聞

多地對壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

態(tài)度原創(chuàng)

房產(chǎn)
游戲
藝術(shù)
親子
軍事航空

房產(chǎn)要聞

實景兌現(xiàn)在即!綠城,在海棠灣重新定義終極旅居想象!

LPL春季賽:野輔是真的菜,滔搏野輔狂送,WBG三局戰(zhàn)勝TES

藝術(shù)要聞

日本東京國立博物館中的100幅宋畫

親子要聞

新聞8點(diǎn)見丨被販賣的產(chǎn)后焦慮;大廠AI爭奪戰(zhàn),誰在掉隊?

軍事要聞

美海軍"林肯"號航母打擊群抵達(dá)中東地區(qū)

無障礙瀏覽 進(jìn)入關(guān)懷版