国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

最新研究:當AI脫離語言,最強大模型視覺測試全輸給學前兒童!

0
分享至

如果你覺得多模態(tài)大模型已經“什么都會了”,Gemini 、ChatGPT 智商已經超越人類了,那這篇論文可能會給你潑一盆冷水。

日前,一篇來自arXiv 題為《BabyVision:超越語言的視覺推理》的論文給出了一個驚人的結論:如果完全不依賴語言,只考最基礎的視覺能力,今天最強多模態(tài)大模型的表現(xiàn),還不如三歲小孩。


該篇論文作者為 梁晨等來自 UniPat AI、北京大學、清華大學、阿里巴巴、普林斯頓等的 29 名研究員。

他們給這個研究方向設計了一個新基準,名字叫 BabyVision。

顧名可思義,考的不是博士級的復雜推理,而是人類在學會說話之前就已經具備的視覺能力。

過去一年,多模態(tài)模型在各種榜單上進步飛快,做數(shù)學題、看圖寫代碼、理解專業(yè)圖表,甚至在一些大學、博士水平的測試中超過普通人。

但作者指出,這些測試幾乎都有一個共同點,高度依賴語言、知識和文本推理。

于是他們反過來做了一件事,把語言和知識全部剝離,只剩下視覺本身。

BabyVision 一共只有 388 道題,規(guī)模不大,但設計得非??酥啤?br/>

問題文本被壓縮到極短,平均只有二十多字,不需要任何背景知識。

題目分布在四類最基礎的視覺能力上:細微差異的辨別、視覺路徑追蹤、空間關系判斷,以及圖形和模式識別。


換句話說,就是“哪個更大”、“線走到哪里”、“這個形狀轉一下會變成什么”、“規(guī)律下一格是什么”等,這一類問題。

為了避免“文字投機”,作者在數(shù)據構建階段專門過濾了所有可能通過語言猜答案的樣本,甚至還請人反復驗證:如果遮住題目文字,只看圖,人類是否仍然可以完成判斷。

作為對照,他們不僅測了模型,還測了人。

測試對象包括 3 歲、6 歲、10 歲、12 歲的兒童,以及成年人。

結果是,人類的表現(xiàn),幾乎是壓倒性的。

數(shù)據顯示:成年人在 BabyVision 上的平均正確率是 94.1%;6 歲兒童已經可以穩(wěn)定超過 70%。

而當前表現(xiàn)最好的多模態(tài)模型,得分只有 49.7%。


而且,這還不是“平均模型”,而是作者測試中最強的那一個Gemini3-Pro-Preview。

換句話說,在這些不需要語言、只需要“看懂”的任務上,最先進的多模態(tài)大模型,整體水平還低于學齡前兒童。

更殘酷的是,模型的弱點并不是集中在某一類題型上,而是系統(tǒng)性的。

論文展示了大量錯誤案例。

比如分不清細微形狀差別、無法連續(xù)追蹤一條曲線,比如在二維圖像中構建錯誤的三維關系,或者完全誤判一個簡單的視覺規(guī)律。


分析原因,作者認為,問題并不只是模型“沒訓練夠”,而是當前多模態(tài)架構本身存在結構性瓶頸。

他們認為,大多數(shù)多模態(tài)模型的工作方式,本質上是“先看圖,再把視覺信息壓縮成語言 token,然后在語言空間里思考”。

這個過程在面對知識型問題時很高效,但對基礎視覺任務是致命的。

因為圖片細節(jié)在壓縮過程中會丟失,連續(xù)結構會被打斷,空間關系會被離散化,最終導致模型“會說,但看不清”。



為了驗證是不是“語言這一步”限制了能力,論文還提出了一個擴展實驗,叫 BabyVision-Gen。

在這個設置中,模型不需要用文字回答,而是直接在圖像上生成答案,比如畫出正確路徑、圈出不同區(qū)域。

結果顯示,在少數(shù)任務上,生成式視覺輸出確實能略微改善表現(xiàn),但整體差距依然巨大。

這也讓論文的結論顯得更加清晰,即當前多模態(tài)模型在“像人一樣看”這件事上,遠沒有達到人類水平,哪怕人類還沒學會說話。

要知道,人類與世界的溝通,先有視覺后有語言,比如嬰兒幾個月大就能辨別形狀、追蹤物體。

但大模型在最基礎的視覺感知上近乎的“失明”表現(xiàn)說明,它們并非真正“看見”了圖像, 而是在用語言知識“猜測”答案。

抱著治病救人的態(tài)度,研究團隊還嘗試基于可驗證獎勵的強化學習(RLVR) , 對Qwen3-VL-8B-Thinking 進行訓練,來為大模型進行補救。

結果表明,準確率從 13.1% 提升 4.8 個百分點,到了 17.9%,但距離人類水平仍然遙不可及。


這表明,視覺能力的根本缺陷很難通過后訓練彌補,而可能需要架構層面的創(chuàng)新。

但這篇論文的價值,不在于否定多模態(tài)模型的進步,而是對多模態(tài)的發(fā)展路徑提出了條新的思考路徑。

論文明確指出,想要縮小人與模型之間的差距,靠堆數(shù)據、堆語言推理很可能不夠,必須重新思考視覺表征、連續(xù)空間建模,以及視覺與推理之間的連接方式。

論文地址為:

https://arxiv.org/pdf/2601.06521v1

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
重溫1999:西方媒體報道的炸館“另一面”,17名軍事顧問遇難?

重溫1999:西方媒體報道的炸館“另一面”,17名軍事顧問遇難?

干史人
2026-02-27 11:00:05
2005年,韓國把“漢城”改為首爾,全世界為何只要求中國改稱呼?

2005年,韓國把“漢城”改為首爾,全世界為何只要求中國改稱呼?

咸説歷史
2026-03-19 07:06:34
英超要變天!穆里尼奧有望重返英倫,埃迪?豪帥位告急

英超要變天!穆里尼奧有望重返英倫,埃迪?豪帥位告急

瀾歸序
2026-03-28 04:28:30
李鑫養(yǎng)家豪宅亮相,三層別墅裝潢奢華,養(yǎng)家哥哥曬弟媳侄子正面照

李鑫養(yǎng)家豪宅亮相,三層別墅裝潢奢華,養(yǎng)家哥哥曬弟媳侄子正面照

花小貓的美食日常
2026-03-28 07:58:40
阿卡豪擲重金預訂豪華游艇,尺寸超越納達爾600萬美元最貴座駕

阿卡豪擲重金預訂豪華游艇,尺寸超越納達爾600萬美元最貴座駕

網球之家
2026-03-27 22:29:00
張雪峰和爸媽合照流出:父親肺癌去世,母親暈厥,奶奶還蒙在鼓里

張雪峰和爸媽合照流出:父親肺癌去世,母親暈厥,奶奶還蒙在鼓里

博士觀察
2026-03-27 22:16:10
普京要求俄羅斯寡頭自愿貢獻,有人當場宣布捐出1000億

普京要求俄羅斯寡頭自愿貢獻,有人當場宣布捐出1000億

深析古今
2026-03-28 09:21:46
民眾黨明天上凱道力挺柯文哲,蔣萬安:已有行程安排,無法出席

民眾黨明天上凱道力挺柯文哲,蔣萬安:已有行程安排,無法出席

海峽導報社
2026-03-28 10:21:05
臺海局勢再次升級!武統(tǒng)、和統(tǒng)都沒希望,我國即將走上第3條路

臺海局勢再次升級!武統(tǒng)、和統(tǒng)都沒希望,我國即將走上第3條路

深析古今
2026-03-23 16:29:45
驚天反轉!FBI局長郵箱被攻破,私密信息全網曝光

驚天反轉!FBI局長郵箱被攻破,私密信息全網曝光

老馬拉車莫少裝
2026-03-28 00:02:06
難以置信!一個身高一米八的山東大漢,竟會被妻子打得不敢回家?

難以置信!一個身高一米八的山東大漢,竟會被妻子打得不敢回家?

川渝視覺
2026-03-27 16:26:59
潘敏居家光腳丫,條紋衫下藏春光,這純欲天花板誰能頂?shù)米。?>
    </a>
        <h3>
      <a href=娛樂領航家
2026-03-28 00:00:03
三部門提醒:“人民幣版”冥幣不可賣也不要用

三部門提醒:“人民幣版”冥幣不可賣也不要用

澎湃新聞
2026-03-27 22:09:10
形勢有多嚴峻?35歲失業(yè)男與年輕女人事激烈碰撞,評論區(qū)炸鍋…

形勢有多嚴峻?35歲失業(yè)男與年輕女人事激烈碰撞,評論區(qū)炸鍋…

慧翔百科
2026-03-27 12:17:09
兩性關系:不用懷疑,女人最難忘的情人,是讓她生理性喜歡的男人

兩性關系:不用懷疑,女人最難忘的情人,是讓她生理性喜歡的男人

加油丁小文
2026-03-28 11:30:06
德國總理宣布:不再向烏克蘭提供金牛座導彈!

德國總理宣布:不再向烏克蘭提供金牛座導彈!

達文西看世界
2026-03-27 09:58:23
鴻蒙智行電池技術負責人:為延長電池壽命 我們把華為化學家、數(shù)學家都投入了進來

鴻蒙智行電池技術負責人:為延長電池壽命 我們把華為化學家、數(shù)學家都投入了進來

快科技
2026-03-27 15:22:06
中國腦梗人數(shù)全球第一:肉吃得越少,血管就越通,真的嗎?

中國腦梗人數(shù)全球第一:肉吃得越少,血管就越通,真的嗎?

蜉蝣說
2026-03-24 10:00:57
知名樂評人批周杰倫新歌:嗓子粗糙、歌詞幼稚,還在那“我最強我最屌”

知名樂評人批周杰倫新歌:嗓子粗糙、歌詞幼稚,還在那“我最強我最屌”

老吳教育課堂
2026-03-27 12:48:19
“老人味”的禍首被揪出!醫(yī)生提醒:55歲后要少碰,老了或也沒味

“老人味”的禍首被揪出!醫(yī)生提醒:55歲后要少碰,老了或也沒味

今日養(yǎng)生之道
2026-03-23 11:46:39
2026-03-28 11:59:01
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
465文章數(shù) 69關注度
往期回顧 全部

科技要聞

遭中國學界"拉黑"后,這家AI頂會低頭道歉

頭條要聞

媒體:"霍爾木茲決戰(zhàn)"攤牌了 美給伊朗開出"投降"條件

頭條要聞

媒體:"霍爾木茲決戰(zhàn)"攤牌了 美給伊朗開出"投降"條件

體育要聞

“我是全家最差勁的運動員”

娛樂要聞

王一博改名上熱搜!個人時代正式開啟!

財經要聞

我在小吃培訓機構學習“科技與狠活”

汽車要聞

置換補貼價4.28萬起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

親子
教育
時尚
家居
房產

親子要聞

爸爸跟寶寶一起玩“音樂樹積木”,寶寶嚇得一激靈:我是誰?我在哪?

教育要聞

嚴禁教師歧視學生,對學生實施體罰或者侮辱人格尊嚴的行為

推廣中獎名單-更新至2026年3月11日推廣

家居要聞

曲線華爾茲 現(xiàn)代簡約

房產要聞

6.8萬方!天河員村再征地,金融城西區(qū)開發(fā)全面提速

無障礙瀏覽 進入關懷版