国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

大模型拿金牌卻輸給三歲寶寶!一套「純視覺(jué)考卷」把頂尖VLM打回幼兒園

0
分享至


新智元報(bào)道

編輯:定慧

【新智元導(dǎo)讀】大模型能寫(xiě)代碼、解奧數(shù),卻連幼兒園小班都考不過(guò)?簡(jiǎn)單的連線找垃圾桶、數(shù)積木,人類一眼即知,AI卻因?yàn)闊o(wú)法用語(yǔ)言「描述」視覺(jué)信息而集體翻車。大模型到底「懂不懂」,這個(gè)評(píng)測(cè)基準(zhǔn)給出答案。

過(guò)去一年,大模型在語(yǔ)言與文本推理上突飛猛進(jìn):論文能寫(xiě)、難題能解、甚至在頂級(jí)學(xué)術(shù)/競(jìng)賽類題目上屢屢刷新上限。

但一個(gè)更關(guān)鍵的問(wèn)題是:當(dāng)問(wèn)題不再能「用語(yǔ)言說(shuō)清楚」時(shí),模型還能不能「看懂」?

為了測(cè)評(píng)模型能不能「看懂」,以及能「看懂」多少,UniPat AI攜手紅杉中國(guó)xbench團(tuán)隊(duì),并聯(lián)合多家大模型公司與高校的研究員,發(fā)布新的多模態(tài)理解評(píng)測(cè)集BabyVision。

UniPat AI致力于構(gòu)建真實(shí)場(chǎng)景下AI訓(xùn)練、評(píng)測(cè)與應(yīng)用的新范式,推動(dòng)其實(shí)現(xiàn)可泛化、可信賴的真實(shí)世界部署,并創(chuàng)造切實(shí)的經(jīng)濟(jì)與社會(huì)價(jià)值。

如果一個(gè)視覺(jué)問(wèn)題可以完全用文字描述且不丟信息,它本質(zhì)上就會(huì)退化成文本題。

模型可以靠強(qiáng)大的語(yǔ)言推理能力一路通關(guān),看起來(lái)很會(huì)「看」,其實(shí)是在走語(yǔ)言捷徑。

而真正的視覺(jué)能力,需要在沒(méi)有語(yǔ)言扶梯的情況下完成:比較、追蹤、空間想象、模式歸納。

Google DeepMind創(chuàng)始人Demis Hassabis曾提到類似觀點(diǎn):

「大模型可以在國(guó)際數(shù)學(xué)奧林匹克拿金牌,卻會(huì)在小學(xué)幾何題上出錯(cuò);它能生成驚艷圖像,卻不理解杯子為什么不會(huì)飄在空中?!?/p>

展望2026年,我們判斷世界模型與視覺(jué)多模態(tài)將迎來(lái)新一輪突破性進(jìn)展。

值此開(kāi)年之際,UniPat AI聯(lián)合x(chóng)bench率先拋出關(guān)鍵問(wèn)題和全新「考卷」,以此迎接并參與新一輪技術(shù)突破的到來(lái)。

讓頂尖模型和孩子做同一張?jiān)嚲?/strong>

BabyVision先做了一項(xiàng)非常直接的對(duì)比實(shí)驗(yàn):把20道視覺(jué)中心任務(wù)(vision-centric)作為BabyVision-Mini交給不同年齡段孩子(3/6/10/12歲)和當(dāng)下頂尖多模態(tài)模型來(lái)做。

這份「小試卷」要求嚴(yán)格控制語(yǔ)言依賴:題目要求很簡(jiǎn)單,答案必須靠視覺(jué)信息本身得出。

而最終評(píng)測(cè)結(jié)果顯示:在「看懂世界」這方面,大模型還沒(méi)上幼兒園:

  • 大多數(shù)模型的分?jǐn)?shù),聚集在明顯低于平均3歲兒童的區(qū)間;

  • Gemini-3-Pro-Preview是唯一穩(wěn)定超過(guò)3歲基線的模型,但距離6歲兒童仍差約20個(gè)百分點(diǎn)。


下面是其中一道題,直觀且反直覺(jué),連線垃圾分類,小孩可以輕松做對(duì),但頂尖模型追蹤一條線都能追丟。

三件物品沿著線分別連到哪個(gè)顏色垃圾桶?A, B, C分別表示上方從左到右的三個(gè)物體。



<< 左右滑動(dòng)查看下一張圖片 >>

  • 正確答案:A-藍(lán),B-黃,C-綠

  • 模型答案(Gemini3-Pro-Preview):A-綠,B-黃,C-藍(lán)

人類的解法幾乎是本能,從點(diǎn)出發(fā)沿線走到終點(diǎn)(右側(cè)照片是三歲幼兒真實(shí)做題痕跡)。

但模型會(huì)寫(xiě)出一大段「逐段追蹤」的推理,最后仍把兩條路徑接反:看起來(lái)「很會(huì)分析」,其實(shí)在最基礎(chǔ)的視覺(jué)追蹤上掉線。

BabyVision-Full把視覺(jué)能力拆成4大類

研究團(tuán)隊(duì)將視覺(jué)能力提煉為四大核心類別,每類下細(xì)分若干子任務(wù):

  • 精細(xì)辨別(Fine-grained Discrimination):分辨細(xì)微的視覺(jué)差異(8 個(gè)子任務(wù))

  • 視覺(jué)追蹤(Visual Tracking):跟隨路徑、線條與運(yùn)動(dòng)軌跡(5 個(gè)子任務(wù))

  • 空間感知(Spatial Perception):理解三維結(jié)構(gòu)及其關(guān)系(5 個(gè)子任務(wù))

  • 視覺(jué)模式識(shí)別(VisualPattern Recognition:識(shí)別邏輯與幾何規(guī)律(4 個(gè)子任務(wù))

這套設(shè)計(jì)的核心理念很明確:不是為了「刁難」模型,而是量化那些「人類直覺(jué)就會(huì)、但構(gòu)成智能地基」的視覺(jué)原子能力

這同樣是具身智能(embodied AI)走向現(xiàn)實(shí)世界的必修課。

為了最大程度確?!讣円曈X(jué)」考核的有效性,BabyVision在數(shù)據(jù)構(gòu)建上也下足了工夫。

項(xiàng)目團(tuán)隊(duì)首先參考了兒童認(rèn)知教材和視覺(jué)發(fā)育測(cè)驗(yàn),梳理出了上述4大類共22種基礎(chǔ)視覺(jué)子任務(wù)。

接著,每個(gè)子技能挑選出 4-5 個(gè)種子示例(種子圖片),作為該類型任務(wù)的典型代表。

基于這些種子示例,研究者利用逆向圖像搜索和關(guān)鍵詞搜索,從互聯(lián)網(wǎng)上爬取了約4000張相似的候選圖片。

在數(shù)據(jù)收集過(guò)程中,團(tuán)隊(duì)嚴(yán)格遵守版權(quán)規(guī)范,只挑選可用于非商業(yè)或?qū)W術(shù)用途的素材,并過(guò)濾掉可能包含大量文字說(shuō)明或需要文化常識(shí)才能理解的圖片。

由此獲得的海量圖片進(jìn)入人工標(biāo)注環(huán)節(jié):多名專業(yè)人員逐一檢查圖片,篩除不適合出題的樣本,對(duì)保留下來(lái)的圖片精心設(shè)計(jì)問(wèn)題和標(biāo)準(zhǔn)答案。

為了確保答案的客觀正確,每個(gè)問(wèn)題還附有詳細(xì)的「解題過(guò)程」說(shuō)明,以證明答案確實(shí)可由視覺(jué)推理得出。

最終,所有標(biāo)注完成的問(wèn)題都經(jīng)過(guò)「雙盲質(zhì)檢」——兩位獨(dú)立專家交叉審核,每道題只有在雙方都認(rèn)可其答案無(wú)誤、推理嚴(yán)謹(jǐn)?shù)那闆r下才被收錄 ;若出現(xiàn)異議則退回修改,反復(fù)仍無(wú)法達(dá)成一致的題目則果斷棄用。

經(jīng)過(guò)這一系列嚴(yán)苛的篩選,BabyVision最終產(chǎn)出了388道高質(zhì)量視覺(jué)題目,涵蓋22種子任務(wù)。


最終評(píng)測(cè)結(jié)果

在BabyVision-Full上,研究團(tuán)隊(duì)引入了人類基線,16位至少本科背景的測(cè)試者完成全量388題,人類準(zhǔn)確率達(dá)94.1%。

再看模型:

?閉源最強(qiáng):Gemini-3-Pro Preview49.7%

開(kāi)源側(cè):

? 最強(qiáng)模型(Qwen-3-VL-235B-Thinking)整體為22.2%,多數(shù)模型在12–19%區(qū)間。

更關(guān)鍵的是:差距不是集中在某一個(gè)類別。

四大類能力都在下滑,說(shuō)明這是「系統(tǒng)性缺基礎(chǔ)視覺(jué)能力」,而非某個(gè)單點(diǎn)缺陷。

一些子任務(wù)甚至幾乎「全員翻車」,例如Count 3D Blocks在多模型中普遍偏低,暴露的是模型結(jié)構(gòu)化場(chǎng)景能力不足。


為什么會(huì)這樣?

這些題目unspeakable

最反直覺(jué)的地方在于:BabyVision里的很多題,對(duì)人類來(lái)說(shuō)不難,甚至孩子會(huì)用指一指、圈一圈、沿著線走一遍就搞定。

但模型一旦用文字去「復(fù)述」視覺(jué),再用語(yǔ)言推理去算,信息就丟了。

研究團(tuán)隊(duì)把這種現(xiàn)象概括為:「這些視覺(jué)題是「unspeakable」的,無(wú)法在不損失信息的情況下被完整語(yǔ)言化;模型試圖把視覺(jué)壓縮成token,細(xì)節(jié)在壓縮中消失。」

并進(jìn)一步總結(jié)了4類典型挑戰(zhàn):


挑戰(zhàn) 1:「非語(yǔ)言細(xì)節(jié)」(Observing Non-Verbal Details)


比如拼圖/補(bǔ)全題里,選項(xiàng)差別可能只是一個(gè)微小邊界、一個(gè)局部凸起、一個(gè)像素級(jí)錯(cuò)位。

人類憑幾何直覺(jué)「對(duì)齊邊界」就能秒選,但模型一旦把形狀用語(yǔ)言概括成「像鉤子、兩個(gè)腿、差不多七八個(gè)六邊形」,細(xì)節(jié)就被抹平,選項(xiàng)在token空間里變得「幾乎一樣」。


挑戰(zhàn) 2:追線追丟了(Manifold Understanding)


連線/繞線/軌跡題,答案編碼在「連通性」里:

人類是鎖定一條線→穿過(guò)交叉→一路追到終點(diǎn);

模型往往把線翻譯成「左/右/上/下」的離散步驟,一遇到交叉點(diǎn)就出現(xiàn)分叉爆炸,容易「換軌」追錯(cuò)線。


挑戰(zhàn) 3:缺少真正的空間想象(Spatial Imagination)


三維方塊計(jì)數(shù)、視角投影、遮擋下的結(jié)構(gòu)判斷,人類通常不是「用語(yǔ)言一步步描述」,而是把結(jié)構(gòu)在腦中「立起來(lái)」,換個(gè)角度看,再數(shù)。

模型則容易犯兩類錯(cuò)誤:漏掉隱藏塊、投影關(guān)系搞錯(cuò)。這不是邏輯差,而是缺少穩(wěn)定的3D內(nèi)部表征與變換能力。


挑戰(zhàn) 4:圖形規(guī)律歸納難(Visual Pattern Induction)


這類題要求從少量視覺(jué)示例里抽象出規(guī)則,再遷移到新圖。

人類做的是關(guān)系映射,真正決定正確性的是「發(fā)生了什么變化」而不是「那里有什么」,具體的形狀、顏色、絕對(duì)位置都可以變,只有它們?cè)谧儞Q中的「身份」不變。

模型常常盯著表面屬性(顏色、形狀),把「結(jié)構(gòu)規(guī)則」誤讀成「外觀統(tǒng)計(jì)」,導(dǎo)致遷移時(shí)幻覺(jué)規(guī)則。

BabyVision-Gen給出一個(gè)新方向

當(dāng)文本推理不夠用,一個(gè)自然的問(wèn)題出現(xiàn)了:

能不能讓模型像孩子一樣,用畫(huà)、圈、連線、描軌跡來(lái)作答?

于是,有了BabyVision-Gen:

? 從原基準(zhǔn)中重新標(biāo)注出280道適合「生成式作答」的題

?要求模型輸出圖像/視頻來(lái)表達(dá)解題過(guò)程或答案

?并開(kāi)發(fā)了自動(dòng)評(píng)測(cè)工具,與人工評(píng)測(cè)一致性達(dá)96%

研究團(tuán)隊(duì)在BabyVision-Gen上評(píng)測(cè)了多種生成模型(包括Nano Banana Pro、Qwen-Image、Veo 3、Sora 2)。

現(xiàn)階段得到的結(jié)論很克制但重要:

? 生成式推理在視覺(jué)追蹤、精細(xì)辨別等VLM易翻車任務(wù)上出現(xiàn)「更像人類」的行為(會(huì)真的去畫(huà)軌跡、做標(biāo)注);

? 但整體仍然缺乏穩(wěn)定到達(dá)完全正確解的能力。

這至少說(shuō)明:把視覺(jué)推理「落地到視覺(jué)操作」上,可能是補(bǔ)齊短板的一條路。

下面看一個(gè)具體的例子:用紅線沿著從左上角圖形延伸出的那條線,完整地描出其全程路徑。

Sora 2:

Nano Banana Pro:


為什么BabyVision重要?

正如研究團(tuán)隊(duì)在Blog中所寫(xiě):

「很難想象一個(gè)視覺(jué)能力低于3歲孩子的機(jī)器人,能夠可靠地在真實(shí)物理世界里幫助人類。」

今天,多模態(tài)模型「會(huì)說(shuō)會(huì)寫(xiě)」已經(jīng)很強(qiáng),但要走向真正的通用智能與具身智能,視覺(jué)地基必須補(bǔ)上:看得準(zhǔn)(細(xì)粒度辨別),追得?。ㄜ壽E/連通性),想得出(3D結(jié)構(gòu)想象),歸納得了(圖形規(guī)則遷移)。

因此,BabyVision的價(jià)值正在于:

把「看懂世界」拆成可測(cè)量、可診斷、可迭代的22個(gè)原子能力,告訴我們差距到底在哪里、下一步該補(bǔ)什么,從而引導(dǎo)多模態(tài)大模型發(fā)展。

開(kāi)源地址

blog

https://unipat.ai/blog/BabyVision

github

https://github.com/UniPat-AI/BabyVision

huggingface

https://huggingface.co/collections/UnipatAI/babyvision

UniPat

UniPat AI致力于構(gòu)建真實(shí)場(chǎng)景下AI訓(xùn)練、評(píng)測(cè)與應(yīng)用的新范式,推動(dòng)其實(shí)現(xiàn)可泛化、可信賴的真實(shí)世界部署,并創(chuàng)造切實(shí)的經(jīng)濟(jì)與社會(huì)價(jià)值。

官網(wǎng)鏈接:https://unipat.ai

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
東航MU5735三周年祭,民航局回復(fù):相關(guān)信息不予公開(kāi)

東航MU5735三周年祭,民航局回復(fù):相關(guān)信息不予公開(kāi)

干史人
2025-12-17 19:00:05
U23亞洲杯亂了:越南6分面臨出局!中國(guó)隊(duì)迎2好消息,亞足聯(lián)助攻

U23亞洲杯亂了:越南6分面臨出局!中國(guó)隊(duì)迎2好消息,亞足聯(lián)助攻

侃球熊弟
2026-01-12 20:29:42
新華社快訊:伊朗外長(zhǎng)說(shuō)伊朗安全部隊(duì)已控制全國(guó)局勢(shì)

新華社快訊:伊朗外長(zhǎng)說(shuō)伊朗安全部隊(duì)已控制全國(guó)局勢(shì)

新華社
2026-01-12 15:33:03
昆明警方回應(yīng)“街頭火拼”視頻:演出拍攝者與發(fā)布者等5人被批評(píng)教育

昆明警方回應(yīng)“街頭火拼”視頻:演出拍攝者與發(fā)布者等5人被批評(píng)教育

澎湃新聞
2026-01-12 12:50:28
美聯(lián)儲(chǔ)主席鮑威爾回應(yīng)遭刑事調(diào)查:大樓翻修工程只是借口,本質(zhì)是關(guān)于利率政策制定

美聯(lián)儲(chǔ)主席鮑威爾回應(yīng)遭刑事調(diào)查:大樓翻修工程只是借口,本質(zhì)是關(guān)于利率政策制定

澎湃新聞
2026-01-12 09:24:26
俄方爆料!“美軍一開(kāi)始就沒(méi)打算讓任何人活下來(lái)”

俄方爆料!“美軍一開(kāi)始就沒(méi)打算讓任何人活下來(lái)”

浙江之聲
2026-01-11 18:23:51
中使館:柬埔寨偵破兩起綁架、非法拘禁中國(guó)公民案件,抓獲8名中國(guó)籍犯罪嫌疑人

中使館:柬埔寨偵破兩起綁架、非法拘禁中國(guó)公民案件,抓獲8名中國(guó)籍犯罪嫌疑人

界面新聞
2026-01-12 22:59:02
蔡依林演唱會(huì)被舉報(bào)“搞邪教儀式”:30米機(jī)械蛇、金色公牛等引爭(zhēng)議,網(wǎng)友質(zhì)疑含西方宗教元素;此前蔡依林方已發(fā)聲明稱為惡意造謠

蔡依林演唱會(huì)被舉報(bào)“搞邪教儀式”:30米機(jī)械蛇、金色公牛等引爭(zhēng)議,網(wǎng)友質(zhì)疑含西方宗教元素;此前蔡依林方已發(fā)聲明稱為惡意造謠

揚(yáng)子晚報(bào)
2026-01-12 13:52:04
官方披露!馬杜羅瑞士個(gè)人賬戶坐擁127噸黃金

官方披露!馬杜羅瑞士個(gè)人賬戶坐擁127噸黃金

老馬拉車莫少裝
2026-01-12 18:14:12
中國(guó)出手了!石平之子錄取資格被取消,女兒在機(jī)場(chǎng)被攔,太解氣了

中國(guó)出手了!石平之子錄取資格被取消,女兒在機(jī)場(chǎng)被攔,太解氣了

小lu侃侃而談
2026-01-12 19:56:41
熱搜!iPhone 4回收價(jià)最高漲60倍

熱搜!iPhone 4回收價(jià)最高漲60倍

北京商報(bào)
2026-01-12 19:22:51
活動(dòng)人士稱:大屠殺,視頻顯示伊朗德黑蘭以南尸體堆積如山

活動(dòng)人士稱:大屠殺,視頻顯示伊朗德黑蘭以南尸體堆積如山

一種觀點(diǎn)
2026-01-12 19:57:19
曹軼歐回憶:1933年,康生親手用斧子劈死了顧順章的家人

曹軼歐回憶:1933年,康生親手用斧子劈死了顧順章的家人

蔣南強(qiáng)讀歷史
2026-01-12 08:20:06
人前光鮮人后心酸,45歲"消失"的玲花,終是為曾毅的行為買(mǎi)了單

人前光鮮人后心酸,45歲"消失"的玲花,終是為曾毅的行為買(mǎi)了單

林雁飛
2026-01-11 14:50:02
超級(jí)大冷!廣東女籃遭山東終結(jié)開(kāi)局14連勝 張子宇復(fù)出10+2+3帽

超級(jí)大冷!廣東女籃遭山東終結(jié)開(kāi)局14連勝 張子宇復(fù)出10+2+3帽

醉臥浮生
2026-01-12 21:27:20
“綁架普京”言論激怒俄羅斯!扎哈羅娃一句話猛懟英防長(zhǎng)

“綁架普京”言論激怒俄羅斯!扎哈羅娃一句話猛懟英防長(zhǎng)

環(huán)球時(shí)報(bào)國(guó)際
2026-01-12 21:12:44
女子在廣州遇“換錢(qián)騙局”,對(duì)方得手后騎車就跑!5公里內(nèi),還有2名女子同天被騙

女子在廣州遇“換錢(qián)騙局”,對(duì)方得手后騎車就跑!5公里內(nèi),還有2名女子同天被騙

齊魯壹點(diǎn)
2026-01-12 16:22:09
知曉女子丈夫出差后,男子跨城趕來(lái)約其賓館喝酒,實(shí)施強(qiáng)奸未遂獲刑一年半

知曉女子丈夫出差后,男子跨城趕來(lái)約其賓館喝酒,實(shí)施強(qiáng)奸未遂獲刑一年半

紅星新聞
2026-01-12 20:27:28
突發(fā),多家車企大降價(jià)

突發(fā),多家車企大降價(jià)

新行情
2026-01-12 17:26:13
“電腦不賣、貨架不賣、電視不賣”,即將關(guān)閉的宜家門(mén)店多個(gè)貨架售罄,客服稱不再補(bǔ)貨

“電腦不賣、貨架不賣、電視不賣”,即將關(guān)閉的宜家門(mén)店多個(gè)貨架售罄,客服稱不再補(bǔ)貨

洪觀新聞
2026-01-12 15:51:02
2026-01-12 23:44:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14319文章數(shù) 66454關(guān)注度
往期回顧 全部

科技要聞

面對(duì)SpaceX瘋狂“下餃子” 中國(guó)正面接招

頭條要聞

外媒問(wèn)王毅調(diào)整索馬里行程是否出于安全考慮 中方回應(yīng)

頭條要聞

外媒問(wèn)王毅調(diào)整索馬里行程是否出于安全考慮 中方回應(yīng)

體育要聞

一場(chǎng)安東尼奧式勝利,給中國(guó)足球帶來(lái)驚喜

娛樂(lè)要聞

蔡少芬結(jié)婚18周年,與張晉過(guò)二人世界

財(cái)經(jīng)要聞

倍輕松信披迷霧 實(shí)控人占用資金金額存疑

汽車要聞

增配不加價(jià) 北京現(xiàn)代 第五代 勝達(dá)2026款上市

態(tài)度原創(chuàng)

健康
游戲
家居
公開(kāi)課
軍事航空

血常規(guī)3項(xiàng)異常,是身體警報(bào)!

任天堂社長(zhǎng)承諾:多款備受期待的熱門(mén)IP新作開(kāi)發(fā)中!

家居要聞

包絡(luò)石木為生 野性舒適

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

官方確認(rèn):殲10CE在空戰(zhàn)中擊落多架戰(zhàn)機(jī)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版