国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

紅杉xbench評測:大模型的視覺能力,普遍低于3歲兒童

0
分享至

紅杉中國 xbench 和 UniPat AI 發(fā)了一個新的多模態(tài)評測集,叫 BabyVision,在這里:

核心發(fā)現(xiàn):當前最強的多模態(tài)模型,在純視覺任務上的得分,普遍低于3歲兒童

人類準確率 94.1%
而在模型當中,Gemini 3 Pro Preview 最高,49.7%
大多數(shù)模型,則在 12-22% 區(qū)間


這個評測的設計思路有點意思,和大家分享一下

先看一道題

三件物品,沿著線分別連到哪個顏色垃圾桶?


正確答案:A-藍,B-黃,C-綠
Gemini 3 Pro Preview 的錯誤答案:A-綠,B-黃C-藍

人類怎么做這道題?從點出發(fā),沿著線走到終點
三歲小孩用手指頭比劃一下就能做對


模型怎么做?輸出一大段的推理過程,看起來很牛逼,但最后還是搞錯了
最頂尖的模型,在最基礎的視覺追蹤上,一敗涂地

這個評測在測什么

BabyVision 把視覺能力拆成了4大類,共22個子任務


精細辨別
分辨細微的視覺差異,比如找不同、補全拼圖、數(shù)相同圖案,共 8 個子任務

視覺追蹤
跟隨路徑、線條與運動軌跡,比如走迷宮、連線、地鐵圖找站,共 5 個子任務

空間感知
理解三維結構,比如數(shù)方塊、視角投影、折紙展開圖,共 5 個子任務

視覺模式識別
識別邏輯與幾何規(guī)律,比如旋轉規(guī)律、鏡像規(guī)律、邏輯推理,共 4 個子任務

這套測試有一個核心設計原則:嚴格控制語言依賴

題目要求很簡單,答案必須靠視覺信息本身得出
如果一道視覺題可以完全用文字描述且不丟信息,它本質(zhì)上就會退化成文本題,模型可以靠語言推理能力一路通關

BabyVision 要測的是:當語言幫不上忙的時候,模型還能不能「看懂」

然后結果就是:在BabyVision?Full上,16 位至少本科背景的測試者完成全量 388 題,人類準確率達 94.1%,大多數(shù)模型只在 12~19%之間,具體如下


為什么模型會翻車

研究團隊用了一個詞:unspeakable

這些視覺題無法在不損失信息的情況下被完整語言化
模型試圖把視覺壓縮成 token,細節(jié)在壓縮中消失

4類典型挑戰(zhàn):

挑戰(zhàn) 1:「非語言細節(jié)」(Observing Non-Verbal Details)


拼圖/補全題里,選項差別可能只是一個微小邊界、一個局部凸起、一個像素級錯位

人類憑幾何直覺,就能秒選

模型一旦把形狀用語言概括成「像鉤子、兩個腿、差不多七八個六邊形」,細節(jié)就被抹平,選項在 token 空間里變得幾乎一樣

挑戰(zhàn) 2:追線追丟了(Manifold Understanding)


對于連線/繞線/軌跡之類的題,人類會始終鎖定一條線,穿過交叉,一路追到終點

模型往往把線翻譯成左/右/上/下的離散步驟,一遇到交叉點就出現(xiàn)分叉爆炸,容易換軌追錯線

挑戰(zhàn) 3:缺少真正的空間想象(Spatial Imagination)


三維方塊計數(shù)、視角投影、遮擋下的結構判斷
人類通常是把結構在腦中立起來,換個角度看,再數(shù)

模型容易犯兩類錯誤:漏掉隱藏塊、投影關系搞錯
所以嘛,大模型目前還是缺少穩(wěn)定的 3D 內(nèi)部表征與變換能力

挑戰(zhàn) 4:圖形規(guī)律歸納難(Visual Pattern Induction)


這類題,要求從少量視覺示例里抽象出規(guī)則,再遷移到新圖

人類做的是關系映射,真正決定正確性的是「發(fā)生了什么變化」,具體的形狀、顏色、絕對位置都可以變,只有它們的「身份」不變

模型常常盯著表面屬性(顏色、形狀),把「結構規(guī)則」誤讀成「外觀統(tǒng)計」,導致遷移時幻覺規(guī)則

BabyVision-Gen

既然文本推理不夠用,一個自然的想法:能不能讓模型像孩子一樣,用畫、圈、連線、描軌跡來作答?

BabyVision-Gen 就是這個方向的嘗試

從原基準中重新標注出 280 道適合「生成式作答」的題,要求模型輸出圖像或視頻來表達解題過程

研究團隊測了 Sora 2、Veo 3、Qwen-Image 等生成模型,比如用紅線沿著從左上角圖形延伸出的那條線,完整地描出其全程路徑,下面這個是 Sora 的實現(xiàn)

這個,則是 NanoBanana 的


初步結論:生成式推理在視覺追蹤、精細辨別等 VLM 易翻車的任務上,出現(xiàn)了「更像人類」的行為

模型會真的去畫軌跡、做標注,但整體仍然缺乏穩(wěn)定,無法做到完全正確

把視覺推理「落地到視覺操作」上,可能是補齊短板的一條路

xbench 是什么

這個我得仔細說說,和 xbench 的朋友們可太熟了,一堆有趣的逗比,新模型出來后,我總是先去找他們?nèi)枺@東西靠譜么

xbench 是紅杉中國 2025 年 5 月發(fā)布的 AI 評測基準
這是全球首個由投資機構主導,核心設計是雙軌評估體系

AGI Tracking
驗證模型在特定能力維度的智能邊界,題目追求「足夠難、巧妙、有區(qū)分度」

Profession-Aligned
把 AI 系統(tǒng)當作數(shù)字員工,放在具體業(yè)務流程中考察效用價值

已經(jīng)發(fā)布的評測集包括 ScienceQA(研究生水平學科知識)、DeepSearch(中文互聯(lián)網(wǎng)深度搜索)、招聘和營銷兩個垂類場景

BabyVision 是 AGI Tracking 系列的新成員,專門測多模態(tài)的純視覺能力

Demis Hassabis 說過一句話:大模型可以在國際數(shù)學奧林匹克拿金牌,卻會在小學幾何題上出錯;它能生成驚艷圖像,卻不理解杯子為什么不會飄在空中

BabyVision 就是把這個 gap 量化出來

xbench 的設計思路是 Evergreen Evaluation
持續(xù)維護、動態(tài)更新,每月匯報最新模型表現(xiàn),每季度更新評估集

作為 AGI 賽道的投資者,紅杉是有驅(qū)動力去要判斷 AI 技術何時能達到市場可落地的閾值

傳統(tǒng)評測集容易被刷爆,題目泄露導致過擬合,跟真實業(yè)務價值脫節(jié),對于要投錢的事情,紅杉更會以足夠客觀的方式去評估

開源地址

website:
https://xbench.org/

blog:
https://unipat.ai/blog/BabyVision

github:
https://github.com/UniPat-AI/BabyVision

huggingface:
https://huggingface.co/collections/UnipatAI/babyvision

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
上海電影院捉奸后續(xù),女子帶情夫公然出軌,視頻流出高清照片曝光

上海電影院捉奸后續(xù),女子帶情夫公然出軌,視頻流出高清照片曝光

壹月情感
2026-03-02 21:09:52
美軍新型彈道導彈首次投入實戰(zhàn)

美軍新型彈道導彈首次投入實戰(zhàn)

觀察者網(wǎng)
2026-03-02 16:42:09
銷量再跌,經(jīng)銷商庫存高企,外資車繼續(xù)降價,國產(chǎn)車不降價不行了

銷量再跌,經(jīng)銷商庫存高企,外資車繼續(xù)降價,國產(chǎn)車不降價不行了

柏銘銳談
2026-03-01 23:43:25
鞍鋼集團資本控股有限公司董事長、黨委書記賈文軍接受紀律審查和監(jiān)察調(diào)查

鞍鋼集團資本控股有限公司董事長、黨委書記賈文軍接受紀律審查和監(jiān)察調(diào)查

瀟湘晨報
2026-03-02 12:23:48
我國崩塌最徹底的專業(yè),從年薪20萬到找不到工作,畢業(yè)即失業(yè)!

我國崩塌最徹底的專業(yè),從年薪20萬到找不到工作,畢業(yè)即失業(yè)!

黯泉
2026-02-10 22:00:47
甘蔗立大功!醫(yī)生發(fā)現(xiàn):甘蔗可能對這4種慢性病有好處!可以試試

甘蔗立大功!醫(yī)生發(fā)現(xiàn):甘蔗可能對這4種慢性病有好處!可以試試

荊醫(yī)生科普
2026-03-02 17:05:04
票房128.6億,密鑰又一次延期,超過《哪吒2》只是時間問題

票房128.6億,密鑰又一次延期,超過《哪吒2》只是時間問題

白公子探劇
2026-03-02 15:26:41
偉偉道來 |美以伊戰(zhàn)爭會持續(xù)多長時間?有無談判止戰(zhàn)的機會和窗口?

偉偉道來 |美以伊戰(zhàn)爭會持續(xù)多長時間?有無談判止戰(zhàn)的機會和窗口?

經(jīng)濟觀察報
2026-03-02 11:30:41
知人知面不知心!回國就原形畢露!孫穎莎樊振東:緊急取關!

知人知面不知心!回國就原形畢露!孫穎莎樊振東:緊急取關!

阿廢冷眼觀察所
2026-03-03 00:31:38
張藝謀:第一次見她,我對她說,你等著我們來找你,不要亂演電影

張藝謀:第一次見她,我對她說,你等著我們來找你,不要亂演電影

秀語千尋
2026-02-22 19:28:42
哈佛研究揭示:高智商孩子常具兩種臉部特征不是迷信是腦科學真相

哈佛研究揭示:高智商孩子常具兩種臉部特征不是迷信是腦科學真相

一口娛樂
2026-02-27 12:42:23
56歲大媽心梗離世,醫(yī)生:吃他汀時除了牛奶,這6種食物盡量少碰

56歲大媽心梗離世,醫(yī)生:吃他汀時除了牛奶,這6種食物盡量少碰

岐黃傳人孫大夫
2026-02-28 22:15:03
10條驚人的父子定律:當爸越“不正經(jīng)”,養(yǎng)出的孩子越優(yōu)秀

10條驚人的父子定律:當爸越“不正經(jīng)”,養(yǎng)出的孩子越優(yōu)秀

戶外阿毽
2026-03-01 01:34:43
“天眼”24小時掃描中東,美軍在中國衛(wèi)星面前,沒有任何秘密可言

“天眼”24小時掃描中東,美軍在中國衛(wèi)星面前,沒有任何秘密可言

我心縱橫天地間
2026-03-02 14:05:07
歷史上首架F15被擊落,美軍飛行員一死一被俘!

歷史上首架F15被擊落,美軍飛行員一死一被俘!

勝研集
2026-03-02 14:06:57
明日正月十五是“絕日”,記得:1不去、2不賞、3要忌、4要吃

明日正月十五是“絕日”,記得:1不去、2不賞、3要忌、4要吃

愛下廚的阿釃
2026-03-02 20:28:38
“恨海情天仙品CP”售后預警!傳郭曉婷王天辰將合體拍雜志

“恨海情天仙品CP”售后預警!傳郭曉婷王天辰將合體拍雜志

手工制作阿殲
2026-03-02 19:49:02
歷史首次!中國石油、中國石化、中國海油全部漲停,滬指收漲0.47%丨A股收盤

歷史首次!中國石油、中國石化、中國海油全部漲停,滬指收漲0.47%丨A股收盤

每日經(jīng)濟新聞
2026-03-02 15:25:10
石榴立大功!國際期刊證實:4周可逆轉免疫衰老,壽命或?qū)⒀娱L45%

石榴立大功!國際期刊證實:4周可逆轉免疫衰老,壽命或?qū)⒀娱L45%

思思夜話
2026-03-02 22:10:13
卡塔爾首都多哈響起爆炸聲,滯留機場中國留學生目擊攔截導彈空中爆炸:機場鋼架都在振動,不時傳來哭聲,200多名同胞建群共享離境消息

卡塔爾首都多哈響起爆炸聲,滯留機場中國留學生目擊攔截導彈空中爆炸:機場鋼架都在振動,不時傳來哭聲,200多名同胞建群共享離境消息

極目新聞
2026-03-01 14:06:31
2026-03-03 02:51:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
309文章數(shù) 45關注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

中國留學生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

頭條要聞

中國留學生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

體育要聞

“想要我簽名嗎” 梅西逆轉后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

手機
本地
游戲
旅游
公開課

手機要聞

iPhone 17e外觀與前代幾乎一致 舊款iPhone 16e保護殼可繼續(xù)用

本地新聞

津南好·四時總相宜

外媒給《寶可夢》新作60分:不夠有趣的縫合怪

旅游要聞

熱度飆升!非遺、冰雪…禹州元宵“文旅大餐”承包圓滿佳節(jié)!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版