国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OmniGAIA: 全模態(tài)AI智能體新基準,最強開源模型僅13分!

0
分享至


人大&小紅書推出OmniGAIA基準和OmniAtlas智能體。

人類的智能是自然交織的——我們不僅同時用眼睛看、用耳朵聽、用語言交流,還能進行復雜的長邏輯鏈推理,并在遇到難題時熟練使用搜索引擎等外部工具來輔助自己完成任務。

然而,當前爆火的“多模態(tài)大模型(MLLM)”大多仍局限于“圖文”或“音文”的雙模態(tài)交互。它們嚴重缺乏作為“通用AI助手”所必需的全模態(tài)統(tǒng)籌、長程推理與工具調(diào)用能力。

為了填補這一空白,中國人民大學聯(lián)合小紅書、東南大學、浙江大學和清華大學的研究團隊重磅推出了 OmniGAIA——一個專為評估“原生全模態(tài)AI智能體”而設計的新基準,并同時開源了配套的基礎智能體訓練秘籍 OmniAtlas!

該工作不僅揭示了當前開源模型與頂尖閉源模型之間的巨大“智能鴻溝”,更給出了一套讓大模型真正學會“看、聽、想與用工具”的實戰(zhàn)配方。目前代碼、數(shù)據(jù)、模型已全面開源!


論文鏈接: https://arxiv.org/pdf/2602.22897

代碼&Demo:https://github.com/RUC-NLPIR/OmniGAIA

數(shù)據(jù)集&模型:https://huggingface.co/collections/RUC-NLPIR/omnigaia

排行榜:https://huggingface.co/spaces/RUC-NLPIR/OmniGAIA-LeaderBoard

01


Demo

1. 圖片+音頻任務:計算圖片和音頻中兩個事件發(fā)生時間相隔多久?

2. 帶音頻的視頻任務:視頻中講者提到了一個某電影中的橋,請幫我調(diào)研其背景。

02


痛點直擊:現(xiàn)有的評測為什么不夠看

隨著 Qwen3-Omni、Gemini-3 等全模態(tài)大模型的涌現(xiàn),模型已經(jīng)能在單一網(wǎng)絡內(nèi)統(tǒng)一處理文本、視覺和音頻。但現(xiàn)有的評測基準(如 OmniBench、WorldSense 等)大多基于極短的音視頻,且題型多為重“感知”的多項選擇題。

在真實世界中,我們需要 AI 解決的問題是這樣的:

“視頻里導游指著遠處的那座活動橋,解說提到這讓他想起了電影《福祿雙霸天》。請問這座橋到底叫什么名字?在1979年電影開拍時,這座橋已經(jīng)建成了多少年?”


這就要求 AI 不能只會“看圖說話”,它必須面對幾十分鐘的長視頻,從中錨定地理位置,主動去搜索引擎查證橋的真實名字和建成年份,最后進行相關(guān)計算。

現(xiàn)有的評測測不出這種能力,OmniGAIA因此應運而生!

03


OmniGAIA:全模態(tài)智能體的新基準

OmniGAIA 包含360個源自真實世界的高難度任務,覆蓋地理、歷史、科技等 9 大垂直領(lǐng)域。輸入不僅包含時長數(shù)十分鐘的“視頻+音頻”,還有復雜的“圖片+音頻”組合。模型不能靠盲猜,必須多次調(diào)用外部工具才能得出唯一可驗證的開放式最終答案。

它是如何構(gòu)建出來的?——首創(chuàng)全模態(tài)事件圖譜驅(qū)動法


為了自動合成邏輯嚴密且防作弊的高難度QA,團隊設計了一套極其精妙的流水線:

1.數(shù)據(jù)收集從 FineVideo、LongVideoBench、LongVideo-Reason、COCO 2017 以及HuggingFace 中篩選并整理視頻(含音頻)及“圖像+音頻”數(shù)據(jù)源,覆蓋 100 多個不同的垂直領(lǐng)域。

2.高價值信息挖掘使用Gemini-3-Flash 提取事件、進行環(huán)境分析、音頻分析(包含自動語音識別 ASR、說話人身份識別 Speaker ID)以及圖像理解(包含光學字符識別 OCR、物體識別、人臉識別)。

3.智能體全模態(tài)事件圖譜構(gòu)建DeepSeek-V3.2通過規(guī)劃后續(xù)步驟、利用工具獲取新信息,并結(jié)合大語言模型 (LLM) 的自我反思(self-reflexion) 與人工審查來驗證事實準確性,從而迭代式地擴展初始事件圖譜。

4.問答生成與質(zhì)量審查通過事件模糊化(fuzzification) 生成高難度的多跳(multi-hop) 問答對,隨后由 LLM 和人工共同驗證其準確性、任務難度以及答案的唯一性。

04


OmniAtlas:原生全模態(tài)智能體基座模型

在嚴苛的測試下,早期的開源模型表現(xiàn)較差。為了提升開源全模態(tài)模型的 Agent 能力,團隊不僅提出了基準,更給出了一套開源解法與完整的“訓練秘籍”——OmniAtlas。


它遵循工具集成推理范式,包含三大核心殺手锏:

1.主動全模態(tài)感知(Active Perception)

面對超長視頻或高清大圖,傳統(tǒng)的“全局降采樣”會丟失大量細節(jié)。OmniAtlas 賦予了模型“指哪看哪、聽哪”的特技!它可以通過內(nèi)置工具(read_video / read_audio / read_image)精準截取特定時間段的視頻或裁剪特定區(qū)域的圖片,實現(xiàn)高保真的按需感知。

2.高質(zhì)量軌跡合成與監(jiān)督微調(diào)

團隊利用強大的推理模型進行“后見之明引導的樹探索”,在已知正確答案的引導下,剪枝掉錯誤分支,合成出完美的“思考+工具調(diào)用”成功軌跡。在監(jiān)督微調(diào)階段,采用掩碼監(jiān)督(Masked SFT),只對模型生成的“思考和動作”算 Loss,屏蔽掉外部工具返回的冗長噪音,讓模型真正學會“如何思考”。

3. OmniDPO細粒度糾錯

全模態(tài)任務極易“一步錯,步步錯”。團隊首創(chuàng)了OmniDPO,能夠精準定位失敗軌跡中的第一處錯誤點(到底是沒看清、聽漏了,還是搜索關(guān)鍵詞用錯了?),并生成糾正后的正確前綴,構(gòu)建正負樣本對進行偏好優(yōu)化,實現(xiàn)真正的“對癥下藥”!。

05


實驗結(jié)果:性能鴻溝與成因

1.主實驗結(jié)果:在OmniGAIA上對比全模態(tài)模型的性能


團隊在統(tǒng)一提供外部工具(搜索、瀏覽器、代碼)的嚴苛環(huán)境下評測了各大前沿模型,我們可以發(fā)現(xiàn):

1.閉源王者斷崖領(lǐng)先:最強的閉源模型 Gemini-3-Pro 拿下了62.5% 的一次通過率(Pass@1),展現(xiàn)出極其成熟的規(guī)劃與驗證能力。而最強的開源基線 Qwen-3-Omni (30B) 僅有13.3%,差距近乎 4.7 倍!

2.大力出奇跡失效:擁有高達5600億 (560B) 龐大參數(shù)量的 LongCat-Flash-Omni 得分甚至不如 30B 的小模型!這證明了:在全模態(tài)Agent領(lǐng)域,優(yōu)秀的“智能體工具調(diào)用策略”比單純的參數(shù)規(guī)模更關(guān)鍵。

3.OmniAtlas療效顯著:經(jīng)過OmniAtlas 訓練配方優(yōu)化的 Qwen-3-Omni,準確率從 13.3% 暴漲至 20.8% (+7.5)!在較小的 7B 模型上,更是提升了近 4 倍(3.6% ?? 13.3%)。

2.細粒度錯誤分析:AI到底在了哪一步?


通過對模型失敗軌跡的解剖,研究發(fā)現(xiàn):在困難任務中,開源模型有高達 90% 以上的失敗源于沒有正確使用工具(比如沒有調(diào)用工具,陷入搜索死循環(huán)、查錯方向),這直接導致了下游任務完成的全面崩潰。

3.工具調(diào)用行為分析


AI 到底該調(diào)用幾次工具?散點分布圖(Violin Plot)揭示了有趣的現(xiàn)象:

工具冷漠癥完全不用工具的模型(集中在 0 次),成功率很低。這證實了僅靠模型腦內(nèi)的先驗知識,根本搞不定復雜的真實環(huán)境。

調(diào)得多就一定好嗎?錯!部分失敗軌跡調(diào)用了 10~20 次以上工具,但全在做低效重復的無用功,無法有效解決不確定性。

從被動到主動:OmniAtlas 的工具調(diào)用分布更加主動,有效探索率的大幅提升直接拉動了過關(guān)率,但也帶來了工具調(diào)用冗余的問題,希望后續(xù)工作可以更好的平衡性能與效率。

4.原生全模態(tài)感知vs外掛感知工具,哪個更好?


我們真的需要原生全模態(tài)大模型嗎?能不能用純文本大模型,外掛一個“識圖/聽音 API”來代替?消融實驗給出了答案:

1.對強模型來說,原生才是王道:Gemini-3-Flash依靠原生感知拿到最高分 51.7,且工具調(diào)用僅需 4.4 次。如果把感知拆分成外部工具,不僅成績下降,API調(diào)用成本更是翻倍(增至 9.4 次)。

2.外掛工具打不了硬仗對于較弱的開源模型,外掛感知工具雖然能在簡單題上提點分,但在需要復雜跨模態(tài)推理的 Hard 難題中,成績直接崩盤(從 9.0 跌至 3.9)。

結(jié)論:外掛工具會切斷模態(tài)間的內(nèi)在聯(lián)系,原生全模態(tài)融合,才是拔高AI智能上限的唯一正解!

06


總結(jié)與未來展望

看得清、聽得懂只是起點,會思考、善用工具、能行動才是邁向通用人工智能(AGI)的試金石。

OmniGAIA 揭開了現(xiàn)有全模態(tài)大模型在“長程推理與多輪工具使用”上的缺陷,而OmniAtlas 的全套硬核實驗剖析則為開源社區(qū)指明了一條極具潛力的演進路線。研究團隊指出,通往真正原生全模態(tài) AI 助手的道路上,未來有三大黃金賽道:

1.全模態(tài)智能體強化學習(Agentic RL):在真實全模態(tài)反饋下直接優(yōu)化長視野決策策略。

2.全模態(tài)MCP生態(tài):為全模態(tài)智能體接入更多工具,打造可擴展的MCP工具集。

3.全模態(tài)具身智能(Embodied Agents):將擁有“全模態(tài)大腦”的智能體引入物理世界,完成真實世界的交互,來打造我們生活中的AI助手。

07


作者信息


本工作第一作者李曉熙,目前就讀于中國人民大學高瓴人工智能學院,博士三年級,研究方向主要包括Agentic AI、Deep Research、大模型推理、強化學習等。在國際頂級會議NeurIPS,ICLR,ACL等發(fā)表7篇一作工作,代表工作包括DeepAgent, WebThinker, Search-o1, RetroLLM等。2025 年起,他在小紅書參加 RedStar 實習項目,進行Agentic AI和Deep Research領(lǐng)域的研究工作。


本文的通信作者竇志成,中國人民大學高瓴人工智能學院長聘教授、博士生導師、副院長。主要研究方向為信息檢索、大模型、智能體、大模型檢索增強、AI搜索、司法智能等。在國際知名學術(shù)會議和期刊上發(fā)表論文200余篇,帶領(lǐng)團隊研發(fā)涉外法治大模型,開源大模型檢索增強工具包FlashRAG、iAgent系列信息智能體(WebThinker、ARPO、DeepAgent等)累計獲得GitHub星標1萬余枚。

未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
特朗普“停戰(zhàn)”,還挺諷刺的

特朗普“停戰(zhàn)”,還挺諷刺的

中國新聞周刊
2026-03-10 22:22:09
深圳上線“政務龍蝦”,卻被發(fā)現(xiàn)政務系統(tǒng)還在用IE瀏覽器,網(wǎng)友擔心信息遭泄露

深圳上線“政務龍蝦”,卻被發(fā)現(xiàn)政務系統(tǒng)還在用IE瀏覽器,網(wǎng)友擔心信息遭泄露

小蘿卜絲
2026-03-10 17:33:28
曝伊朗女足已正式登機離開澳洲:多人落淚+反抗未果 有2人成功留下

曝伊朗女足已正式登機離開澳洲:多人落淚+反抗未果 有2人成功留下

風過鄉(xiāng)
2026-03-10 21:14:19
李斌談超快充和換電模式:超快再快不可能有換電快,超快充對電池壽命和安全性等有損害

李斌談超快充和換電模式:超快再快不可能有換電快,超快充對電池壽命和安全性等有損害

中國能源網(wǎng)
2026-03-10 11:33:11
火爆全網(wǎng)的“養(yǎng)龍蝦”,第一批受害者已出現(xiàn)!有人被AI燒掉數(shù)萬元

火爆全網(wǎng)的“養(yǎng)龍蝦”,第一批受害者已出現(xiàn)!有人被AI燒掉數(shù)萬元

派大星紀錄片
2026-03-10 11:13:04
難以置信!網(wǎng)傳一女子征婚,稱網(wǎng)貸欠200多萬,誰幫還債就嫁給誰

難以置信!網(wǎng)傳一女子征婚,稱網(wǎng)貸欠200多萬,誰幫還債就嫁給誰

火山詩話
2026-03-10 13:46:15
出售藍軍23.5億鎊去向爭議,英國政府下最后通牒,阿布抗爭近4年

出售藍軍23.5億鎊去向爭議,英國政府下最后通牒,阿布抗爭近4年

夏侯看英超
2026-03-11 01:34:41
北大醫(yī)學專家胡大一:睡覺,一個讓你延長生命的革命性新秘方

北大醫(yī)學專家胡大一:睡覺,一個讓你延長生命的革命性新秘方

新浪財經(jīng)
2026-03-10 00:31:51
給屁眼做美白,已經(jīng)成為歐美上流社會的肛需

給屁眼做美白,已經(jīng)成為歐美上流社會的肛需

beebee
2026-03-10 11:09:50
證據(jù)確鑿!導致伊朗小學165人喪生的那枚導彈不是“戰(zhàn)斧”

證據(jù)確鑿!導致伊朗小學165人喪生的那枚導彈不是“戰(zhàn)斧”

山間聽雨
2026-03-10 22:09:43
金與正發(fā)出警告:后果可怕,不堪設想!

金與正發(fā)出警告:后果可怕,不堪設想!

IN朝鮮
2026-03-10 16:38:48
伊朗南部3省宣布支持巴列維,川普與內(nèi)塔爆發(fā)口水戰(zhàn),欲打退堂鼓

伊朗南部3省宣布支持巴列維,川普與內(nèi)塔爆發(fā)口水戰(zhàn),欲打退堂鼓

史政先鋒
2026-03-10 21:00:09
中國游客不來了,日本政府大力歡迎印度游客!日本空姐崩潰:他們用完的廁所簡直是災難!

中國游客不來了,日本政府大力歡迎印度游客!日本空姐崩潰:他們用完的廁所簡直是災難!

東京新青年
2026-03-10 18:52:49
伊朗德黑蘭突降“黑雨”!有民眾呼吸困難 喉嚨刺痛

伊朗德黑蘭突降“黑雨”!有民眾呼吸困難 喉嚨刺痛

閃電新聞
2026-03-10 19:30:10
國家互聯(lián)網(wǎng)應急中心發(fā)布OpenClaw安全應用風險提示

國家互聯(lián)網(wǎng)應急中心發(fā)布OpenClaw安全應用風險提示

界面新聞
2026-03-10 19:29:53
不怕被報復?伊朗女足5人摘下頭巾!獲準留在澳洲 球員家人遭逮捕

不怕被報復?伊朗女足5人摘下頭巾!獲準留在澳洲 球員家人遭逮捕

念洲
2026-03-10 07:46:07
中國女足4-0戰(zhàn)勝對手,晉級四強

中國女足4-0戰(zhàn)勝對手,晉級四強

大嘴說臺球
2026-03-10 21:43:09
于東來公布公司40億資產(chǎn)利潤分配方案:胖東來12名店長共分2.4億,每人2000萬元

于東來公布公司40億資產(chǎn)利潤分配方案:胖東來12名店長共分2.4億,每人2000萬元

大象新聞
2026-03-10 14:46:05
這菜再貴也要吃,大量上市!通便排毒,殺菌消炎,提高免疫力

這菜再貴也要吃,大量上市!通便排毒,殺菌消炎,提高免疫力

阿龍美食記
2026-03-10 16:31:51
陳都靈太嫩了

陳都靈太嫩了

阿廢冷眼觀察所
2026-02-28 11:28:38
2026-03-11 02:47:01
AI科技評論 incentive-icons
AI科技評論
點評學術(shù),服務AI
7111文章數(shù) 20739關(guān)注度
往期回顧 全部

科技要聞

全民"養(yǎng)蝦"背后:大廠集體下場瘋狂賣Token

頭條要聞

伊朗新最高領(lǐng)袖在襲擊中受傷未公開發(fā)表講話 官方回應

頭條要聞

伊朗新最高領(lǐng)袖在襲擊中受傷未公開發(fā)表講話 官方回應

體育要聞

加蘭沒那么差,但鱸魚會用嗎?

娛樂要聞

《逐玉》注水風波升級!315評論區(qū)淪陷

財經(jīng)要聞

“龍蝦補貼”密集出爐 最高1000萬!

汽車要聞

MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

態(tài)度原創(chuàng)

游戲
健康
手機
數(shù)碼
教育

《德波尼亞》Steam 免費領(lǐng) / 《超級馬力歐銀河大電影》最終預告曝光

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

手機要聞

M5 Max 版 16 英寸 MacBook Pro 體驗:算力巔峰與專業(yè)視界

數(shù)碼要聞

M5 Max 版 16 英寸 MacBook Pro 體驗:算力巔峰與專業(yè)視界

教育要聞

南京十三中發(fā)來邀請函!

無障礙瀏覽 進入關(guān)懷版