OmniGAIA: 全模態(tài)AI智能體新基準，最強開源模型僅13分！

2026-02-27 18:25:51　來源: AI科技評論

廣東舉報

分享至

人大&小紅書推出OmniGAIA基準和OmniAtlas智能體。

人類的智能是自然交織的——我們不僅同時用眼睛看、用耳朵聽、用語言交流，還能進行復雜的長邏輯鏈推理，并在遇到難題時熟練使用搜索引擎等外部工具來輔助自己完成任務。

然而，當前爆火的“多模態(tài)大模型（MLLM）”大多仍局限于“圖文”或“音文”的雙模態(tài)交互。它們嚴重缺乏作為“通用AI助手”所必需的全模態(tài)統(tǒng)籌、長程推理與工具調(diào)用能力。

為了填補這一空白，中國人民大學聯(lián)合小紅書、東南大學、浙江大學和清華大學的研究團隊重磅推出了 OmniGAIA——一個專為評估“原生全模態(tài)AI智能體”而設計的新基準，并同時開源了配套的基礎智能體訓練秘籍 OmniAtlas！

該工作不僅揭示了當前開源模型與頂尖閉源模型之間的巨大“智能鴻溝”，更給出了一套讓大模型真正學會“看、聽、想與用工具”的實戰(zhàn)配方。目前代碼、數(shù)據(jù)、模型已全面開源！

論文鏈接: https://arxiv.org/pdf/2602.22897

代碼&Demo:https://github.com/RUC-NLPIR/OmniGAIA

數(shù)據(jù)集&模型：https://huggingface.co/collections/RUC-NLPIR/omnigaia

排行榜：https://huggingface.co/spaces/RUC-NLPIR/OmniGAIA-LeaderBoard

Demo

1. 圖片+音頻任務：計算圖片和音頻中兩個事件發(fā)生時間相隔多久？

2. 帶音頻的視頻任務：視頻中講者提到了一個某電影中的橋，請幫我調(diào)研其背景。

痛點直擊：現(xiàn)有的評測為什么不夠看

隨著 Qwen3-Omni、Gemini-3 等全模態(tài)大模型的涌現(xiàn)，模型已經(jīng)能在單一網(wǎng)絡內(nèi)統(tǒng)一處理文本、視覺和音頻。但現(xiàn)有的評測基準（如 OmniBench、WorldSense 等）大多基于極短的音視頻，且題型多為重“感知”的多項選擇題。

在真實世界中，我們需要 AI 解決的問題是這樣的：

“視頻里導游指著遠處的那座活動橋，解說提到這讓他想起了電影《福祿雙霸天》。請問這座橋到底叫什么名字？在1979年電影開拍時，這座橋已經(jīng)建成了多少年？”

這就要求 AI 不能只會“看圖說話”，它必須面對幾十分鐘的長視頻，從中錨定地理位置，主動去搜索引擎查證橋的真實名字和建成年份，最后進行相關(guān)計算。

現(xiàn)有的評測測不出這種能力，OmniGAIA因此應運而生！

OmniGAIA：全模態(tài)智能體的新基準

OmniGAIA 包含360個源自真實世界的高難度任務，覆蓋地理、歷史、科技等 9 大垂直領(lǐng)域。輸入不僅包含時長數(shù)十分鐘的“視頻+音頻”，還有復雜的“圖片+音頻”組合。模型不能靠盲猜，必須多次調(diào)用外部工具才能得出唯一可驗證的開放式最終答案。

它是如何構(gòu)建出來的？——首創(chuàng)“全模態(tài)事件圖譜”驅(qū)動法

為了自動合成邏輯嚴密且防作弊的高難度QA，團隊設計了一套極其精妙的流水線：

1.數(shù)據(jù)收集：從 FineVideo、LongVideoBench、LongVideo-Reason、COCO 2017 以及HuggingFace 中篩選并整理視頻（含音頻）及“圖像+音頻”數(shù)據(jù)源，覆蓋 100 多個不同的垂直領(lǐng)域。

2.高價值信息挖掘：使用Gemini-3-Flash 提取事件、進行環(huán)境分析、音頻分析（包含自動語音識別 ASR、說話人身份識別 Speaker ID）以及圖像理解（包含光學字符識別 OCR、物體識別、人臉識別）。

3.智能體全模態(tài)事件圖譜構(gòu)建：DeepSeek-V3.2通過規(guī)劃后續(xù)步驟、利用工具獲取新信息，并結(jié)合大語言模型 (LLM) 的自我反思(self-reflexion) 與人工審查來驗證事實準確性，從而迭代式地擴展初始事件圖譜。

4.問答生成與質(zhì)量審查：通過事件模糊化(fuzzification) 生成高難度的多跳(multi-hop) 問答對，隨后由 LLM 和人工共同驗證其準確性、任務難度以及答案的唯一性。

OmniAtlas：原生全模態(tài)智能體基座模型

在嚴苛的測試下，早期的開源模型表現(xiàn)較差。為了提升開源全模態(tài)模型的 Agent 能力，團隊不僅提出了基準，更給出了一套開源解法與完整的“訓練秘籍”——OmniAtlas。

它遵循工具集成推理范式，包含三大核心殺手锏：

1.主動全模態(tài)感知(Active Perception)

面對超長視頻或高清大圖，傳統(tǒng)的“全局降采樣”會丟失大量細節(jié)。OmniAtlas 賦予了模型“指哪看哪、聽哪”的特技！它可以通過內(nèi)置工具（read_video / read_audio / read_image）精準截取特定時間段的視頻或裁剪特定區(qū)域的圖片，實現(xiàn)高保真的按需感知。

2.高質(zhì)量軌跡合成與監(jiān)督微調(diào)

團隊利用強大的推理模型進行“后見之明引導的樹探索”，在已知正確答案的引導下，剪枝掉錯誤分支，合成出完美的“思考+工具調(diào)用”成功軌跡。在監(jiān)督微調(diào)階段，采用掩碼監(jiān)督（Masked SFT），只對模型生成的“思考和動作”算 Loss，屏蔽掉外部工具返回的冗長噪音，讓模型真正學會“如何思考”。

3. OmniDPO細粒度糾錯

全模態(tài)任務極易“一步錯，步步錯”。團隊首創(chuàng)了OmniDPO，能夠精準定位失敗軌跡中的“第一處錯誤點”（到底是沒看清、聽漏了，還是搜索關(guān)鍵詞用錯了？），并生成糾正后的正確前綴，構(gòu)建正負樣本對進行偏好優(yōu)化，實現(xiàn)真正的“對癥下藥”！。

實驗結(jié)果：性能鴻溝與成因

1.主實驗結(jié)果：在OmniGAIA上對比全模態(tài)模型的性能

團隊在統(tǒng)一提供外部工具（搜索、瀏覽器、代碼）的嚴苛環(huán)境下評測了各大前沿模型，我們可以發(fā)現(xiàn)：

1.閉源王者斷崖領(lǐng)先：最強的閉源模型 Gemini-3-Pro 拿下了62.5% 的一次通過率（Pass@1），展現(xiàn)出極其成熟的規(guī)劃與驗證能力。而最強的開源基線 Qwen-3-Omni (30B) 僅有13.3%，差距近乎 4.7 倍！

2.“大力出奇跡”失效：擁有高達5600億 (560B) 龐大參數(shù)量的 LongCat-Flash-Omni 得分甚至不如 30B 的小模型！這證明了：在全模態(tài)Agent領(lǐng)域，優(yōu)秀的“智能體工具調(diào)用策略”比單純的參數(shù)規(guī)模更關(guān)鍵。

3.OmniAtlas療效顯著：經(jīng)過OmniAtlas 訓練配方優(yōu)化的 Qwen-3-Omni，準確率從 13.3% 暴漲至 20.8% (+7.5)！在較小的 7B 模型上，更是提升了近 4 倍（3.6% ?? 13.3%）。

2.細粒度錯誤分析：AI到底錯在了哪一步？

通過對模型失敗軌跡的解剖，研究發(fā)現(xiàn)：在困難任務中，開源模型有高達 90% 以上的失敗源于“沒有正確使用工具”（比如沒有調(diào)用工具，陷入搜索死循環(huán)、查錯方向），這直接導致了下游任務完成的全面崩潰。

3.工具調(diào)用行為分析

AI 到底該調(diào)用幾次工具？散點分布圖（Violin Plot）揭示了有趣的現(xiàn)象：

“工具冷漠癥”：完全不用工具的模型（集中在 0 次），成功率很低。這證實了僅靠模型腦內(nèi)的先驗知識，根本搞不定復雜的真實環(huán)境。

調(diào)得多就一定好嗎？錯！部分失敗軌跡調(diào)用了 10~20 次以上工具，但全在做低效重復的無用功，無法有效解決不確定性。

從被動到主動：OmniAtlas 的工具調(diào)用分布更加主動，有效探索率的大幅提升直接拉動了過關(guān)率，但也帶來了工具調(diào)用冗余的問題，希望后續(xù)工作可以更好的平衡性能與效率。

4.原生全模態(tài)感知vs外掛感知工具，哪個更好？

我們真的需要原生全模態(tài)大模型嗎？能不能用純文本大模型，外掛一個“識圖/聽音 API”來代替？消融實驗給出了答案：

1.對強模型來說，原生才是王道：Gemini-3-Flash依靠原生感知拿到最高分 51.7，且工具調(diào)用僅需 4.4 次。如果把感知拆分成外部工具，不僅成績下降，API調(diào)用成本更是翻倍（增至 9.4 次）。

2.外掛工具打不了“硬仗”：對于較弱的開源模型，外掛感知工具雖然能在簡單題上提點分，但在需要復雜跨模態(tài)推理的 Hard 難題中，成績直接崩盤（從 9.0 跌至 3.9）。

結(jié)論：外掛工具會切斷模態(tài)間的內(nèi)在聯(lián)系，原生全模態(tài)融合，才是拔高AI智能上限的唯一正解！

總結(jié)與未來展望

看得清、聽得懂只是起點，會思考、善用工具、能行動才是邁向通用人工智能（AGI）的試金石。

OmniGAIA 揭開了現(xiàn)有全模態(tài)大模型在“長程推理與多輪工具使用”上的缺陷，而OmniAtlas 的全套硬核實驗剖析則為開源社區(qū)指明了一條極具潛力的演進路線。研究團隊指出，通往真正原生全模態(tài) AI 助手的道路上，未來有三大黃金賽道：

1.全模態(tài)智能體強化學習（Agentic RL）：在真實全模態(tài)反饋下直接優(yōu)化長視野決策策略。

2.全模態(tài)MCP生態(tài)：為全模態(tài)智能體接入更多工具，打造可擴展的MCP工具集。

3.全模態(tài)具身智能（Embodied Agents）：將擁有“全模態(tài)大腦”的智能體引入物理世界，完成真實世界的交互，來打造我們生活中的AI助手。

作者信息

本工作第一作者李曉熙，目前就讀于中國人民大學高瓴人工智能學院，博士三年級，研究方向主要包括Agentic AI、Deep Research、大模型推理、強化學習等。在國際頂級會議NeurIPS，ICLR，ACL等發(fā)表7篇一作工作，代表工作包括DeepAgent, WebThinker, Search-o1, RetroLLM等。2025 年起，他在小紅書參加 RedStar 實習項目，進行Agentic AI和Deep Research領(lǐng)域的研究工作。

本文的通信作者竇志成，中國人民大學高瓴人工智能學院長聘教授、博士生導師、副院長。主要研究方向為信息檢索、大模型、智能體、大模型檢索增強、AI搜索、司法智能等。在國際知名學術(shù)會議和期刊上發(fā)表論文200余篇，帶領(lǐng)團隊研發(fā)涉外法治大模型，開源大模型檢索增強工具包FlashRAG、iAgent系列信息智能體（WebThinker、ARPO、DeepAgent等）累計獲得GitHub星標1萬余枚。

未經(jīng)「AI科技評論」授權(quán)，嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載！

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán)，轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.