人大突破：多模態(tài)AI實現(xiàn)人類級感知與推理能力

2026-02-27 22:20:56　來源: 科技行者

北京舉報

分享至

這項由中國人民大學(xué)聯(lián)合小紅書等機構(gòu)開展的開創(chuàng)性研究于2026年2月發(fā)表，研究團隊提出了OmniGAIA基準測試和OmniAtlas智能體模型。有興趣深入了解的讀者可以通過論文編號arXiv:2602.22897v1查詢完整論文。

人工智能發(fā)展至今，我們見證了許多令人驚嘆的突破。從能夠下圍棋的AlphaGo，到能夠?qū)懳恼碌腃hatGPT，再到能夠生成圖片的DALL-E。但有一個問題一直困擾著研究者：如何讓機器像人類一樣，能夠同時看、聽、思考，并且使用各種工具來解決復(fù)雜問題？

考慮這樣一個日常場景：當你在看一部電影時，你不僅能看到畫面中的演員和場景，還能聽到對話和背景音樂，同時你的大腦在快速整合這些信息，理解劇情發(fā)展，甚至可能拿出手機搜索相關(guān)信息來驗證某個歷史細節(jié)。這種多感官協(xié)調(diào)工作的能力，正是研究團隊希望機器能夠掌握的。

傳統(tǒng)的AI系統(tǒng)往往只能處理單一類型的信息，比如只能看圖片或者只能聽聲音，就像一個只有一只眼睛或只有一只耳朵的人。即使有些系統(tǒng)能同時處理視覺和聽覺信息，它們通常也缺乏使用外部工具進行深層推理的能力，就像一個雖然五官健全但不會使用任何工具的人。

研究團隊認識到，真正的智能應(yīng)該具備三個核心要素：全面的感知能力（能同時處理視頻、音頻和文本），深度的推理能力（能進行多步驟的邏輯思考），以及工具使用能力（能主動搜索信息、執(zhí)行代碼等）。這就像一個偵探破案需要觀察現(xiàn)場、詢問證人、查閱資料，并運用邏輯推理將所有線索串聯(lián)起來。

為了推動這一領(lǐng)域的發(fā)展，研究團隊做了兩件事：首先，他們創(chuàng)建了一個名為OmniGAIA的嚴格測試標準，用來評估AI系統(tǒng)的全方位智能水平；其次，他們開發(fā)了名為OmniAtlas的AI智能體，展示了如何構(gòu)建具備這種全方位能力的系統(tǒng)。

一、構(gòu)建史上最具挑戰(zhàn)性的多模態(tài)智能測試

設(shè)計一個能夠全面評估AI智能的測試，就像為奧運會設(shè)計比賽項目一樣復(fù)雜。你不能只測試運動員的短跑速度，還要考察他們的耐力、技巧、策略思維等多個維度。

OmniGAIA測試包含360個精心設(shè)計的任務(wù)，涵蓋了地理旅游、歷史社會、技術(shù)科學(xué)、體育娛樂等九個不同領(lǐng)域。每個任務(wù)都要求AI系統(tǒng)同時處理視頻畫面和音頻內(nèi)容，并通過網(wǎng)絡(luò)搜索、代碼執(zhí)行等工具來找到準確答案。這些任務(wù)的設(shè)計理念就像是為AI設(shè)計的"智力奧運會"，全面考察其感知、推理和工具使用能力。

測試任務(wù)的復(fù)雜程度可以用一個具體例子來說明。在一個任務(wù)中，AI需要觀看一段在芝加哥拍攝的視頻，聽到說話者提及一座橋梁讓他想起了電影《藍調(diào)兄弟》中的場景。然后AI必須識別這座具體的橋梁，搜索其建造時間，查找電影的拍攝開始日期，最后計算出拍攝開始時這座橋已經(jīng)存在了多少年。這個過程需要AI協(xié)調(diào)視覺觀察、聽覺理解、背景知識搜索和數(shù)學(xué)計算等多種能力。

研究團隊采用了一種創(chuàng)新的"事件圖"構(gòu)建方法來設(shè)計這些測試。他們首先從真實的視頻和音頻材料中提取關(guān)鍵信息，就像偵探從案發(fā)現(xiàn)場收集證據(jù)一樣。然后構(gòu)建一個包含實體、事件和關(guān)系的復(fù)雜網(wǎng)絡(luò)圖，類似于偵探案件板上用紅線連接的各種線索。接著，他們會故意"模糊化"某些關(guān)鍵節(jié)點，迫使AI系統(tǒng)必須通過多步推理和工具使用才能找到答案，就像故意隱藏某些關(guān)鍵證據(jù)，考驗偵探的推理能力。

為了確保測試的質(zhì)量和可靠性，研究團隊建立了嚴格的質(zhì)量控制流程。每個任務(wù)都要經(jīng)過AI系統(tǒng)的初步篩選，檢查問題的自然性、答案的唯一性和解答的必要性。然后由計算機科學(xué)專業(yè)的研究生進行人工審核，確保每個問題都有明確的答案且可以通過給定的方法解決。這個過程就像制作一道需要多種食材和復(fù)雜工序的菜品，每個步驟都必須精確無誤。

測試結(jié)果顯示了當前AI系統(tǒng)的真實水平。最強的商業(yè)AI系統(tǒng)Gemini-3-Pro的準確率為62.5%，而最好的開源系統(tǒng)Qwen3-Omni僅達到13.3%。這個巨大的性能差距揭示了當前AI技術(shù)的兩個關(guān)鍵瓶頸：多模態(tài)感知的準確性和復(fù)雜推理的可靠性。許多系統(tǒng)在面對需要協(xié)調(diào)視覺、聽覺和邏輯思維的復(fù)雜任務(wù)時，就像一個試圖同時進行多項活動但協(xié)調(diào)不佳的人，往往在某個環(huán)節(jié)出現(xiàn)錯誤，導(dǎo)致最終結(jié)果的失敗。

二、開發(fā)具備主動感知能力的智能體

在解決了如何評估AI能力的問題后，研究團隊面臨的下一個挑戰(zhàn)是：如何實際構(gòu)建一個具備這種全方位能力的AI系統(tǒng)？這就像在知道了奧運會比賽標準后，需要訓(xùn)練出能夠參賽的優(yōu)秀運動員。

OmniAtlas智能體的設(shè)計理念基于一個重要洞察：真正的智能不僅要能處理信息，還要能主動獲取所需的信息。就像一個經(jīng)驗豐富的醫(yī)生，在診斷病情時不會被動地等待所有檢查結(jié)果，而是會根據(jù)初步觀察主動要求進行特定的檢查。

傳統(tǒng)的AI系統(tǒng)在處理長視頻或高分辨率圖像時，往往會將所有內(nèi)容一次性壓縮處理，這就像試圖在一張小紙條上記錄整本書的內(nèi)容，必然會丟失大量重要細節(jié)。OmniAtlas采用了"主動感知"策略，能夠像人類一樣有選擇性地關(guān)注特定的時間段或區(qū)域。當系統(tǒng)覺得某段視頻內(nèi)容模糊不清時，它會主動要求重新觀看那個特定片段；當某個圖像區(qū)域需要仔細檢查時，它會主動放大查看那個區(qū)域。

這種主動感知能力的實現(xiàn)依賴于三個核心工具功能。首先是時間定位工具，允許系統(tǒng)指定查看視頻的特定時間段，就像使用遙控器精確定位到感興趣的電影片段。其次是區(qū)域定位工具，能夠裁剪和放大圖像的特定區(qū)域，類似于使用放大鏡仔細觀察文檔的某個部分。最后是跨模態(tài)檢索工具，能夠根據(jù)當前掌握的信息主動搜索相關(guān)的視頻、音頻或圖像材料，就像偵探根據(jù)現(xiàn)有線索尋找更多相關(guān)證據(jù)。

系統(tǒng)的推理過程采用了"工具集成推理"模式，這意味著思考和行動是緊密交織的，而不是分離的。傳統(tǒng)的AI系統(tǒng)往往是先思考再行動，就像一個學(xué)生先在腦中想好所有答案再開始寫作業(yè)。但OmniAtlas的工作方式更像是一個研究者，在思考過程中不斷查閱資料、驗證假設(shè)、修正觀點，思維和行動相互促進。

為了訓(xùn)練這樣的智能體，研究團隊開發(fā)了一套創(chuàng)新的"后見引導(dǎo)樹探索"方法。這個方法的核心思想是讓AI系統(tǒng)在已知正確答案的情況下，學(xué)習(xí)如何一步步到達這個答案。就像教一個學(xué)生解數(shù)學(xué)題，不僅要告訴他答案是什么，更要讓他理解每一步推理的邏輯。系統(tǒng)會嘗試多條不同的推理路徑，只保留那些最終導(dǎo)向正確答案的路徑用于學(xué)習(xí)，從而掌握有效的問題解決策略。

三、突破性的精細化錯誤糾正技術(shù)

即使有了好的訓(xùn)練數(shù)據(jù)和方法，AI系統(tǒng)仍然會在復(fù)雜任務(wù)中犯各種錯誤。研究團隊發(fā)現(xiàn)，簡單的整體訓(xùn)練方法就像用大錘敲核桃，雖然有效但不夠精確。他們需要一種更加精細的方法來糾正系統(tǒng)的特定錯誤類型。

研究團隊開發(fā)了名為OmniDPO的精細化錯誤糾正技術(shù)。這個技術(shù)的工作原理類似于一位耐心的老師，當學(xué)生做錯題時，不是簡單地告訴他整個解答過程都是錯的，而是精確指出他在哪一步開始出錯，然后從那個關(guān)鍵點開始糾正。

具體來說，當AI系統(tǒng)在解決問題時出現(xiàn)錯誤，OmniDPO會仔細分析整個推理過程，找到第一個出錯的步驟?？赡苁窃谝曈X感知階段誤讀了圖像內(nèi)容，可能是在信息搜索階段使用了錯誤的關(guān)鍵詞，也可能是在邏輯推理階段做出了不當?shù)募僭O(shè)。找到錯誤點后，系統(tǒng)會生成一個修正版本，展示在那個關(guān)鍵步驟應(yīng)該如何正確處理。

這種方法的效果就像為AI系統(tǒng)安裝了一個精確的"糾錯雷達"。通過對比錯誤版本和正確版本的差異，系統(tǒng)能夠?qū)W會識別和避免類似的錯誤模式。實驗結(jié)果顯示，經(jīng)過這種精細化訓(xùn)練的系統(tǒng)，在各種類型的錯誤上都有顯著改善，特別是在工具使用和推理邏輯方面的錯誤率大幅下降。

四、現(xiàn)實世界的挑戰(zhàn)與突破

研究團隊對當前AI系統(tǒng)進行了深入的錯誤分析，就像醫(yī)生為病人做全面體檢，找出各個器官的健康狀況。他們發(fā)現(xiàn)了一個令人擔憂的現(xiàn)象：越是困難的任務(wù)，AI系統(tǒng)的失敗率就越高，而且失敗往往是連鎖反應(yīng)式的。

在簡單任務(wù)中，AI系統(tǒng)的表現(xiàn)相對穩(wěn)定，錯誤主要集中在單一環(huán)節(jié)。但在復(fù)雜任務(wù)中，一個小錯誤往往會引發(fā)連鎖反應(yīng)，就像多米諾骨牌倒塌一樣。比如，如果系統(tǒng)在最初的視覺感知階段就誤解了場景內(nèi)容，那么后續(xù)的所有推理和工具使用都會建立在錯誤的基礎(chǔ)上，最終導(dǎo)致完全錯誤的結(jié)論。

研究發(fā)現(xiàn)，工具使用失敗和推理錯誤是最主要的兩種失敗模式。在困難任務(wù)中，超過90%的開源系統(tǒng)都會出現(xiàn)工具使用問題，約80%會出現(xiàn)推理錯誤。這表明當前的AI系統(tǒng)在面對復(fù)雜挑戰(zhàn)時，就像一個雖然有很多工具但不知道如何正確使用的工匠，往往是有心無力。

另一個重要發(fā)現(xiàn)是關(guān)于"原生感知"與"工具輔助感知"的比較。研究團隊測試了兩種不同的架構(gòu)：一種是系統(tǒng)本身具備多模態(tài)感知能力，另一種是通過調(diào)用專門的感知工具來處理視覺和聽覺信息。結(jié)果顯示，對于能力強的AI系統(tǒng)，原生感知效果更好，效率也更高；但對于能力較弱的系統(tǒng)，工具輔助感知可以在一定程度上彌補其不足，就像給視力不好的人配眼鏡一樣。

工具使用模式的分析也揭示了有趣的現(xiàn)象。研究團隊發(fā)現(xiàn)，工具使用的頻率和成功率之間并不是簡單的正比關(guān)系。一些系統(tǒng)雖然頻繁使用工具，但成功率并不高，這說明它們陷入了"無效探索"的困境，就像一個迷路的人在原地打轉(zhuǎn)。而成功的系統(tǒng)往往能夠更加精準地使用工具，每次工具調(diào)用都有明確的目的和預(yù)期效果。

五、開源與商業(yè)系統(tǒng)的巨大鴻溝

測試結(jié)果揭示了一個不容忽視的現(xiàn)實：開源AI系統(tǒng)與商業(yè)系統(tǒng)之間存在著巨大的性能差距。最強的商業(yè)系統(tǒng)Gemini-3-Pro達到了62.5%的準確率，而最好的開源系統(tǒng)Qwen3-Omni只有13.3%，差距超過4倍。這個結(jié)果就像業(yè)余球隊與職業(yè)球隊的比賽，實力懸殊令人印象深刻。

更令人意外的是，簡單地增加系統(tǒng)參數(shù)并不能有效提升性能。一個擁有5600億參數(shù)的大型開源系統(tǒng)，表現(xiàn)竟然不如參數(shù)量少得多的系統(tǒng)。這說明在多模態(tài)智能領(lǐng)域，系統(tǒng)架構(gòu)和訓(xùn)練方法比單純的規(guī)模更加重要，就像廚藝的高低不在于食材的多少，而在于對食材的理解和處理技巧。

經(jīng)過OmniAtlas方法訓(xùn)練的開源系統(tǒng)顯示出了顯著的改進。雖然仍然無法達到頂級商業(yè)系統(tǒng)的水平，但相比原始版本有了明顯提升。例如，經(jīng)過訓(xùn)練的Qwen3-Omni系統(tǒng)準確率從13.3%提升到了20.8%，提升幅度達到56%。這個進步雖然可觀，但也說明了在這個領(lǐng)域還有很長的路要走。

研究團隊特別分析了不同難度級別任務(wù)的表現(xiàn)差異。在簡單任務(wù)中，系統(tǒng)間的差距相對較小，但隨著任務(wù)難度增加，差距迅速拉大。在最困難的任務(wù)中，即使是最強的商業(yè)系統(tǒng)也只能達到38.5%的準確率，而開源系統(tǒng)幾乎完全失效。這個現(xiàn)象說明，真正的智能挑戰(zhàn)在于處理那些需要深度推理和復(fù)雜工具協(xié)調(diào)的任務(wù)。

六、實際應(yīng)用案例的深度解析

為了更好地理解AI系統(tǒng)的工作原理和失敗模式，研究團隊選擇了一個典型案例進行詳細分析。這個案例就像一面鏡子，清晰地反映出當前AI技術(shù)的優(yōu)勢和不足。

案例的背景是這樣的：在一段視頻中，說話者正在參觀芝加哥的一個歷史遺跡，他指著遠處的一座可移動橋梁，說它讓他想起了電影《藍調(diào)兄弟》中的某座橋。系統(tǒng)需要確定這座橋的名字，并計算出電影拍攝開始時這座橋已經(jīng)存在了多少年。

這個看似簡單的問題實際上需要AI系統(tǒng)協(xié)調(diào)多種復(fù)雜能力。首先，系統(tǒng)必須準確理解視頻和音頻內(nèi)容，識別出說話者所在的具體位置。其次，系統(tǒng)需要抵抗來自電影《藍調(diào)兄弟》的"干擾信息"——雖然電影確實在芝加哥拍攝并涉及橋梁場景，但關(guān)鍵是要找到視頻中實際出現(xiàn)的那座橋，而不是電影中的橋。最后，系統(tǒng)需要搜索準確的建造時間和拍攝開始時間，并進行正確的數(shù)學(xué)計算。

研究團隊觀察了三個不同系統(tǒng)對同一問題的處理過程。第一個系統(tǒng)完全沒有使用任何工具，僅憑內(nèi)部知識就做出了判斷，結(jié)果選擇了錯誤的橋梁并給出了錯誤的年份。這就像一個學(xué)生在考試時完全憑記憶答題，雖然速度很快但準確性堪憂。

第二個系統(tǒng)使用了搜索工具，但搜索策略有問題。它過度關(guān)注《藍調(diào)兄弟》電影相關(guān)的芝加哥橋梁信息，陷入了"確認偏誤"的陷阱。雖然最終的計算過程是正確的，但由于基礎(chǔ)信息錯誤，結(jié)果仍然是錯誤的。這就像一個偵探雖然很努力地收集證據(jù)，但從一開始就跟錯了方向，越努力離真相越遠。

第三個系統(tǒng)展現(xiàn)了正確的問題解決策略。它首先基于視頻內(nèi)容確定了具體的地理位置，然后搜索該位置附近的橋梁信息，接著驗證橋梁的建造時間和電影的拍攝時間，最后進行準確的計算。這個過程就像一個經(jīng)驗豐富的偵探，不被表面信息誤導(dǎo)，堅持以事實為基礎(chǔ)，逐步驗證每個關(guān)鍵信息點。

通過這個案例分析，研究團隊識別了兩種主要的失敗模式：工具使用不足和搜索策略偏移。前者是指系統(tǒng)過度依賴內(nèi)部知識而不愿意或不知道如何使用外部工具驗證信息；后者是指系統(tǒng)雖然使用了工具，但被錯誤的先入之見引導(dǎo)，搜索方向出現(xiàn)偏差。成功的系統(tǒng)展現(xiàn)出的特征是：位置優(yōu)先的定位策略、假設(shè)驗證的科學(xué)方法，以及計算前的事實核實習(xí)慣。

七、技術(shù)創(chuàng)新的深層意義

OmniGAIA和OmniAtlas的研究成果不僅僅是技術(shù)上的進步，更重要的是為AI發(fā)展指明了新的方向。這項工作就像在AI發(fā)展的地圖上標注了新的里程碑，讓研究者們看到了通往真正智能的可能路徑。

研究揭示了一個重要觀點：未來的AI系統(tǒng)不應(yīng)該是被動的信息處理器，而應(yīng)該是主動的問題解決者。傳統(tǒng)的AI系統(tǒng)就像一臺精密的計算器，給什么算什么，但缺乏主動獲取信息和驗證結(jié)果的能力。而新一代的AI系統(tǒng)應(yīng)該更像一個研究助手，能夠理解問題的本質(zhì)，主動尋找相關(guān)信息，并通過多種工具驗證結(jié)論的正確性。

主動感知能力的重要性在這項研究中得到了充分體現(xiàn)。與其讓AI系統(tǒng)處理所有可能的信息，不如讓它學(xué)會識別哪些信息是真正重要的，并主動獲取這些關(guān)鍵信息。這種方法不僅提高了效率，還顯著改善了準確性。就像一個聰明的學(xué)生不會試圖記住教科書的每一個字，而是會重點理解和掌握核心概念和關(guān)鍵信息。

工具集成推理的概念也具有深遠的影響。這種方法打破了思考和行動之間的人為界限，讓AI系統(tǒng)能夠在推理過程中靈活地使用各種工具。這更接近人類解決復(fù)雜問題的方式——我們在思考時會查閱資料、進行計算、尋求他人意見，思維和行動是相互促進的過程。

研究還強調(diào)了評估方法的重要性。OmniGAIA基準測試的創(chuàng)新不僅在于其復(fù)雜性，更在于其真實性。這些測試任務(wù)都來源于現(xiàn)實世界的實際需求，要求AI系統(tǒng)給出可驗證的具體答案，而不是模糊的描述。這種評估方式能夠更準確地反映AI系統(tǒng)在實際應(yīng)用中的表現(xiàn)，避免了傳統(tǒng)測試可能存在的"應(yīng)試"問題。

八、未來發(fā)展的廣闊前景

這項研究不僅解決了當前的技術(shù)問題，更為未來的發(fā)展開辟了新的可能性。研究團隊在論文中提出了三個值得期待的發(fā)展方向，每個都有著巨大的潛力。

第一個方向是多模態(tài)智能體的強化學(xué)習(xí)。目前的訓(xùn)練方法主要基于監(jiān)督學(xué)習(xí)，即給AI系統(tǒng)展示正確的問題解決過程讓它模仿。但強化學(xué)習(xí)方法能讓AI系統(tǒng)通過試錯來自主發(fā)現(xiàn)更好的策略，就像一個孩子通過不斷嘗試來學(xué)會騎自行車。這種方法可能會讓AI系統(tǒng)發(fā)現(xiàn)人類沒有想到的創(chuàng)新解決方案。

第二個方向是可擴展的多模態(tài)工具生態(tài)系統(tǒng)。目前的AI系統(tǒng)只能使用預(yù)定義的少數(shù)幾種工具，但未來可能會出現(xiàn)一個龐大的工具生態(tài)系統(tǒng)，包含各種專業(yè)領(lǐng)域的工具和服務(wù)。AI系統(tǒng)可以根據(jù)需要動態(tài)選擇和組合這些工具，就像一個多才多藝的工匠能夠熟練使用各種專業(yè)工具來完成復(fù)雜的工作。

第三個方向是物理世界中的具身智能體。當前的研究主要關(guān)注數(shù)字世界中的信息處理，但未來的AI系統(tǒng)可能需要在真實的物理環(huán)境中工作。這意味著AI不僅要能看、聽、想，還要能夠操控物理對象，與現(xiàn)實世界直接交互。這種具身智能將為機器人技術(shù)、自動化系統(tǒng)和智能制造帶來革命性的改變。

研究團隊特別強調(diào)了開源開放的重要性。他們不僅公開了所有的測試數(shù)據(jù)和評估工具，還分享了訓(xùn)練方法和模型代碼。這種開放態(tài)度將加速整個領(lǐng)域的發(fā)展，讓更多研究者能夠在這個基礎(chǔ)上繼續(xù)探索和創(chuàng)新。就像科學(xué)研究中的同行評議制度，開放分享能夠促進知識的快速傳播和驗證。

展望更遠的未來，這種多模態(tài)AI技術(shù)可能會徹底改變?nèi)藱C交互的方式。想象一個AI助手，它不僅能理解你說的話，還能觀察你的表情和動作，理解你所處的環(huán)境和上下文，并能主動幫你搜索信息、預(yù)訂服務(wù)、安排日程。這樣的AI助手將真正成為人類的智能伙伴，而不僅僅是一個高級的工具。

在教育領(lǐng)域，這種技術(shù)可能會創(chuàng)造出革命性的個性化學(xué)習(xí)系統(tǒng)。AI教師能夠觀察學(xué)生的學(xué)習(xí)狀態(tài)，聽取他們的問題，理解他們的困惑，并動態(tài)調(diào)整教學(xué)內(nèi)容和方法。在醫(yī)療領(lǐng)域，AI診斷系統(tǒng)能夠綜合分析醫(yī)學(xué)影像、患者描述、病歷記錄等多種信息，提供更加準確和全面的診斷建議。

說到底，這項研究代表的不僅是技術(shù)的進步，更是對智能本質(zhì)的深刻理解。真正的智能不在于處理信息的速度有多快，而在于能否像人類一樣靈活地感知世界、理解問題、尋找解決方案。OmniGAIA和OmniAtlas為我們展示了這種智能的可能性，雖然距離完美還有很長的路要走，但方向已經(jīng)清晰，未來值得期待。

當前的AI發(fā)展正處在一個關(guān)鍵的轉(zhuǎn)折點。我們已經(jīng)證明了機器可以在特定任務(wù)上超越人類，現(xiàn)在的挑戰(zhàn)是讓機器獲得像人類一樣的通用智能。這項研究提供的不僅是技術(shù)方案，更是思路啟發(fā)：真正的智能需要感知、推理和行動的完美結(jié)合，需要主動性而不是被動性，需要工具使用能力而不僅僅是信息處理能力。

對于普通人來說，這項研究意味著什么呢？也許在不久的將來，我們將擁有真正智能的數(shù)字助手，它們能夠理解我們的需求，主動幫助我們解決問題，就像一個貼心而能干的朋友。這種技術(shù)可能會讓我們的生活更加便利，工作更加高效，學(xué)習(xí)更加有趣。當然，這也提醒我們需要思考如何在享受AI帶來的便利的同時，保持人類獨有的創(chuàng)造力和批判思維能力。

Q&A

Q1：OmniGAIA基準測試和普通的AI測試有什么不同？

A：OmniGAIA基準測試最大的不同在于它要求AI系統(tǒng)同時處理視頻、音頻和文本信息，并且必須使用外部工具（如網(wǎng)絡(luò)搜索、代碼執(zhí)行）來解決問題。傳統(tǒng)測試通常只考察單一能力，比如只看圖片或只聽聲音，而OmniGAIA就像給AI設(shè)計的"智力奧運會"，全面考察感知、推理和工具使用的綜合能力。測試包含360個復(fù)雜任務(wù)，都需要多步推理和外部驗證才能完成。

Q2：OmniAtlas智能體的"主動感知"能力是如何工作的？

A：OmniAtlas的主動感知就像一個經(jīng)驗豐富的醫(yī)生進行診斷，不會被動等待所有檢查結(jié)果，而是根據(jù)需要主動要求特定檢查。當處理長視頻時，它可以主動選擇查看特定時間段；處理圖像時，可以主動放大某個區(qū)域仔細觀察。這避免了傳統(tǒng)AI系統(tǒng)將所有內(nèi)容一次性壓縮處理而丟失重要細節(jié)的問題，大大提高了處理復(fù)雜多媒體內(nèi)容的準確性和效率。

Q3：為什么開源AI系統(tǒng)和商業(yè)系統(tǒng)在這個測試中差距這么大？

A：測試結(jié)果顯示最強的商業(yè)系統(tǒng)達到62.5%準確率，而最好的開源系統(tǒng)只有13.3%，差距超過4倍。這主要是因為多模態(tài)智能需要的不僅僅是大量參數(shù)，更需要精細的架構(gòu)設(shè)計和訓(xùn)練方法。商業(yè)系統(tǒng)在數(shù)據(jù)質(zhì)量、訓(xùn)練資源和算法優(yōu)化方面都有優(yōu)勢。有趣的是，簡單增加參數(shù)并不能解決問題，一個5600億參數(shù)的系統(tǒng)表現(xiàn)還不如參數(shù)更少的系統(tǒng)，說明在這個領(lǐng)域技術(shù)方法比規(guī)模更重要。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.