国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

人大突破:多模態(tài)AI實現(xiàn)人類級感知與推理能力

0
分享至


這項由中國人民大學(xué)聯(lián)合小紅書等機構(gòu)開展的開創(chuàng)性研究于2026年2月發(fā)表,研究團隊提出了OmniGAIA基準測試和OmniAtlas智能體模型。有興趣深入了解的讀者可以通過論文編號arXiv:2602.22897v1查詢完整論文。

人工智能發(fā)展至今,我們見證了許多令人驚嘆的突破。從能夠下圍棋的AlphaGo,到能夠?qū)懳恼碌腃hatGPT,再到能夠生成圖片的DALL-E。但有一個問題一直困擾著研究者:如何讓機器像人類一樣,能夠同時看、聽、思考,并且使用各種工具來解決復(fù)雜問題?

考慮這樣一個日常場景:當你在看一部電影時,你不僅能看到畫面中的演員和場景,還能聽到對話和背景音樂,同時你的大腦在快速整合這些信息,理解劇情發(fā)展,甚至可能拿出手機搜索相關(guān)信息來驗證某個歷史細節(jié)。這種多感官協(xié)調(diào)工作的能力,正是研究團隊希望機器能夠掌握的。

傳統(tǒng)的AI系統(tǒng)往往只能處理單一類型的信息,比如只能看圖片或者只能聽聲音,就像一個只有一只眼睛或只有一只耳朵的人。即使有些系統(tǒng)能同時處理視覺和聽覺信息,它們通常也缺乏使用外部工具進行深層推理的能力,就像一個雖然五官健全但不會使用任何工具的人。

研究團隊認識到,真正的智能應(yīng)該具備三個核心要素:全面的感知能力(能同時處理視頻、音頻和文本),深度的推理能力(能進行多步驟的邏輯思考),以及工具使用能力(能主動搜索信息、執(zhí)行代碼等)。這就像一個偵探破案需要觀察現(xiàn)場、詢問證人、查閱資料,并運用邏輯推理將所有線索串聯(lián)起來。

為了推動這一領(lǐng)域的發(fā)展,研究團隊做了兩件事:首先,他們創(chuàng)建了一個名為OmniGAIA的嚴格測試標準,用來評估AI系統(tǒng)的全方位智能水平;其次,他們開發(fā)了名為OmniAtlas的AI智能體,展示了如何構(gòu)建具備這種全方位能力的系統(tǒng)。

一、構(gòu)建史上最具挑戰(zhàn)性的多模態(tài)智能測試

設(shè)計一個能夠全面評估AI智能的測試,就像為奧運會設(shè)計比賽項目一樣復(fù)雜。你不能只測試運動員的短跑速度,還要考察他們的耐力、技巧、策略思維等多個維度。

OmniGAIA測試包含360個精心設(shè)計的任務(wù),涵蓋了地理旅游、歷史社會、技術(shù)科學(xué)、體育娛樂等九個不同領(lǐng)域。每個任務(wù)都要求AI系統(tǒng)同時處理視頻畫面和音頻內(nèi)容,并通過網(wǎng)絡(luò)搜索、代碼執(zhí)行等工具來找到準確答案。這些任務(wù)的設(shè)計理念就像是為AI設(shè)計的"智力奧運會",全面考察其感知、推理和工具使用能力。

測試任務(wù)的復(fù)雜程度可以用一個具體例子來說明。在一個任務(wù)中,AI需要觀看一段在芝加哥拍攝的視頻,聽到說話者提及一座橋梁讓他想起了電影《藍調(diào)兄弟》中的場景。然后AI必須識別這座具體的橋梁,搜索其建造時間,查找電影的拍攝開始日期,最后計算出拍攝開始時這座橋已經(jīng)存在了多少年。這個過程需要AI協(xié)調(diào)視覺觀察、聽覺理解、背景知識搜索和數(shù)學(xué)計算等多種能力。

研究團隊采用了一種創(chuàng)新的"事件圖"構(gòu)建方法來設(shè)計這些測試。他們首先從真實的視頻和音頻材料中提取關(guān)鍵信息,就像偵探從案發(fā)現(xiàn)場收集證據(jù)一樣。然后構(gòu)建一個包含實體、事件和關(guān)系的復(fù)雜網(wǎng)絡(luò)圖,類似于偵探案件板上用紅線連接的各種線索。接著,他們會故意"模糊化"某些關(guān)鍵節(jié)點,迫使AI系統(tǒng)必須通過多步推理和工具使用才能找到答案,就像故意隱藏某些關(guān)鍵證據(jù),考驗偵探的推理能力。

為了確保測試的質(zhì)量和可靠性,研究團隊建立了嚴格的質(zhì)量控制流程。每個任務(wù)都要經(jīng)過AI系統(tǒng)的初步篩選,檢查問題的自然性、答案的唯一性和解答的必要性。然后由計算機科學(xué)專業(yè)的研究生進行人工審核,確保每個問題都有明確的答案且可以通過給定的方法解決。這個過程就像制作一道需要多種食材和復(fù)雜工序的菜品,每個步驟都必須精確無誤。

測試結(jié)果顯示了當前AI系統(tǒng)的真實水平。最強的商業(yè)AI系統(tǒng)Gemini-3-Pro的準確率為62.5%,而最好的開源系統(tǒng)Qwen3-Omni僅達到13.3%。這個巨大的性能差距揭示了當前AI技術(shù)的兩個關(guān)鍵瓶頸:多模態(tài)感知的準確性和復(fù)雜推理的可靠性。許多系統(tǒng)在面對需要協(xié)調(diào)視覺、聽覺和邏輯思維的復(fù)雜任務(wù)時,就像一個試圖同時進行多項活動但協(xié)調(diào)不佳的人,往往在某個環(huán)節(jié)出現(xiàn)錯誤,導(dǎo)致最終結(jié)果的失敗。

二、開發(fā)具備主動感知能力的智能體

在解決了如何評估AI能力的問題后,研究團隊面臨的下一個挑戰(zhàn)是:如何實際構(gòu)建一個具備這種全方位能力的AI系統(tǒng)?這就像在知道了奧運會比賽標準后,需要訓(xùn)練出能夠參賽的優(yōu)秀運動員。

OmniAtlas智能體的設(shè)計理念基于一個重要洞察:真正的智能不僅要能處理信息,還要能主動獲取所需的信息。就像一個經(jīng)驗豐富的醫(yī)生,在診斷病情時不會被動地等待所有檢查結(jié)果,而是會根據(jù)初步觀察主動要求進行特定的檢查。

傳統(tǒng)的AI系統(tǒng)在處理長視頻或高分辨率圖像時,往往會將所有內(nèi)容一次性壓縮處理,這就像試圖在一張小紙條上記錄整本書的內(nèi)容,必然會丟失大量重要細節(jié)。OmniAtlas采用了"主動感知"策略,能夠像人類一樣有選擇性地關(guān)注特定的時間段或區(qū)域。當系統(tǒng)覺得某段視頻內(nèi)容模糊不清時,它會主動要求重新觀看那個特定片段;當某個圖像區(qū)域需要仔細檢查時,它會主動放大查看那個區(qū)域。

這種主動感知能力的實現(xiàn)依賴于三個核心工具功能。首先是時間定位工具,允許系統(tǒng)指定查看視頻的特定時間段,就像使用遙控器精確定位到感興趣的電影片段。其次是區(qū)域定位工具,能夠裁剪和放大圖像的特定區(qū)域,類似于使用放大鏡仔細觀察文檔的某個部分。最后是跨模態(tài)檢索工具,能夠根據(jù)當前掌握的信息主動搜索相關(guān)的視頻、音頻或圖像材料,就像偵探根據(jù)現(xiàn)有線索尋找更多相關(guān)證據(jù)。

系統(tǒng)的推理過程采用了"工具集成推理"模式,這意味著思考和行動是緊密交織的,而不是分離的。傳統(tǒng)的AI系統(tǒng)往往是先思考再行動,就像一個學(xué)生先在腦中想好所有答案再開始寫作業(yè)。但OmniAtlas的工作方式更像是一個研究者,在思考過程中不斷查閱資料、驗證假設(shè)、修正觀點,思維和行動相互促進。

為了訓(xùn)練這樣的智能體,研究團隊開發(fā)了一套創(chuàng)新的"后見引導(dǎo)樹探索"方法。這個方法的核心思想是讓AI系統(tǒng)在已知正確答案的情況下,學(xué)習(xí)如何一步步到達這個答案。就像教一個學(xué)生解數(shù)學(xué)題,不僅要告訴他答案是什么,更要讓他理解每一步推理的邏輯。系統(tǒng)會嘗試多條不同的推理路徑,只保留那些最終導(dǎo)向正確答案的路徑用于學(xué)習(xí),從而掌握有效的問題解決策略。

三、突破性的精細化錯誤糾正技術(shù)

即使有了好的訓(xùn)練數(shù)據(jù)和方法,AI系統(tǒng)仍然會在復(fù)雜任務(wù)中犯各種錯誤。研究團隊發(fā)現(xiàn),簡單的整體訓(xùn)練方法就像用大錘敲核桃,雖然有效但不夠精確。他們需要一種更加精細的方法來糾正系統(tǒng)的特定錯誤類型。

研究團隊開發(fā)了名為OmniDPO的精細化錯誤糾正技術(shù)。這個技術(shù)的工作原理類似于一位耐心的老師,當學(xué)生做錯題時,不是簡單地告訴他整個解答過程都是錯的,而是精確指出他在哪一步開始出錯,然后從那個關(guān)鍵點開始糾正。

具體來說,當AI系統(tǒng)在解決問題時出現(xiàn)錯誤,OmniDPO會仔細分析整個推理過程,找到第一個出錯的步驟??赡苁窃谝曈X感知階段誤讀了圖像內(nèi)容,可能是在信息搜索階段使用了錯誤的關(guān)鍵詞,也可能是在邏輯推理階段做出了不當?shù)募僭O(shè)。找到錯誤點后,系統(tǒng)會生成一個修正版本,展示在那個關(guān)鍵步驟應(yīng)該如何正確處理。

這種方法的效果就像為AI系統(tǒng)安裝了一個精確的"糾錯雷達"。通過對比錯誤版本和正確版本的差異,系統(tǒng)能夠?qū)W會識別和避免類似的錯誤模式。實驗結(jié)果顯示,經(jīng)過這種精細化訓(xùn)練的系統(tǒng),在各種類型的錯誤上都有顯著改善,特別是在工具使用和推理邏輯方面的錯誤率大幅下降。

四、現(xiàn)實世界的挑戰(zhàn)與突破

研究團隊對當前AI系統(tǒng)進行了深入的錯誤分析,就像醫(yī)生為病人做全面體檢,找出各個器官的健康狀況。他們發(fā)現(xiàn)了一個令人擔憂的現(xiàn)象:越是困難的任務(wù),AI系統(tǒng)的失敗率就越高,而且失敗往往是連鎖反應(yīng)式的。

在簡單任務(wù)中,AI系統(tǒng)的表現(xiàn)相對穩(wěn)定,錯誤主要集中在單一環(huán)節(jié)。但在復(fù)雜任務(wù)中,一個小錯誤往往會引發(fā)連鎖反應(yīng),就像多米諾骨牌倒塌一樣。比如,如果系統(tǒng)在最初的視覺感知階段就誤解了場景內(nèi)容,那么后續(xù)的所有推理和工具使用都會建立在錯誤的基礎(chǔ)上,最終導(dǎo)致完全錯誤的結(jié)論。

研究發(fā)現(xiàn),工具使用失敗和推理錯誤是最主要的兩種失敗模式。在困難任務(wù)中,超過90%的開源系統(tǒng)都會出現(xiàn)工具使用問題,約80%會出現(xiàn)推理錯誤。這表明當前的AI系統(tǒng)在面對復(fù)雜挑戰(zhàn)時,就像一個雖然有很多工具但不知道如何正確使用的工匠,往往是有心無力。

另一個重要發(fā)現(xiàn)是關(guān)于"原生感知"與"工具輔助感知"的比較。研究團隊測試了兩種不同的架構(gòu):一種是系統(tǒng)本身具備多模態(tài)感知能力,另一種是通過調(diào)用專門的感知工具來處理視覺和聽覺信息。結(jié)果顯示,對于能力強的AI系統(tǒng),原生感知效果更好,效率也更高;但對于能力較弱的系統(tǒng),工具輔助感知可以在一定程度上彌補其不足,就像給視力不好的人配眼鏡一樣。

工具使用模式的分析也揭示了有趣的現(xiàn)象。研究團隊發(fā)現(xiàn),工具使用的頻率和成功率之間并不是簡單的正比關(guān)系。一些系統(tǒng)雖然頻繁使用工具,但成功率并不高,這說明它們陷入了"無效探索"的困境,就像一個迷路的人在原地打轉(zhuǎn)。而成功的系統(tǒng)往往能夠更加精準地使用工具,每次工具調(diào)用都有明確的目的和預(yù)期效果。

五、開源與商業(yè)系統(tǒng)的巨大鴻溝

測試結(jié)果揭示了一個不容忽視的現(xiàn)實:開源AI系統(tǒng)與商業(yè)系統(tǒng)之間存在著巨大的性能差距。最強的商業(yè)系統(tǒng)Gemini-3-Pro達到了62.5%的準確率,而最好的開源系統(tǒng)Qwen3-Omni只有13.3%,差距超過4倍。這個結(jié)果就像業(yè)余球隊與職業(yè)球隊的比賽,實力懸殊令人印象深刻。

更令人意外的是,簡單地增加系統(tǒng)參數(shù)并不能有效提升性能。一個擁有5600億參數(shù)的大型開源系統(tǒng),表現(xiàn)竟然不如參數(shù)量少得多的系統(tǒng)。這說明在多模態(tài)智能領(lǐng)域,系統(tǒng)架構(gòu)和訓(xùn)練方法比單純的規(guī)模更加重要,就像廚藝的高低不在于食材的多少,而在于對食材的理解和處理技巧。

經(jīng)過OmniAtlas方法訓(xùn)練的開源系統(tǒng)顯示出了顯著的改進。雖然仍然無法達到頂級商業(yè)系統(tǒng)的水平,但相比原始版本有了明顯提升。例如,經(jīng)過訓(xùn)練的Qwen3-Omni系統(tǒng)準確率從13.3%提升到了20.8%,提升幅度達到56%。這個進步雖然可觀,但也說明了在這個領(lǐng)域還有很長的路要走。

研究團隊特別分析了不同難度級別任務(wù)的表現(xiàn)差異。在簡單任務(wù)中,系統(tǒng)間的差距相對較小,但隨著任務(wù)難度增加,差距迅速拉大。在最困難的任務(wù)中,即使是最強的商業(yè)系統(tǒng)也只能達到38.5%的準確率,而開源系統(tǒng)幾乎完全失效。這個現(xiàn)象說明,真正的智能挑戰(zhàn)在于處理那些需要深度推理和復(fù)雜工具協(xié)調(diào)的任務(wù)。

六、實際應(yīng)用案例的深度解析

為了更好地理解AI系統(tǒng)的工作原理和失敗模式,研究團隊選擇了一個典型案例進行詳細分析。這個案例就像一面鏡子,清晰地反映出當前AI技術(shù)的優(yōu)勢和不足。

案例的背景是這樣的:在一段視頻中,說話者正在參觀芝加哥的一個歷史遺跡,他指著遠處的一座可移動橋梁,說它讓他想起了電影《藍調(diào)兄弟》中的某座橋。系統(tǒng)需要確定這座橋的名字,并計算出電影拍攝開始時這座橋已經(jīng)存在了多少年。

這個看似簡單的問題實際上需要AI系統(tǒng)協(xié)調(diào)多種復(fù)雜能力。首先,系統(tǒng)必須準確理解視頻和音頻內(nèi)容,識別出說話者所在的具體位置。其次,系統(tǒng)需要抵抗來自電影《藍調(diào)兄弟》的"干擾信息"——雖然電影確實在芝加哥拍攝并涉及橋梁場景,但關(guān)鍵是要找到視頻中實際出現(xiàn)的那座橋,而不是電影中的橋。最后,系統(tǒng)需要搜索準確的建造時間和拍攝開始時間,并進行正確的數(shù)學(xué)計算。

研究團隊觀察了三個不同系統(tǒng)對同一問題的處理過程。第一個系統(tǒng)完全沒有使用任何工具,僅憑內(nèi)部知識就做出了判斷,結(jié)果選擇了錯誤的橋梁并給出了錯誤的年份。這就像一個學(xué)生在考試時完全憑記憶答題,雖然速度很快但準確性堪憂。

第二個系統(tǒng)使用了搜索工具,但搜索策略有問題。它過度關(guān)注《藍調(diào)兄弟》電影相關(guān)的芝加哥橋梁信息,陷入了"確認偏誤"的陷阱。雖然最終的計算過程是正確的,但由于基礎(chǔ)信息錯誤,結(jié)果仍然是錯誤的。這就像一個偵探雖然很努力地收集證據(jù),但從一開始就跟錯了方向,越努力離真相越遠。

第三個系統(tǒng)展現(xiàn)了正確的問題解決策略。它首先基于視頻內(nèi)容確定了具體的地理位置,然后搜索該位置附近的橋梁信息,接著驗證橋梁的建造時間和電影的拍攝時間,最后進行準確的計算。這個過程就像一個經(jīng)驗豐富的偵探,不被表面信息誤導(dǎo),堅持以事實為基礎(chǔ),逐步驗證每個關(guān)鍵信息點。

通過這個案例分析,研究團隊識別了兩種主要的失敗模式:工具使用不足和搜索策略偏移。前者是指系統(tǒng)過度依賴內(nèi)部知識而不愿意或不知道如何使用外部工具驗證信息;后者是指系統(tǒng)雖然使用了工具,但被錯誤的先入之見引導(dǎo),搜索方向出現(xiàn)偏差。成功的系統(tǒng)展現(xiàn)出的特征是:位置優(yōu)先的定位策略、假設(shè)驗證的科學(xué)方法,以及計算前的事實核實習(xí)慣。

七、技術(shù)創(chuàng)新的深層意義

OmniGAIA和OmniAtlas的研究成果不僅僅是技術(shù)上的進步,更重要的是為AI發(fā)展指明了新的方向。這項工作就像在AI發(fā)展的地圖上標注了新的里程碑,讓研究者們看到了通往真正智能的可能路徑。

研究揭示了一個重要觀點:未來的AI系統(tǒng)不應(yīng)該是被動的信息處理器,而應(yīng)該是主動的問題解決者。傳統(tǒng)的AI系統(tǒng)就像一臺精密的計算器,給什么算什么,但缺乏主動獲取信息和驗證結(jié)果的能力。而新一代的AI系統(tǒng)應(yīng)該更像一個研究助手,能夠理解問題的本質(zhì),主動尋找相關(guān)信息,并通過多種工具驗證結(jié)論的正確性。

主動感知能力的重要性在這項研究中得到了充分體現(xiàn)。與其讓AI系統(tǒng)處理所有可能的信息,不如讓它學(xué)會識別哪些信息是真正重要的,并主動獲取這些關(guān)鍵信息。這種方法不僅提高了效率,還顯著改善了準確性。就像一個聰明的學(xué)生不會試圖記住教科書的每一個字,而是會重點理解和掌握核心概念和關(guān)鍵信息。

工具集成推理的概念也具有深遠的影響。這種方法打破了思考和行動之間的人為界限,讓AI系統(tǒng)能夠在推理過程中靈活地使用各種工具。這更接近人類解決復(fù)雜問題的方式——我們在思考時會查閱資料、進行計算、尋求他人意見,思維和行動是相互促進的過程。

研究還強調(diào)了評估方法的重要性。OmniGAIA基準測試的創(chuàng)新不僅在于其復(fù)雜性,更在于其真實性。這些測試任務(wù)都來源于現(xiàn)實世界的實際需求,要求AI系統(tǒng)給出可驗證的具體答案,而不是模糊的描述。這種評估方式能夠更準確地反映AI系統(tǒng)在實際應(yīng)用中的表現(xiàn),避免了傳統(tǒng)測試可能存在的"應(yīng)試"問題。

八、未來發(fā)展的廣闊前景

這項研究不僅解決了當前的技術(shù)問題,更為未來的發(fā)展開辟了新的可能性。研究團隊在論文中提出了三個值得期待的發(fā)展方向,每個都有著巨大的潛力。

第一個方向是多模態(tài)智能體的強化學(xué)習(xí)。目前的訓(xùn)練方法主要基于監(jiān)督學(xué)習(xí),即給AI系統(tǒng)展示正確的問題解決過程讓它模仿。但強化學(xué)習(xí)方法能讓AI系統(tǒng)通過試錯來自主發(fā)現(xiàn)更好的策略,就像一個孩子通過不斷嘗試來學(xué)會騎自行車。這種方法可能會讓AI系統(tǒng)發(fā)現(xiàn)人類沒有想到的創(chuàng)新解決方案。

第二個方向是可擴展的多模態(tài)工具生態(tài)系統(tǒng)。目前的AI系統(tǒng)只能使用預(yù)定義的少數(shù)幾種工具,但未來可能會出現(xiàn)一個龐大的工具生態(tài)系統(tǒng),包含各種專業(yè)領(lǐng)域的工具和服務(wù)。AI系統(tǒng)可以根據(jù)需要動態(tài)選擇和組合這些工具,就像一個多才多藝的工匠能夠熟練使用各種專業(yè)工具來完成復(fù)雜的工作。

第三個方向是物理世界中的具身智能體。當前的研究主要關(guān)注數(shù)字世界中的信息處理,但未來的AI系統(tǒng)可能需要在真實的物理環(huán)境中工作。這意味著AI不僅要能看、聽、想,還要能夠操控物理對象,與現(xiàn)實世界直接交互。這種具身智能將為機器人技術(shù)、自動化系統(tǒng)和智能制造帶來革命性的改變。

研究團隊特別強調(diào)了開源開放的重要性。他們不僅公開了所有的測試數(shù)據(jù)和評估工具,還分享了訓(xùn)練方法和模型代碼。這種開放態(tài)度將加速整個領(lǐng)域的發(fā)展,讓更多研究者能夠在這個基礎(chǔ)上繼續(xù)探索和創(chuàng)新。就像科學(xué)研究中的同行評議制度,開放分享能夠促進知識的快速傳播和驗證。

展望更遠的未來,這種多模態(tài)AI技術(shù)可能會徹底改變?nèi)藱C交互的方式。想象一個AI助手,它不僅能理解你說的話,還能觀察你的表情和動作,理解你所處的環(huán)境和上下文,并能主動幫你搜索信息、預(yù)訂服務(wù)、安排日程。這樣的AI助手將真正成為人類的智能伙伴,而不僅僅是一個高級的工具。

在教育領(lǐng)域,這種技術(shù)可能會創(chuàng)造出革命性的個性化學(xué)習(xí)系統(tǒng)。AI教師能夠觀察學(xué)生的學(xué)習(xí)狀態(tài),聽取他們的問題,理解他們的困惑,并動態(tài)調(diào)整教學(xué)內(nèi)容和方法。在醫(yī)療領(lǐng)域,AI診斷系統(tǒng)能夠綜合分析醫(yī)學(xué)影像、患者描述、病歷記錄等多種信息,提供更加準確和全面的診斷建議。

說到底,這項研究代表的不僅是技術(shù)的進步,更是對智能本質(zhì)的深刻理解。真正的智能不在于處理信息的速度有多快,而在于能否像人類一樣靈活地感知世界、理解問題、尋找解決方案。OmniGAIA和OmniAtlas為我們展示了這種智能的可能性,雖然距離完美還有很長的路要走,但方向已經(jīng)清晰,未來值得期待。

當前的AI發(fā)展正處在一個關(guān)鍵的轉(zhuǎn)折點。我們已經(jīng)證明了機器可以在特定任務(wù)上超越人類,現(xiàn)在的挑戰(zhàn)是讓機器獲得像人類一樣的通用智能。這項研究提供的不僅是技術(shù)方案,更是思路啟發(fā):真正的智能需要感知、推理和行動的完美結(jié)合,需要主動性而不是被動性,需要工具使用能力而不僅僅是信息處理能力。

對于普通人來說,這項研究意味著什么呢?也許在不久的將來,我們將擁有真正智能的數(shù)字助手,它們能夠理解我們的需求,主動幫助我們解決問題,就像一個貼心而能干的朋友。這種技術(shù)可能會讓我們的生活更加便利,工作更加高效,學(xué)習(xí)更加有趣。當然,這也提醒我們需要思考如何在享受AI帶來的便利的同時,保持人類獨有的創(chuàng)造力和批判思維能力。

Q&A

Q1:OmniGAIA基準測試和普通的AI測試有什么不同?

A:OmniGAIA基準測試最大的不同在于它要求AI系統(tǒng)同時處理視頻、音頻和文本信息,并且必須使用外部工具(如網(wǎng)絡(luò)搜索、代碼執(zhí)行)來解決問題。傳統(tǒng)測試通常只考察單一能力,比如只看圖片或只聽聲音,而OmniGAIA就像給AI設(shè)計的"智力奧運會",全面考察感知、推理和工具使用的綜合能力。測試包含360個復(fù)雜任務(wù),都需要多步推理和外部驗證才能完成。

Q2:OmniAtlas智能體的"主動感知"能力是如何工作的?

A:OmniAtlas的主動感知就像一個經(jīng)驗豐富的醫(yī)生進行診斷,不會被動等待所有檢查結(jié)果,而是根據(jù)需要主動要求特定檢查。當處理長視頻時,它可以主動選擇查看特定時間段;處理圖像時,可以主動放大某個區(qū)域仔細觀察。這避免了傳統(tǒng)AI系統(tǒng)將所有內(nèi)容一次性壓縮處理而丟失重要細節(jié)的問題,大大提高了處理復(fù)雜多媒體內(nèi)容的準確性和效率。

Q3:為什么開源AI系統(tǒng)和商業(yè)系統(tǒng)在這個測試中差距這么大?

A:測試結(jié)果顯示最強的商業(yè)系統(tǒng)達到62.5%準確率,而最好的開源系統(tǒng)只有13.3%,差距超過4倍。這主要是因為多模態(tài)智能需要的不僅僅是大量參數(shù),更需要精細的架構(gòu)設(shè)計和訓(xùn)練方法。商業(yè)系統(tǒng)在數(shù)據(jù)質(zhì)量、訓(xùn)練資源和算法優(yōu)化方面都有優(yōu)勢。有趣的是,簡單增加參數(shù)并不能解決問題,一個5600億參數(shù)的系統(tǒng)表現(xiàn)還不如參數(shù)更少的系統(tǒng),說明在這個領(lǐng)域技術(shù)方法比規(guī)模更重要。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
GPS關(guān)閉,導(dǎo)彈系統(tǒng)失靈?兩國幸免,美國意外

GPS關(guān)閉,導(dǎo)彈系統(tǒng)失靈?兩國幸免,美國意外

羽逸地之光
2026-03-02 00:54:24
人到晚年才醒悟:跟兄弟姐妹斷親,是你這輩子最貴的一筆賬

人到晚年才醒悟:跟兄弟姐妹斷親,是你這輩子最貴的一筆賬

孤酒老巷QA
2026-03-01 09:55:04
法官問為何不交物業(yè)費,業(yè)主反問:不交稅違法,不交費違法嗎

法官問為何不交物業(yè)費,業(yè)主反問:不交稅違法,不交費違法嗎

蜉蝣說
2026-02-03 16:31:54
中國男籃晉級形勢:逆轉(zhuǎn)11分取連勝穩(wěn)住前三 7月再勝一場鎖出線

中國男籃晉級形勢:逆轉(zhuǎn)11分取連勝穩(wěn)住前三 7月再勝一場鎖出線

顏小白的籃球夢
2026-03-01 17:52:03
大戰(zhàn)可能馬上開始了

大戰(zhàn)可能馬上開始了

安安說
2026-02-25 10:11:39
抗美援朝被彭總火線撤職的5位師級將領(lǐng),后來都授了什么軍銜

抗美援朝被彭總火線撤職的5位師級將領(lǐng),后來都授了什么軍銜

鶴羽說個事
2026-03-01 18:26:08
滿是心酸!42歲著名歌手江蘇走穴,賓客只顧吃席沒人搭理

滿是心酸!42歲著名歌手江蘇走穴,賓客只顧吃席沒人搭理

查爾菲的筆記
2026-01-04 13:13:57
“突然理解道明寺媽媽了”,高鐵上小少爺走紅,讓普通人看透現(xiàn)實

“突然理解道明寺媽媽了”,高鐵上小少爺走紅,讓普通人看透現(xiàn)實

妍妍教育日記
2026-02-28 17:41:50
人民幣升值太快反成禍?央行出手,你的存款和黃金都要變天!

人民幣升值太快反成禍?央行出手,你的存款和黃金都要變天!

別人都叫我阿腈
2026-03-01 17:43:43
渝昆直通線馬上開工,重慶真的有必要在巴南再建一個重慶南站嗎

渝昆直通線馬上開工,重慶真的有必要在巴南再建一個重慶南站嗎

金哥說新能源車
2026-03-02 01:07:58
徹底飄了,美防長公然“警告”中國,振臂高呼:美國威懾力回來了

徹底飄了,美防長公然“警告”中國,振臂高呼:美國威懾力回來了

小蘭聊歷史
2026-01-11 10:27:33
廷貝爾:賴斯的傳球太棒了;對球迷來說這是一場很精彩的比賽

廷貝爾:賴斯的傳球太棒了;對球迷來說這是一場很精彩的比賽

懂球帝
2026-03-02 04:28:24
知名好萊塢演員在自家谷倉內(nèi)身亡:汽車搭電時突然自燃,曾獲5屆拳擊冠軍

知名好萊塢演員在自家谷倉內(nèi)身亡:汽車搭電時突然自燃,曾獲5屆拳擊冠軍

紅星新聞
2026-02-27 17:33:09
絕了!Twins剛出道舊照被扒,范冰冰一出場,直接把阿嬌Sa比下去了!

絕了!Twins剛出道舊照被扒,范冰冰一出場,直接把阿嬌Sa比下去了!

八卦王者
2026-02-28 21:04:08
特朗普炸了!斬首行動成泡影,美軍損失慘重,挪威迅速回應(yīng)

特朗普炸了!斬首行動成泡影,美軍損失慘重,挪威迅速回應(yīng)

Ck的蜜糖
2026-03-02 05:41:50
美專家哈奇森道破光刻機真相:中國曾急于買西方設(shè)備被卡脖子,如今靠二手設(shè)備建龐大備用庫,極限施壓逼出國產(chǎn)全產(chǎn)業(yè)鏈,ASML這回徹底慌了

美專家哈奇森道破光刻機真相:中國曾急于買西方設(shè)備被卡脖子,如今靠二手設(shè)備建龐大備用庫,極限施壓逼出國產(chǎn)全產(chǎn)業(yè)鏈,ASML這回徹底慌了

打破砂鍋看本質(zhì)
2026-03-01 17:21:13
日本能源面臨“滅絕”?高市意外批下16億資金,普京連夜轉(zhuǎn)變槍口

日本能源面臨“滅絕”?高市意外批下16億資金,普京連夜轉(zhuǎn)變槍口

知法而形
2026-03-01 10:02:37
武漢那個漸凍癥患者張定宇 傳染病醫(yī)院院長現(xiàn)在怎么樣了?

武漢那個漸凍癥患者張定宇 傳染病醫(yī)院院長現(xiàn)在怎么樣了?

觀星賞月
2026-03-02 00:51:04
56歲大媽心梗離世,醫(yī)生:吃他汀時除了牛奶,這6種食物盡量少碰

56歲大媽心梗離世,醫(yī)生:吃他汀時除了牛奶,這6種食物盡量少碰

岐黃傳人孫大夫
2026-02-28 22:15:03
搞笑女漢子糗事經(jīng)典笑話,女漢子說30多年從沒讓男人碰過,你是第一個你必須對我負責(zé)!

搞笑女漢子糗事經(jīng)典笑話,女漢子說30多年從沒讓男人碰過,你是第一個你必須對我負責(zé)!

天天明星
2026-02-28 19:38:20
2026-03-02 06:47:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7389文章數(shù) 553關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

伊朗多位軍事指揮官確認死亡 名單公布

頭條要聞

伊朗多位軍事指揮官確認死亡 名單公布

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

教育
手機
本地
健康
公開課

教育要聞

寧夏大學(xué)外國語學(xué)院揭秘!96.2%高落實率

手機要聞

全球首款機器人手機!榮耀Robot Phone亮相MWC:今年就量產(chǎn)發(fā)布

本地新聞

津南好·四時總相宜

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版