国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

FysicsWorld:填補全模態(tài)交互與物理感知評測的空白

0
分享至



近年來,多模態(tài)大語言模型正在經歷一場快速的范式轉變,新興研究聚焦于構建能夠聯(lián)合處理和生成跨語言、視覺、音頻以及其他潛在感官模態(tài)信息的統(tǒng)一全模態(tài)大模型。此類模型的目標不僅是感知全模態(tài)內容,還要將視覺理解和生成整合到統(tǒng)一架構中,從而實現模態(tài)間的協(xié)同交互。

這種轉變的驅動力源于真實物理世界的復雜性,自從文明誕生以來,人類通過對反映現實世界本質的視覺線索、聽覺信號、空間動態(tài)等復雜多模態(tài)信息的不斷觀察、分析和推理來實現對真實物理世界的正確認識和理解。

因此,一個面向真實物理世界的先進的全模態(tài)智能架構,不僅需要對真實世界中的多模態(tài)交互做出正確響應,還應具備遵循物理世界規(guī)律的感知與推理能力,以實現對復雜現實環(huán)境的可靠理解。

盡管當前的多模態(tài)與全模態(tài)大模型不斷突破,但評測體系卻始終難以跟上模型能力的擴張——模態(tài)覆蓋不完整、模態(tài)之間缺乏真實物理世界關聯(lián)、各種多模態(tài)任務長期局限于文本輸出下的評測,難以反映模型在真實環(huán)境中的全模態(tài)耦合與人機交互的能力。這讓研究者無法全面評估模型在面對復雜物理世界場景時的實際能力,也無法進行公平、統(tǒng)一的跨模態(tài)比較。

為解決這一發(fā)展瓶頸,飛捷科思智能科技(上海)有限公司(Fysics AI)和復旦大學認知與智能技術實驗室(CITLab)研究團隊共同正式推出了全球首個面向真實物理世界的統(tǒng)一全模態(tài)評測基準——FysicsWorld(中文名稱:物理世界)

該基準不僅能夠評測模型在圖像、視頻、音頻與文本間進行雙向輸入與輸出的能力,還覆蓋了模型對真實物理世界場景的感知、理解、生成以及跨模態(tài)推理等核心能力。



圖 1:FysicsWorld 全模態(tài)智能評測體系示意圖

FysicsWorld 包括具備高質量樣本的 16 大任務,涉及上百類真實開放域場景,并精心設計了跨模態(tài)信息之間的依賴關系與互補性,從而全面呈現物理世界多模態(tài)信息的復雜性。



  • 論文標題:FysicsWorld: A Unified Full-Modality Benchmark for Any-to-Any Understanding, Generation, and Reasoning
  • 技術報告鏈接:https://arxiv.org/pdf/2512.12756
  • GitHub 項目主頁鏈接:https://github.com/Fysics-AI/FysicsWorld
  • 數據集鏈接
  • https://huggingface.co/datasets/Fysics-AI/FysicsWorld
  • https://hf-mirror.com/datasets/Fysics-AI/FysicsWorld
  • 模型排行榜鏈接:https://huggingface.co/spaces/Fysics-AI/FysicsWorld-LeaderBoard

此外,FysicsWorld 創(chuàng)新地提出了跨模態(tài)互補性篩選策略(Cross-Modal Complementarity Screening, CMCS),其通過嚴格的模態(tài)依賴性驗證機制,確?;鶞手械拿總€樣本在求解時均必須依賴多種模態(tài)的信息融合,從而有效避免「單模態(tài)捷徑」帶來的偏差。因此,CMCS 能夠更可靠地評估模型在真實物理世界場景下的多模態(tài)綜合智能水平。

通過大量實驗證明,FysicsWorld 不僅能夠清晰揭示當前全模態(tài)模型架構在融合多模態(tài)理解推理、基于語音驅動的人機交互、跨模態(tài)生成及物理現實世界場景感知等環(huán)節(jié)的真實短板,也為未來面向物理環(huán)境的全模態(tài)架構研發(fā)提供了診斷工具與方向指引。隨著 FysicsWorld 的推出和應用,下一代人工智能正在從簡單的「多模態(tài)拼接」邁向真正的全模態(tài)統(tǒng)一智能,在面向真實世界的理解和交互方面邁出關鍵一步。

深度挖掘:從「多模態(tài)拼接」到

面向真實物理世界的「全模態(tài)智能」的深度需求

隨著多模態(tài)模型從最初的「視覺 + 語言」,逐步走向「視覺 + 音頻 + 語言」,再到如今面向真實物理世界的全模態(tài)統(tǒng)一架構,人們對大模型的期待已遠超「看得懂、聽得懂」。

研究者希望它們能夠在真實環(huán)境中準確理解現實物理世界中的復雜場景、整合來自不同感官的信號、進行跨模態(tài)推理,并以更加自然、符合物理世界規(guī)律的方式與人類交互,為未來具身智能時代的發(fā)展奠定基礎。然而,現有評測體系遠遠無法反映模型在真實物理場景下的能力:

  • 模態(tài)覆蓋不全:多數跨模態(tài)基準仍局限于文本為中心的有限模態(tài)中,鮮有工作能夠徹底涵蓋文本 - 圖像 - 視頻 - 音頻為代表的物理世界全模態(tài)信息,無法真正評測新一代模型在更為復雜的真實世界場景中的全模態(tài)信息融合理解能力。
  • 輸出形式單一:現有的跨模態(tài)評測基準大多數僅考察文本輸出,幾乎不涉及多模態(tài)生成,也缺乏語音驅動的多模態(tài)交互等面向真實世界以人為主體的任務,難以推動未來以語音驅動為基礎的跨模態(tài)人機交互的發(fā)展。
  • 模態(tài)關聯(lián)不強:現有的多數跨模態(tài)數據集僅僅將多個不同模態(tài)信息(例如圖像、視頻、音頻)簡單拼接,進行排列組合,卻忽略了不同模態(tài)信息之間的關聯(lián)性及耦合性,導致跨模態(tài)數據的信息密度較低,不要求模型融合真實物理場景中不同模態(tài)的線索進行真正的跨模態(tài)理解和推理,這阻礙了對新一代全模態(tài)模型的能力探索和深度挖掘。



圖 2:全模態(tài)智能評測體系對比圖

在模型能力快速發(fā)展、應用場景愈發(fā)貼近真實物理世界的今天,一個能夠真正覆蓋任意模態(tài)輸入輸出,挖掘以人為主體的語音驅動多模態(tài)人機交互能力,并能夠反映模型在物理真實場景下跨模態(tài)智能水平的統(tǒng)一評測基準體系,已經成為推動全模態(tài)智能向前邁進的迫切需求。

核心突破:FysicsWorld

首次打通「全模態(tài)全鏈路」的統(tǒng)一任務體系

全模態(tài)評測任務體系:從基礎感知到高階交互的系統(tǒng)覆蓋

FysicsWorld 構建了一套兼顧廣度與深度的任務體系,將 16 項多模態(tài)任務系統(tǒng)化地組織為一條從基礎感知延伸至面向真實物理世界的高階交互的能力曲線。

在基礎多模態(tài)能力層面,FysicsWorld 全面檢驗模型在圖像理解、視頻理解、音頻推理,以及視覺生成等核心任務上的表現,確保視覺與聽覺能力在細粒度層面得到充分驗證。

在高階跨模態(tài)交互層面,FysicsWorld 進一步將評測推向真實應用場景下的跨模態(tài)交互任務,構建了細粒度的能力挖掘與評價體系,通過語音驅動的視覺理解與人機交互、基于視覺信息的音頻合成、跨模態(tài)綜合邏輯推斷、以及基于動作序列和當前狀態(tài)的后續(xù)行為預測等任務,共同構成對模型在真實物理世界中多源信號融合、語義一致性、復雜推理與動態(tài)環(huán)境適應能力的嚴格考查。這些設計不僅關注信息處理本身,更強調模型在真實環(huán)境中進行整體決策和協(xié)同感知的能力。

憑借這一結構完整、層級清晰的任務體系,FysicsWorld 首次實現了對全模態(tài)模型從單模態(tài)到多模態(tài)、從靜態(tài)到動態(tài)、從時序到空間、從感知到生成與推理的連續(xù)覆蓋,并充分貼合真實物理世界的環(huán)境復雜性,為下一代面向物理場景的全模態(tài)智能提供了真正意義上的統(tǒng)一評測框架。



圖 3:FysicsWorld 評測體系分類圖



圖 4:FysicsWorld 系統(tǒng)性評測體系示意圖

跨模態(tài)數據的融合與高質量構建:新穎的跨模態(tài)數據構造流程

FysicsWorld 在數據構建階段采用了嚴謹的多源融合流程。研究團隊從異構高質量數據集中篩選多模態(tài)樣本,并通過人工審校與半自動化輔助校對的雙重機制,對語義一致性、表達自然度和場景匹配性進行嚴格篩查,逐步排除不符合標準的內容,確保問答和指令在邏輯與語義上保持高準確度。

在語音驅動的人機交互相關任務中,FysicsWorld 進一步構建了閉環(huán)數據構造與驗證流程:先由對文本進行自動化重寫與口語化表述增強,再通過多樣的語音合成技術,基于 10 余種不同的真人語音音色,構造真實自然且高度擬人化的語音交互數據,隨后通過語音識別反向驗證語義一致性,以保證合成的語音內容表達自然、含義明確,并與文本嚴格對齊。

依托這一精細化、多階段的構建模式,FysicsWorld 構建了更加真實與自然的高質量語音驅動人機交互任務,在大規(guī)模覆蓋與數據純度之間取得了良好平衡,為全模態(tài)任務體系提供了可靠且高質量的基礎數據支撐。

跨模態(tài)互補性篩選策略:打破模態(tài)孤島,確??缒B(tài)間的信息依賴

在多模態(tài)評測中,一個經常被忽視的風險在于,許多任務實際上并不真正依賴多模態(tài)信息即可被輕松解決,這使得評測結果難以有效反映模型真實的多模態(tài)融合能力。為解決這一長期存在的問題,FysicsWorld 創(chuàng)新地引入了跨模態(tài)互補性篩選策略(Cross-Modal Complementarity Screening, CMCS),從數據構造層面確保跨模態(tài)任務具備明確的模態(tài)信息耦合與依賴。

跨模態(tài)互補性篩選策略的核心機制簡單而有效,對于待篩選的跨模態(tài)樣本,該策略隨機移除一個或多個模態(tài),并觀察評測模型的性能變化。若模型在模態(tài)消融后仍能保持較高的任務表現,則該樣本被視為跨模態(tài)依賴不足或信息冗余,因而從 FysicsWorld 中剔除。這類樣本容易使模型依賴單一模態(tài)的捷徑作答,無法有效檢驗真實的多模態(tài)融合能力。

反之,經過任意模態(tài)消融后模型都無法順利解決的數據樣本才會被 FysicsWorld 保留,這些數據能夠體現各模態(tài)之間顯著的信息互補性和耦合性,必須整合視覺、聽覺和語言線索的互補證據才能解決這類問題。



圖 5:FysicsWorld 跨模態(tài)數據構造示意圖

得益于跨模態(tài)互補性篩選策略,最終的數據集具備強模態(tài)互補性,使 FysicsWorld 能夠更準確地檢驗模型的真實多模態(tài)融合水平,成為當前評估全模態(tài)能力最具參考價值的基準之一。

多維度論證:

全模態(tài)模型的真實能力圖譜

基于 FysicsWorld,研究團隊圍繞國際上 30 余個最先進的 AI 模型進行了系統(tǒng)性的評測,涵蓋全模態(tài)大模型、多模態(tài)大模型、特定模態(tài)的專用模型以及統(tǒng)一理解與生成式模型。

基礎多模態(tài)能力分層清晰,基石仍待打牢

在圖像、視頻和音頻理解的基礎多模態(tài)任務中,實驗結果呈現出明顯分層。GPT-5 與 Gemini-2.5-Pro 等閉源模型整體領先,表現穩(wěn)定可靠。開源全模態(tài)模型雖在部分任務上逐漸縮小差距,但在長視頻語義鏈路、復雜聽覺理解以及高難度推理中仍顯薄弱。統(tǒng)一結構的理解 - 生成模型在圖像和視頻生成上展現一定競爭力,但在細粒度文本約束、語義一致性及結構控制能力上仍落后于專門的擴散式或視頻生成模型。

這些結果揭示了當前模型在基礎感知與生成能力上的主要瓶頸,同時為跨模態(tài)任務提供了重要的性能基線。



圖 6:音頻推理和視頻生成任務中不同模型性能對比示意圖

跨模態(tài)推理與交互:真實世界融合能力仍處早期

當任務從單模態(tài)切換到真實物理場景下的多模態(tài)協(xié)作時,模型性能普遍出現明顯下滑,退化幅度遠超預期——尤其是在那些必須依賴圖像、視頻、音頻之間真實互補關系才能作答的任務中,短板暴露無遺。

無論是通過語音驅動的視覺理解與人機交互、基于視覺信息的音頻合成、跨模態(tài)綜合邏輯推斷以及基于動作序列和當前狀態(tài)的后續(xù)行為預測等任務,都要求模型具備深層次的跨模態(tài)交互、真實物理世界常識理解與時空推理能力,嚴格考查了模型在真實物理世界中多源信號融合、語義一致性、復雜推理與動態(tài)環(huán)境適應能力。然而實測表明,主流模型在面向真實世界的多模態(tài)對齊、信息融合、跨模態(tài)生成以及物理場景適應能力等關鍵環(huán)節(jié),仍存在顯著不足。

這些結果清晰指出,盡管多模態(tài)模型在基礎認知上已有顯著進展,但要實現面向真實物理世界的全模態(tài)智能,還需要在跨模態(tài)融合、動態(tài)環(huán)境理解、物理約束推理與多源感知協(xié)同等方向進一步突破。



圖 7:全模態(tài) / 視覺語言大模型在圖像為中心任務上的性能對比



圖 8:全模態(tài) / 視覺語言大模型在視頻為中心任務上的性能對比

洞察與趨勢:面向真實物理世界的

全模態(tài)智能仍有廣闊空間

現有全模態(tài)模型和多模態(tài)大模型在多源感知和基礎生成上雖已初見成效,但在面對復雜物理場景、多源信息交互以及長時序動態(tài)環(huán)境時,仍難以實現穩(wěn)定、深度的跨模態(tài)融合與統(tǒng)一推理。

這意味著,面向真實物理世界的全模態(tài)智能的下一階段,不僅需要繼續(xù)鞏固單模態(tài)能力的根基,提升視覺、聽覺、語言等單模態(tài)處理在真實場景中的精度與一致性,更需要在模態(tài)融合策略上進行系統(tǒng)性優(yōu)化,實現多模態(tài)信息在時空、語義及物理約束維度的協(xié)調與整合。

跨模態(tài)動態(tài)推理、場景化理解與生成能力,將成為衡量下一代全模態(tài)模型核心競爭力的關鍵指標。模型不僅需要在復雜物理環(huán)境中整合圖像、視頻、音頻與文本信息,還要能夠在長時序、多事件交互、受物理環(huán)境約束的情況下保持邏輯一致性、語義連貫性與生成穩(wěn)定性。這對模型的結構設計、推理機制以及數據構建提出了更高要求,也為研究者和工程團隊提供了明確的發(fā)展方向。

作為首個支持全模態(tài)輸入輸出、覆蓋感知 - 理解 - 推理 - 生成、并具備強跨模態(tài)依賴性的統(tǒng)一評測基準,FysicsWorld 為面向真實物理世界的全模態(tài)智能提供了可控、系統(tǒng)且可比較的能力映射工具,使研究者能夠清晰洞察模型在多模態(tài)感知、物理場景信息融合和跨模態(tài)推理生成上的真實水平,為推動全模態(tài)智能在真實世界中實現穩(wěn)定、深度的跨模態(tài)融合與統(tǒng)一推理提供了堅實支撐。

飛捷科思智能科技(上海)有限公司由復旦大學智能機器人與先進制造創(chuàng)新學院副院長、智能機器人研究院常務副院長,原英偉達 PhysX 物理引擎主要奠基人與研發(fā)團隊負責人張立華教授創(chuàng)辦,是國內唯一擁有完全自主研發(fā)的可微分通用物理仿真引擎產品的企業(yè)。

公司以新一代物理仿真引擎 Fysics 為核心,致力于打造全球領先的物理智能關鍵技術與產品,推動具身智能與人形機器人技術研發(fā)及應用場景的快速落地,在高精度物理仿真引擎、高質量具身智能仿真平臺、機器人敏捷運動與魯棒智能控制等領域處于行業(yè)領先水平,并向行業(yè)提供覆蓋「仿真—訓練—部署—迭代」的全棧解決方案。依托自主可控的物理智能底座,公司持續(xù)賦能中國具身智能與機器人產業(yè)的發(fā)展。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
香煙熱度榜!煙民貢獻萬億稅收,年度銷冠竟是這個品牌…

香煙熱度榜!煙民貢獻萬億稅收,年度銷冠竟是這個品牌…

慧翔百科
2025-12-24 09:14:14
釘在恥辱柱上!國家文物局出手,這三個跳梁小丑,真的徹底涼涼了

釘在恥辱柱上!國家文物局出手,這三個跳梁小丑,真的徹底涼涼了

戶外阿嶄
2025-12-28 17:07:24
沉默五天,蔡英文重磅發(fā)文,臺北全城已警戒,國民黨揪出罪惡根源

沉默五天,蔡英文重磅發(fā)文,臺北全城已警戒,國民黨揪出罪惡根源

歷史有些冷
2025-12-28 18:55:03
幸虧中國沒中標!泰國高鐵選擇日本人建設,建成后讓泰國欲哭無淚

幸虧中國沒中標!泰國高鐵選擇日本人建設,建成后讓泰國欲哭無淚

說歷史的老牢
2025-12-29 11:28:27
澤連斯基稱未見中方有意愿協(xié)助推動和平,外交部:中方的努力國際社會有目共睹

澤連斯基稱未見中方有意愿協(xié)助推動和平,外交部:中方的努力國際社會有目共睹

澎湃新聞
2025-12-29 15:46:26
苦主實錘!35勝12負+12勝2負,勝率僅23%啊,德羅贊太慘了

苦主實錘!35勝12負+12勝2負,勝率僅23%啊,德羅贊太慘了

球童無忌
2025-12-29 19:21:53
悲催!孕檢時才發(fā)現老婆曾7次流產,老婆矢口否認并報警!

悲催!孕檢時才發(fā)現老婆曾7次流產,老婆矢口否認并報警!

閑侃閑侃
2025-12-28 09:37:50
成都男子炸4S店最新!1死4傷現場慘烈,知情人曝猛料,都是被逼的

成都男子炸4S店最新!1死4傷現場慘烈,知情人曝猛料,都是被逼的

云景侃記
2025-12-29 14:19:49
元旦,別再說“元旦快樂”,太土!試試這20句,一看就是文化人

元旦,別再說“元旦快樂”,太土!試試這20句,一看就是文化人

狼小妖
2025-12-27 00:13:54
突發(fā)大逆轉!白銀、黃金,直線暴跌!

突發(fā)大逆轉!白銀、黃金,直線暴跌!

中國基金報
2025-12-29 08:38:10
吃他汀猝死的人增多?醫(yī)生含淚告誡:天冷吃他汀,必須多關注8點

吃他汀猝死的人增多?醫(yī)生含淚告誡:天冷吃他汀,必須多關注8點

全球軍事記
2025-12-27 17:24:58
影后辛芷蕾,這張照片攝影師得加雞腿,抓拍的太到位了

影后辛芷蕾,這張照片攝影師得加雞腿,抓拍的太到位了

徐幫陽
2025-12-23 18:33:38
美國務院發(fā)火:46年沒受過這種氣,鄭麗文喊話大陸,一個時代結束

美國務院發(fā)火:46年沒受過這種氣,鄭麗文喊話大陸,一個時代結束

科普100克克
2025-12-28 17:32:32
12月25日,公安部經偵局終于把話挑明了:嚴打金融“黑灰產”。

12月25日,公安部經偵局終于把話挑明了:嚴打金融“黑灰產”。

南權先生
2025-12-29 16:53:24
哪座城市,壓軸2025?

哪座城市,壓軸2025?

星球研究所
2025-12-28 11:54:31
歐美聯(lián)手貶值逼人民幣升值?中國將計就計反殺:他們不得不買

歐美聯(lián)手貶值逼人民幣升值?中國將計就計反殺:他們不得不買

現代小青青慕慕
2025-12-28 20:21:57
廣東天氣即將大反轉!

廣東天氣即將大反轉!

金灣通
2025-12-29 14:29:10
中方斡旋促成此次柬泰?;??外交部回應

中方斡旋促成此次柬泰停火?外交部回應

新京報政事兒
2025-12-29 16:18:50
演員閆學晶“哭窮”引爭議!稱兒子年入不到40萬,卻需負擔家庭年開支80-100萬元,否則家庭無法運轉

演員閆學晶“哭窮”引爭議!稱兒子年入不到40萬,卻需負擔家庭年開支80-100萬元,否則家庭無法運轉

大象新聞
2025-12-29 16:45:02
吳越公開84歲父親中風沒去養(yǎng)老院,在家請護工,自己53歲還未育

吳越公開84歲父親中風沒去養(yǎng)老院,在家請護工,自己53歲還未育

銀河史記
2025-12-17 01:26:27
2025-12-29 20:04:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12016文章數 142523關注度
往期回顧 全部

科技要聞

肉搏非洲,傳音不想只當個賣手機的

頭條要聞

美報告承認:檢查了92臺中國起重機 安全得很

頭條要聞

美報告承認:檢查了92臺中國起重機 安全得很

體育要聞

“史上最貴”的世界杯,球迷成了韭菜

娛樂要聞

張杰謝娜跨年風波升級!張杰被吐槽贅婿

財經要聞

翁杰明:宏觀數據與居民微觀感受存在差距

汽車要聞

“路”要越走越深,猛士的智能越野時代來了

態(tài)度原創(chuàng)

時尚
藝術
本地
親子
軍事航空

“勃肯鞋”今年冬天爆火!這幾雙怎么搭都好看

藝術要聞

克里姆特風格的女性人物畫,太美了!

本地新聞

即將過去的2025年,對重慶的影響竟然如此深遠

親子要聞

冰淇淋疊疊樂糖果食玩

軍事要聞

東部戰(zhàn)區(qū)發(fā)布的AI視頻 一個細節(jié)意味深長

無障礙瀏覽 進入關懷版