国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

清華陳建宇×斯坦福Chelsea團隊世界模型Ctrl-World能力登頂全球

0
分享至



機器之心編輯部

在全球具身智能領(lǐng)域的頂級權(quán)威評測 WorldArena 榜單中,清華陳建宇(星動紀元創(chuàng)始人)團隊聯(lián)合斯坦福 Chelsea Finn(PI 創(chuàng)始人) 團隊研發(fā)的 Ctrl-World 世界模型交出優(yōu)異答卷:



  • 具身任務(wù)能力斬獲全球第一,更在主體一致性、軌跡精度、深度準確性、策略評估一致性四大核心維度登頂;
  • 視頻生成能力排名全球第二,僅次于阿里 Wan 2.6,強勢超越谷歌 Veo 3.1、英偉達 Cosmos-Predict 2.5 等世界頂尖模型;
  • Ctrl-World 成為在「視頻生成質(zhì)量」(看起來真實) 與「具身任務(wù)」(真正可用) 兩大維度均躋身頂級梯隊的世界模型



14 個世界模型在 WorldArena 融合多維度表現(xiàn)的 EWMScore 綜合指標評分

(a) Ctrl-World 在具身策略評估一致性上高達 0.986,遠超英偉達等同類模型;(b) Ctrl-World 以 59.70 在視頻生成質(zhì)量上排名全球第二,超越谷歌 Veo 3.1(58.87),僅次于阿里 Wan 2.6(61.86)

WorldArena:

全球具身世界模型的「終極試煉場」

WorldArena 之所以能成為行業(yè)公認的權(quán)威榜單,核心在于其「全面、硬核、具引領(lǐng)性」的定位,徹底區(qū)別于泛化的 AI 評測體系,其專業(yè)權(quán)威源于三大核心特質(zhì):

1. 硬核基準:頂尖學(xué)術(shù)共建,全方位綜合評測

WorldArena 由清華大學(xué)牽頭,聯(lián)合普林斯頓大學(xué)、新加坡國立大學(xué)、北京大學(xué)、香港大學(xué)、中科院、上海交通大學(xué)、中國科學(xué)技術(shù)大學(xué)等 8 所全球頂尖學(xué)術(shù)機構(gòu)共同研發(fā),團隊成員均為具身智能、計算機視覺、機器人學(xué)領(lǐng)域的權(quán)威學(xué)者,共同制定了兼具科學(xué)性與實用性的硬核評測標準。

該體系聚焦具身世界模型這一核心領(lǐng)域,打造了涵蓋 16 大核心指標、3 大真實應(yīng)用任務(wù)的全方位綜合測試場景,全面考核模型的感知精度、物理理解、空間認知、動作預(yù)測及實際落地適配能力,實現(xiàn)對具身智能核心技術(shù)的全方位、深層次檢驗,而非單一維度的能力比拼。

2. 參賽陣容鼎盛:全球巨頭與頂尖機構(gòu)同臺競技

得益于其權(quán)威的評測標準與行業(yè)影響力,全球頂尖具身世界模型研發(fā)團隊均主動參與評測,首批參評陣容涵蓋國際科技巨頭、頂尖學(xué)術(shù)機構(gòu),包括:谷歌、英偉達、阿里、字節(jié)、智譜、智元、極佳視界、清華大學(xué)、斯坦福大學(xué)、北京大學(xué)、香港大學(xué)、普林斯頓大學(xué)等

此次共有全球頂尖 14 款參賽模型同臺競技,覆蓋通用視頻生成衍生模型、機器人專用模型等所有主流技術(shù)路線,真正形成「全球頂級玩家齊聚」的格局,榜單結(jié)果不僅是各模型能力的直觀排名,更成為行業(yè)技術(shù)研發(fā)、方向布局的重要「風向標」,引領(lǐng)具身智能領(lǐng)域的創(chuàng)新發(fā)展。

3. 評測硬核:16 項指標 + 3 大任務(wù),直擊「真干活」的核心需求

WorldArena 的評測體系圍繞「具身實用」設(shè)計,聚焦「真能干活」:



視頻質(zhì)量 6 大評估維度示意圖:視覺質(zhì)量、運動質(zhì)量、內(nèi)容一致性、物理貼合度、3D 精度、可控性,每個維度都有明確的優(yōu)劣判斷標準

6 大核心維度涵蓋視覺質(zhì)量、運動質(zhì)量、內(nèi)容一致性、物理貼合度(Physics Adherence)、3D 準確性(3D Accuracy)、可控性,細分為 16 項量化指標,每一項都對應(yīng)機器人實際應(yīng)用的痛點;



具身任務(wù)評估體系概覽:通過數(shù)據(jù)引擎、策略評估、動作規(guī)劃三大任務(wù),全面測試模型的實戰(zhàn)能力

3 大具身任務(wù)(數(shù)據(jù)引擎、策略評估、動作規(guī)劃)模擬模型的真實使用場景,直接考核「生成的內(nèi)容能不能訓(xùn)練機器人」、「模擬的環(huán)境能不能測試策略」、「規(guī)劃的動作能不能完成任務(wù)」;

70 位專業(yè)標注者對 3500 個視頻進行主觀評估,確保結(jié)果既符合技術(shù)標準,又貼近人類對「實用」的直覺判斷。



現(xiàn)有世界模型基準與 WorldArena 的評測維度對比:

該表從視頻質(zhì)量 6 個子維度、具身任務(wù) 3 大核心角色及人類評估維度,全面對比了主流評測基準與 WorldArena 的覆蓋情況,直觀體現(xiàn)了 WorldArena 在具身任務(wù)評測上的獨家優(yōu)勢,是其成為具身世界模型專屬評測金標準的核心依據(jù)。

這種「技術(shù)指標 + 實用任務(wù) + 人類校驗」的三重考核,讓 WorldArena 的排名不只是「分數(shù)高低」,更是模型實際應(yīng)用價值的直接體現(xiàn)。

Ctrl-World 四大具身維度登頂

斬獲具身任務(wù)能力全球第一



14 款世界模型在視頻質(zhì)量三大維度(視覺質(zhì)量、運動質(zhì)量、內(nèi)容一致性)的各項指標評分表:

Ctrl-World 在主體一致性全球第一 (0.8411)



14 款世界模型物理貼合度、3D 準確性及可控性評分:

Ctrl-World 在軌跡準確性(0.4766)、深度準確性(0.9300)等核心指標上的領(lǐng)先地位,其中軌跡準確性(0.4766)位列全球第一

1. 主體一致性全球第一(0.8411):筑牢具身任務(wù)落地的基礎(chǔ)

Ctrl-World 以 0.8411 的得分拿下該指標全球第一。這一指標用于衡量視頻中生成物體的身份、外觀與形態(tài)在時序維度的穩(wěn)定程度,Ctrl-World 的領(lǐng)先表現(xiàn),使其生成的機器人操作視頻能最大程度規(guī)避物體位置漂移、形態(tài)形變或身份混淆等問題,為機器人作業(yè)提供了高保真的「數(shù)字孿生」交互對象。



圖中展示了 WorldArena 基準中主體一致性(Subject Consistency)的高低分案例對比,直觀說明 Ctrl-World 以 0.8411 位列全球第一的技術(shù)優(yōu)勢:

  • 高分案例(90.07):在「adjust bottle」任務(wù)中,瓶子在機械臂交互全過程中保持形狀、顏色、標識及位置的時序穩(wěn)定,無漂移或形變,體現(xiàn)高保真「數(shù)字孿生」特性;
  • 低分案例(1.242):同場景下瓶子出現(xiàn)嚴重幾何變形與身份特征丟失,產(chǎn)生視覺噪聲,直接影響機器人策略訓(xùn)練的可靠性。

2. 軌跡精度全球第一(0.4766 ):動作精準度媲美真實物理軌跡

軌跡準確性(Trajectory Accuracy)衡量機械臂運動軌跡與真實物理軌跡的對齊度,是機器人動作規(guī)劃的核心基礎(chǔ)。Ctrl-World 以 0.4766 的絕對優(yōu)勢位列全球第一,意味著其生成的機械臂運動軌跡與真實世界物理運動幾乎完全吻合,為機器人提供了可信賴的「數(shù)字孿生」動作模板。



圖中展示了 WorldArena 基準中軌跡準確性(Trajectory Accuracy)的高低分案例對比,直觀說明 Ctrl-World 以 0.4766 位列全球第一的技術(shù)優(yōu)勢:

  • 高分案例(92.95):在 「move can pot」任務(wù)中,機械臂運動軌跡(紅色路徑線)與真實物理軌跡(GT)高度吻合,動作精準連貫,符合物理運動規(guī)律;
  • 低分案例(8.64):同場景下軌跡出現(xiàn)顯著偏離,伴隨異常跳躍和不連貫動作,無法復(fù)現(xiàn)真實物理運動。

3. 深度準確性全球第一梯隊(0.9300 ):3D 空間認知遙遙領(lǐng)先

在 3D 準確性維度的深度準確性(Depth Accuracy)指標上,Ctrl-World 以 0.9300(與第一位差距僅 0.0012)屬全球第一梯隊,展現(xiàn)了對三維空間結(jié)構(gòu)的精準把握。這一能力直接決定機器人在抓取、堆疊、插入等精密操作中的成功率,避免因「空間感知偏差」導(dǎo)致的抓空、碰撞等失誤。



該圖展示了 WorldArena 基準中深度準確性(Depth Accuracy)高低分案例對比,直觀說明 Ctrl-World 以 0.9300 全球第一梯隊技術(shù)優(yōu)勢:

  • 高分案例(深度準確性 91.58 ):在「stack blocks three」與 「stack bowls two」任務(wù)中,生成深度圖與真實場景(GT)高度一致,物體空間位置穩(wěn)定、透視關(guān)系合理,機械臂與物體保持正確的空間分離與物理接觸,體現(xiàn)精準的三維空間結(jié)構(gòu)認知;
  • 低分案例(深度準確性 59.07):同場景下出現(xiàn)機械臂與物體異常融合(穿透)、嚴重幾何失真、鬼影模糊及陰影缺失,空間完整性崩塌。

4. 策略評估一致性全球第一(Pearson r=0.986):虛擬測試 = 真實測試

在最具實用價值的策略評估(Policy Evaluator)任務(wù)中,Ctrl-World 與真實物理模擬器(RoboTwin 2.0)的評估結(jié)果相關(guān)性高達 0.986,近乎完美復(fù)刻真實環(huán)境動態(tài)。這意味著開發(fā)者可直接用 Ctrl-World 測試機器人策略,無需搭建昂貴的真實物理環(huán)境,大幅降低研發(fā)成本。



世界模型與物理模擬器的策略評估結(jié)果相關(guān)性:

Ctrl-World 的 Pearson r=0.986,近乎完美復(fù)刻真實環(huán)境評估結(jié)果,遠高于英偉達 Cosmos-Predict 2.5 的 0.483,印證了其作為虛擬仿真環(huán)境的可靠性。

從指標高分到任務(wù)成功:

解碼 Ctrl-World 的「實力轉(zhuǎn)化」

Ctrl-World 在物理貼合度、3D 準確性及可控性等維度的全面領(lǐng)先,并非僅僅是實驗室里的數(shù)字游戲,而是直接決定了其作為「機器人大腦」的實用價值。WorldArena 的評測數(shù)據(jù)清晰揭示了這種轉(zhuǎn)化關(guān)系:

1. 高保真策略評估:虛擬測試即真實測試

在 Policy Evaluator 任務(wù)中,Ctrl-World 與 RoboTwin 物理模擬器的評估相關(guān)性高達 0.986,這意味著在 Ctrl-World 中測試的機器人策略性能,與在真實物理環(huán)境中測試的結(jié)果幾乎無差異。相比之下,Cosmos-Predict 2.5 的相關(guān)性僅為 0.483。這一差距的背后的技術(shù)邏輯在于:Ctrl-World 通過顯式動作建模(Action-Conditioned)架構(gòu),將機械臂關(guān)節(jié)角度、末端執(zhí)行器位姿等低層物理參數(shù)直接作為生成條件,強制模型學(xué)習「執(zhí)行動作 A→產(chǎn)生狀態(tài) B」的因果物理鏈,而非僅僅根據(jù)文字描述「猜測」動作。

2. 動作規(guī)劃成功率:物理準確性直接決定任務(wù)成敗

在 Action Planner 任務(wù)中,雖然當前所有世界模型的絕對成功率仍有提升空間,但 Ctrl-World 的物理準確性優(yōu)勢為其奠定了最可靠的基礎(chǔ)。在閉環(huán)動作執(zhí)行任務(wù)中,物理貼合度和軌跡精度的高低直接決定了機械臂能否完成「調(diào)整瓶子」、「點擊鈴鐺」等操作。Ctrl-World 的軌跡精度(0.4766)和深度準確性(0.9300)確保了生成的動作序列在真實機器人上執(zhí)行時,能夠精準到達目標位置并維持物理穩(wěn)定的交互,避免了因「空間感知偏差」導(dǎo)致的抓空、碰撞等操作失誤。

3. 合成數(shù)據(jù)的有效性:從「能生成」到「能訓(xùn)練」

在 Data Engine 任務(wù)中,Ctrl-World 生成數(shù)據(jù)的物理合理性確保了其可用于訓(xùn)練真實策略。原論文指出,許多模型生成的合成數(shù)據(jù)雖然視覺上清晰,但因缺乏物理一致性,訓(xùn)練出的策略在真實環(huán)境中完全失效(「virtual data training, real world failure」)。而 Ctrl-World 通過嵌入物理引擎約束的訓(xùn)練方式,確保生成的視頻不僅「看起來對」,更「物理上對」,使其合成的視頻 - 動作序列真正具備訓(xùn)練價值。

Ctrl-World 的「制勝密碼」

1. 動作條件化(Action-Conditioned)架構(gòu)

與 Genie Envisioner、GigaWorld 等文本條件化模型不同,Ctrl-World 采用顯式動作建模,直接將機器人動作參數(shù)(關(guān)節(jié)扭矩、夾爪開合度)注入生成過程。原論文明確指出:「explicit action modeling plays a critical role in producing physically plausible interactions」(顯式動作建模對產(chǎn)生物理合理交互至關(guān)重要)。這使其能夠精確模擬接觸力反饋、慣性傳遞等物理現(xiàn)象,從根本上避免了文本模型常見的「物體穿透機械臂」、「隔空吸附」等錯誤。

2. 物理引擎約束嵌入

Ctrl-World 在訓(xùn)練過程中嵌入物理引擎約束,將牛頓力學(xué)定律「內(nèi)化」為生成過程的硬約束。不同于單純依賴像素統(tǒng)計規(guī)律的通用視頻模型,Ctrl-World 通過物理引擎監(jiān)督,強制生成內(nèi)容遵守質(zhì)量、摩擦、碰撞守恒律。這正是其策略評估相關(guān)性達到 0.986 的核心原因 —— 生成過程受物理規(guī)律約束,模擬的環(huán)境動態(tài)與真實物理模擬器的誤差極小。

3. 多視圖聯(lián)合與視頻預(yù)測模型

針對 Depth Accuracy 第一梯隊成績,Ctrl-World 融合多視圖聯(lián)合預(yù)測與視頻預(yù)測模型,不僅預(yù)測 RGB 像素,更隱式建模深度圖與點云結(jié)構(gòu),利用多視角數(shù)據(jù)訓(xùn)練空間認知能力,使其在處理「堆疊積木」等需要精確深度準確性的任務(wù)時,成功率超僅使用單目視頻訓(xùn)練的模型。

從「生成好看」到「真能干活」

世界模型進入新階段

清華陳建宇團隊聯(lián)合斯坦福 Chelsea Finn 團隊研發(fā)的 Ctrl-World 在 WorldArena 拿下「具身任務(wù)第一、視頻生成綜合第二」的佳績,核心在于其精準把握了具身世界模型的本質(zhì) ——「以物理規(guī)律為根,以空間認知為骨,以功能 utility 為魂」。隨著更多模型加入評測、更多場景被納入體系,WorldArena 將持續(xù)推動具身世界模型向「更懂物理、更有空間感、更能干活」的方向發(fā)展,加速機器人自主智能的落地進程。

WorldArena 相關(guān)資源

  • 項目主頁:http://world-arena.ai
  • 論文地址:http://arxiv.org/abs/2602.08971
  • GitHub 開源:https://github.com/tsinghua-fib-lab/WorldArena
  • 評測榜單:https://huggingface.co/spaces/WorldArena/WorldArena

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
我國小學(xué)在校生仍保持1億多人

我國小學(xué)在校生仍保持1億多人

21世紀經(jīng)濟報道
2026-03-01 19:44:35
53歲李冰冰在巴黎殺瘋了!白到發(fā)光隱現(xiàn)腹肌,這狀態(tài)真不是人類?

53歲李冰冰在巴黎殺瘋了!白到發(fā)光隱現(xiàn)腹肌,這狀態(tài)真不是人類?

草莓解說體育
2026-02-06 05:59:56
【專訪】秦天:伊朗局勢可參考委內(nèi)瑞拉,警惕全球反美力量進一步削弱

【專訪】秦天:伊朗局勢可參考委內(nèi)瑞拉,警惕全球反美力量進一步削弱

界面新聞
2026-03-01 14:44:10
2-1!全都是角球,且都是阿森納進的!多賽1輪領(lǐng)先曼城5分

2-1!全都是角球,且都是阿森納進的!多賽1輪領(lǐng)先曼城5分

體育世界
2026-03-02 02:58:22
畸形審美?這4位男演員長相平平,還總當主演演帥哥,難以理解

畸形審美?這4位男演員長相平平,還總當主演演帥哥,難以理解

草莓解說體育
2026-03-02 01:36:21
中國游客到迪拜參加婚禮被困:目睹導(dǎo)彈從上空飛過,半夜被叫醒躲進地下室,怕被導(dǎo)彈碎片擊中不敢亂跑

中國游客到迪拜參加婚禮被困:目睹導(dǎo)彈從上空飛過,半夜被叫醒躲進地下室,怕被導(dǎo)彈碎片擊中不敢亂跑

極目新聞
2026-03-01 16:42:53
沉痛悼念哈梅內(nèi)伊同志!

沉痛悼念哈梅內(nèi)伊同志!

入木三分談
2026-03-01 20:06:43
價格已漲2.5倍!網(wǎng)友網(wǎng)購2條8GB內(nèi)存故障退貨:還被商家收15%折舊費

價格已漲2.5倍!網(wǎng)友網(wǎng)購2條8GB內(nèi)存故障退貨:還被商家收15%折舊費

快科技
2026-03-01 11:11:48
基辛格生前大膽預(yù)測:第三次世界大戰(zhàn)爆發(fā),敢打美國的國家就3個

基辛格生前大膽預(yù)測:第三次世界大戰(zhàn)爆發(fā),敢打美國的國家就3個

古史青云啊
2026-02-17 22:44:51
一種戴久了可能致癌的首飾,很多人家里都有!

一種戴久了可能致癌的首飾,很多人家里都有!

距離距離
2026-02-26 13:18:17
悲催!網(wǎng)傳黑龍江一29歲男子去世,大學(xué)畢業(yè)后不上班,酗酒致死…

悲催!網(wǎng)傳黑龍江一29歲男子去世,大學(xué)畢業(yè)后不上班,酗酒致死…

火山詩話
2026-03-01 09:32:21
“突然理解道明寺媽媽了”,高鐵上小少爺走紅,讓普通人看透現(xiàn)實

“突然理解道明寺媽媽了”,高鐵上小少爺走紅,讓普通人看透現(xiàn)實

妍妍教育日記
2026-02-28 17:41:50
姐姐摸了下弟弟的小腳丫,我直接破防了!這畫面也太暖了吧!

姐姐摸了下弟弟的小腳丫,我直接破防了!這畫面也太暖了吧!

風起見你
2026-03-01 19:49:51
東部戰(zhàn)區(qū)一句話,直接把天聊“死”了!

東部戰(zhàn)區(qū)一句話,直接把天聊“死”了!

達文西看世界
2026-02-17 11:12:07
春節(jié)后,這4種蔬菜不要隨便買!菜販子:我從來不吃,顧客搶著買

春節(jié)后,這4種蔬菜不要隨便買!菜販子:我從來不吃,顧客搶著買

阿龍美食記
2026-02-26 10:37:19
親人去世,先打120還是殯儀館?記住這個順序,少跑90%彎路

親人去世,先打120還是殯儀館?記住這個順序,少跑90%彎路

白淺娛樂聊
2026-02-25 19:00:57
7級大風!江蘇天氣即將轉(zhuǎn)好!

7級大風!江蘇天氣即將轉(zhuǎn)好!

江南晚報
2026-03-02 03:33:30
女婿當眾摟腰挽留丈母娘,10天后評論區(qū)還在吵:這算親?還是越界

女婿當眾摟腰挽留丈母娘,10天后評論區(qū)還在吵:這算親?還是越界

大熊歡樂坊
2026-02-28 01:40:08
連續(xù)2場逆轉(zhuǎn),中國男籃兩連勝,李弘權(quán)9+11成奇兵 高詩巖防守拉滿

連續(xù)2場逆轉(zhuǎn),中國男籃兩連勝,李弘權(quán)9+11成奇兵 高詩巖防守拉滿

替補席看球
2026-03-01 17:55:20
965球背后的數(shù)據(jù)謊言,C羅的“歷史第一射手”究竟摻了多少水?

965球背后的數(shù)據(jù)謊言,C羅的“歷史第一射手”究竟摻了多少水?

耀陽體育
2026-03-01 15:13:58
2026-03-02 05:11:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12382文章數(shù) 142573關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

特朗普警告伊朗“不要報復(fù)” 伊朗外長回應(yīng)

頭條要聞

特朗普警告伊朗“不要報復(fù)” 伊朗外長回應(yīng)

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

親子
健康
數(shù)碼
本地
公開課

親子要聞

帶娃看醫(yī)生,聽懂這幾句話少走90%彎路!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

數(shù)碼要聞

曝蘋果WWDC 26將推Core AI框架取代Core ML并公布多項AI功能

本地新聞

津南好·四時總相宜

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版