国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

目標(biāo)更重要?國內(nèi)公司超越Generalist,進(jìn)化到動作中心世界模型

0
分享至



機器之心發(fā)布

最近,具身智能圈被 Generalist CEO 的一篇長文《Going Beyond World Models & VLAs》刷屏。文章拋出了一個看似振聾發(fā)聵的觀點:目標(biāo)遠(yuǎn)比工具標(biāo)簽更重要。與其陷入 “我們到底是在做 VLA(視覺 - 語言 - 動作模型)還是世界模型(World Model)” 的教條之爭,不如回歸本源:讓機器高效、準(zhǔn)確地作用于物理世界。

目標(biāo)固然重要,但這只說對了一半。喊出 “回歸目標(biāo)” 的口號很容易,但如果僅僅停留在 “目標(biāo)驅(qū)動” 的思維層面上,而沒有在底層架構(gòu)上做出與之匹配的決斷與取舍,那所謂的 “突破邊界” 也不過是空中樓閣。Generalist 試圖用 “完全掌控基礎(chǔ)模型、從零訓(xùn)練” 來解決一切問題,這是一種大力出奇跡的粗暴解法。但在算力與數(shù)據(jù)均受限的真實物理世界里,我們需要的不僅是宏大的目標(biāo),更是極具穿透力的架構(gòu)設(shè)計。

巧合的是,在這場關(guān)于 “目標(biāo)驅(qū)動(Goal-Driven)” 與 “理念驅(qū)動(Idea-Driven)” 的探討中,國內(nèi)最早布局世界模型的公司極佳視界,他們沒有停留在概念的爭辯上,而是直接切中物理世界的約束,提出并開源了 “以動作為中心的世界模型” GigaWorld-Policy。這不僅僅是一次架構(gòu)的微調(diào),而是對具身智能底層邏輯的重構(gòu)。



  • 項目主頁:https://gigaai-research.github.io/GigaWorld-Policy/

目標(biāo)的本質(zhì)

從 “理解世界” 到 “作用于世界”

在探討 GigaWorld-Policy 之前,我們必須先理清當(dāng)前世界模型在機器人領(lǐng)域的尷尬處境。過去一年,讓機器人 “先想象,再行動” 幾乎成了世界模型標(biāo)配思路:模型在推理時同步生成未來的視頻幀,再從這些高維視覺表征中提取或規(guī)劃動作。

這種做法在直覺上很美妙,但在工程實踐中卻暴露出了兩個致命缺陷:

  1. 目標(biāo)錯位:視頻生成是手段,而高頻、精準(zhǔn)的動作輸出才是目的。將手段當(dāng)成目標(biāo),不可避免地會導(dǎo)致模型架構(gòu)的臃腫和計算資源的錯配。
  2. 現(xiàn)實約束:渲染高維像素的計算開銷極大,不僅帶來了難以忍受的推理延遲,視頻預(yù)測的誤差還會沿著時間步傳遞給動作序列,最終導(dǎo)致物理交互的崩潰。

極佳視界的判斷是:如果一個設(shè)計在推理時必須做大量與最終目標(biāo)無關(guān)的計算,那它一定不是最優(yōu)解。真正的具身智能,需要的不是一個能在腦海中完美回放 4K 視頻的 “幻想家”,而是一個對物理規(guī)律擁有 “潛意識” 般直覺反應(yīng)的 “實干家”。

就像頂尖的乒乓球運動員,在擊球的瞬間絕不需要在腦海中渲染出球的完整運動軌跡,而是依靠肌肉記憶和物理直覺直接做出最優(yōu)動作。

GigaWorld-Policy

讓視頻生成從 “場上選手” 轉(zhuǎn)為 “幕后教練”

基于對 “目標(biāo)” 和 “現(xiàn)實約束” 的重新思考,GigaWorld-Policy 在架構(gòu)層面做出了一個極具顛覆性的改變:讓視頻生成在推理時變?yōu)榭蛇x項。



在這個架構(gòu)中,視頻生成模塊的角色發(fā)生了根本性的轉(zhuǎn)變:

  1. 訓(xùn)練時的 “嚴(yán)師”: 模型在訓(xùn)練階段同時接受 “動作預(yù)測” 和 “視頻生成” 的雙重監(jiān)督。海量的互聯(lián)網(wǎng)視頻數(shù)據(jù)在這里發(fā)揮了巨大的價值,視頻生成作為一個嚴(yán)苛的輔助任務(wù),強迫模型深入學(xué)習(xí)并內(nèi)化符合真實物理規(guī)律的動態(tài)表征(Dynamics Representation)。
  2. 推理時的 “Action-Only” 模式: 一旦部署到物理世界,視頻生成模塊便徹底退居幕后。模型可以一鍵切換至純動作輸出模式,直接下發(fā)高頻控制指令。

這種設(shè)計甩掉了渲染高維像素的算力包袱。理解物理規(guī)律,不再等同于必須渲染出物理畫面。只有當(dāng)架構(gòu)本身與目標(biāo)實現(xiàn)完全對齊時,“目標(biāo)驅(qū)動” 才不再是一句空話。

數(shù)據(jù)效率

在現(xiàn)實約束下尋找最優(yōu)解

Generalist 在文章中提到,面對機器人領(lǐng)域數(shù)據(jù)稀缺的問題,他們的選擇是 “從零訓(xùn)練”,并堅信當(dāng)數(shù)據(jù)足夠充足時,完全掌控基礎(chǔ)模型能更快突破邊界。這是一個典型的 “富人思維” 陷阱,也違背了機器學(xué)習(xí)的基本規(guī)律。在產(chǎn)業(yè)落地的現(xiàn)實中,“缺乏 web-scale 的機器人動作數(shù)據(jù)” 是一道繞不過去的坎。指望靠海量真機數(shù)據(jù)硬生生喂出一個 “從零訓(xùn)練” 的基礎(chǔ)模型,在經(jīng)濟(jì)性和時間成本上都是不可接受的。

要真正解決數(shù)據(jù)效率問題,必須回歸第一性原理。OpenAI 提出的 Transfer Scaling Law(遷移縮放定律) 為我們指明了方向:它揭示了預(yù)訓(xùn)練模型在目標(biāo)任務(wù)上的性能,并不只取決于模型大小,更取決于預(yù)訓(xùn)練數(shù)據(jù)(源域)與目標(biāo)任務(wù)數(shù)據(jù)(目標(biāo)域)之間的分布對齊程度。簡而言之,你喂給模型再多的通用數(shù)據(jù),如果它的表征結(jié)構(gòu)不適合直接輸出 “動作”,這種知識遷移的損耗將是極其驚人的。

極佳視界的解法,正是對 Transfer Scaling Law 的一次教科書級別的工程實踐。因為 GigaWorld-Policy 從底層架構(gòu)上就確立了 “以動作為中心”,這使得模型在預(yù)訓(xùn)練階段提取的物理表征,天然地與最終的 “動作輸出” 任務(wù)高度對齊。這就大大降低了知識遷移的損耗(Transfer Penalty)。

在第一性原理的指導(dǎo)下,GigaWorld-Policy 跑通了 “三段式高效訓(xùn)練 Pipeline”:

  1. 建立物理常識(源域預(yù)訓(xùn)練):利用海量互聯(lián)網(wǎng)視頻,讓基座模型學(xué)習(xí)廣泛的通用物理常識和視覺表征。
  2. 聚焦時空演變(跨域適配):引入涵蓋第一人稱視角、真實機器人操作及仿真環(huán)境的多源視頻,專攻具身場景下的時空動態(tài)演變,拉近源域與目標(biāo)域的分布距離。
  3. 精準(zhǔn)對齊(目標(biāo)域微調(diào)):僅需少量的帶標(biāo)簽真機動作數(shù)據(jù),即可完成最終的控制策略對齊。



實驗數(shù)據(jù)極具說服力:GigaWorld-Policy 僅用 10% 的真實機器人數(shù)據(jù),就能達(dá)到傳統(tǒng) VLA 方案使用 100% 數(shù)據(jù)的效果。 這種分層范式,相比傳統(tǒng) VLA 實現(xiàn)了高達(dá) 10 倍的訓(xùn)練效率提升。

推理延遲

物理世界的硬約束

在物理世界中,時間就是生命。毫秒級的延遲差異,往往就是 “穩(wěn)穩(wěn)抓住” 與 “打翻水杯” 的區(qū)別?!奥掏獭?的端到端大模型,在真實的物理交互中毫無用武之地。

  • 拋棄了視頻生成的包袱后,GigaWorld-Policy 在推理效率上迎來了質(zhì)的飛躍。在 A100 GPU 上,其推理速度達(dá)到了驚人的360 毫秒 / 步。相比之下,相較 Motus,GigaWorld-Policy 實現(xiàn)了更少的推理顯存占用以及 10 倍推理速度提升。
  • 更關(guān)鍵的是,這種速度的提升直接轉(zhuǎn)化為了控制性能的躍升。在真實世界的任務(wù)評測中,GigaWorld-Policy 的平均成功率達(dá)到了 83%,不僅比 Motus 快 9 倍,成功率更是高出 7 個百分點。



開源精神與產(chǎn)業(yè)的未來

與其在概念的迷宮中打轉(zhuǎn),或是空談 “目標(biāo)驅(qū)動”,不如用代碼和落地效果說話。就在前段時間,極佳視界宣布 GigaWorld-Policy 全面開源:

  • 項目主頁:https://gigaai-research.github.io/GigaWorld-Policy/
  • 代碼:https://github.com/open-gigaai/giga-world-policy
  • 論文:https://arxiv.org/pdf/2603.17240

在此之前,他們的 GigaWorld-1 不僅在世界模型權(quán)威基準(zhǔn) WorldArena 中登頂全球第一(綜合得分突破 60 分,超越谷歌、英偉達(dá)、阿里等國際頂尖團(tuán)隊),其開源代碼和數(shù)據(jù)集在 Huggingface 上的下載量也已突破 2.4 萬次:

  • 代碼:https://github.com/open-gigaai/CVPR-2026-Workshop-WM-Track
  • 數(shù)據(jù):https://huggingface.co/datasets/open-gigaai/CVPR-2026-WorldModel-Track-Dataset

無論是 Generalist 的深思,還是極佳視界的破局,都在向整個行業(yè)傳遞一個明確的信號:具身智能已經(jīng)走過了 “概念驗證” 的階段。未來的主戰(zhàn)場,屬于那些真正理解物理約束、敢于在架構(gòu)上斷舍離的實干者。而 “以動作為中心” 的世界模型,或許是通往物理 AGI 之路上,一座極具里程碑意義的進(jìn)步。

世界模型無疑是 2026 年至今整個科技圈最熱議題之一。它正推動 AI 從“感知當(dāng)下”,走向?qū)r空和動態(tài)變化的“預(yù)測與推演”。在這條充滿想象力卻又極具挑戰(zhàn)的賽道上,技術(shù)突破與實踐應(yīng)用走到了哪一步?

4 月 15 日 19:00-21:00,機器之心將聯(lián)手黃大年茶思屋,邀請 5 位產(chǎn)學(xué)研頂尖專家,從技術(shù)突破到產(chǎn)業(yè)實踐,深度解析世界模型的最前沿。

歡迎關(guān)注機器之心視頻號預(yù)約直播

*如有疑問,歡迎添加小助手微信,搜索:jiqizhixinsh



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
陳曉反擊陳妍希!回應(yīng)未出席前岳父喪禮,否認(rèn)冷暴力陳妍希和孩子

陳曉反擊陳妍希!回應(yīng)未出席前岳父喪禮,否認(rèn)冷暴力陳妍希和孩子

萌神木木
2026-04-23 12:33:24
黑尾醬,徹底消失了?

黑尾醬,徹底消失了?

生如稗草
2026-03-15 08:48:11
徐明聯(lián)手本拉登家族,400億硬剛中石油,帝國崩塌

徐明聯(lián)手本拉登家族,400億硬剛中石油,帝國崩塌

圓夢的小老頭
2026-04-17 23:52:41
歐盟強制手機必須能自己換電池,不改就不準(zhǔn)賣

歐盟強制手機必須能自己換電池,不改就不準(zhǔn)賣

桂系007
2026-04-22 23:56:55
14分2帽!余嘉豪成西乙核心!統(tǒng)治攻守+挖掘三分,近5場效率拉滿

14分2帽!余嘉豪成西乙核心!統(tǒng)治攻守+挖掘三分,近5場效率拉滿

籃球資訊達(dá)人
2026-04-23 15:01:57
陳小紜這也太夸張了,大腿小腿幾乎一樣細(xì),看起來好精致

陳小紜這也太夸張了,大腿小腿幾乎一樣細(xì),看起來好精致

白宸侃片
2026-04-10 12:30:39
人人都不看好,偏偏又不爭氣!斯佳輝岌岌可危,種子恐他一人出局

人人都不看好,偏偏又不爭氣!斯佳輝岌岌可危,種子恐他一人出局

叮咚體壇
2026-04-23 09:51:20
24小時之內(nèi),美國迎來3個噩耗,特朗普或?qū)⑾屡_,伊最高領(lǐng)袖下場

24小時之內(nèi),美國迎來3個噩耗,特朗普或?qū)⑾屡_,伊最高領(lǐng)袖下場

混沌錄
2026-04-22 13:48:17
4月22日俄烏最新:中將親自帶隊沖鋒

4月22日俄烏最新:中將親自帶隊沖鋒

西樓飲月
2026-04-22 18:37:19
柬埔寨代理國家元首洪森會見王毅

柬埔寨代理國家元首洪森會見王毅

新華社
2026-04-23 19:52:02
網(wǎng)紅“迅猛龍?zhí)乩偕遍_會員專屬直播引爭議,本人回應(yīng):平臺規(guī)定的每月一次會員直播,因操作失誤被設(shè)置為“可試看”

網(wǎng)紅“迅猛龍?zhí)乩偕遍_會員專屬直播引爭議,本人回應(yīng):平臺規(guī)定的每月一次會員直播,因操作失誤被設(shè)置為“可試看”

揚子晚報
2026-04-22 12:20:20
兄弟倆名震甲A,退役后靠餐飲發(fā)家,如今財富自由,哥哥身居要職

兄弟倆名震甲A,退役后靠餐飲發(fā)家,如今財富自由,哥哥身居要職

削桐作琴
2026-04-08 16:30:30
外交部:歡迎各國共享中國式現(xiàn)代化帶來的發(fā)展紅利

外交部:歡迎各國共享中國式現(xiàn)代化帶來的發(fā)展紅利

新華社
2026-04-23 18:00:07
格納布里:很遺憾,代表德國隊征戰(zhàn)世界杯的夢想已經(jīng)結(jié)束了

格納布里:很遺憾,代表德國隊征戰(zhàn)世界杯的夢想已經(jīng)結(jié)束了

懂球帝
2026-04-23 01:05:03
終于妥協(xié)認(rèn)輸稱無條件交出全部濃縮鈾:早知今日何必當(dāng)初?

終于妥協(xié)認(rèn)輸稱無條件交出全部濃縮鈾:早知今日何必當(dāng)初?

朗威談星座
2026-04-23 18:56:49
第一季那么神,第二季為何仆街?

第一季那么神,第二季為何仆街?

虹膜
2026-04-22 20:35:00
周受資系歪領(lǐng)結(jié)走紅毯,黃仁勛脫掉皮衣,大佬聚會被鄧文迪搶鏡

周受資系歪領(lǐng)結(jié)走紅毯,黃仁勛脫掉皮衣,大佬聚會被鄧文迪搶鏡

商務(wù)范
2026-04-22 14:17:49
《八千里路云和月》鐵樹不是林長庚,非朱管家,是不起眼的馬江天

《八千里路云和月》鐵樹不是林長庚,非朱管家,是不起眼的馬江天

牛鍋巴小釩
2026-04-23 15:17:20
年羹堯去世后,41歲岳鐘琪隨即下獄處決,雍正:他在,弘歷不敢繼位

年羹堯去世后,41歲岳鐘琪隨即下獄處決,雍正:他在,弘歷不敢繼位

老范談史
2026-04-23 16:26:48
孫宇晨九億美元灰飛煙滅,地表最強也難逃被收割的命運!

孫宇晨九億美元灰飛煙滅,地表最強也難逃被收割的命運!

大秦共和國
2026-04-23 13:03:21
2026-04-23 22:19:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12839文章數(shù) 142634關(guān)注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產(chǎn)品",但量產(chǎn)難預(yù)測

頭條要聞

男子被境外虛擬貨幣黑平臺騙30萬 躺平不上班滿頭白發(fā)

頭條要聞

男子被境外虛擬貨幣黑平臺騙30萬 躺平不上班滿頭白發(fā)

體育要聞

萊斯特城降入英甲,一場虧麻了的豪賭

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經(jīng)要聞

關(guān)于AI算力鏈"瓶頸" 這是高盛的最新看法

汽車要聞

令人驚艷的奇瑞車 風(fēng)云A9可不只是樣子貨

態(tài)度原創(chuàng)

藝術(shù)
家居
手機
健康
公開課

藝術(shù)要聞

她辭掉高管,花20年自費100萬:這本書,救了山西“正在消失的壁畫”

家居要聞

浪漫協(xié)奏 法式風(fēng)格

手機要聞

史無前例!榮耀將首發(fā)萬級雙電芯電池+百瓦閃充組合

干細(xì)胞如何讓燒燙傷皮膚"再生"?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版