国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

無需動作預(yù)訓(xùn)練,物理自回歸模型讓機(jī)器人“從視頻學(xué)會操作”

0
分享至


不需要動作預(yù)訓(xùn)練,即可同時實(shí)現(xiàn)未來視頻預(yù)測一致的動作軌跡生成。

作者丨拓元智慧AI團(tuán)隊

該論文作者來自中山大學(xué)、拓元智慧AI實(shí)驗室團(tuán)隊,項目負(fù)責(zé)人為王廣潤博士。王廣潤,國家級“四青人才”、拓元智慧首席科學(xué)家、中山大學(xué)計算機(jī)學(xué)院副教授、博士生導(dǎo)師、華為戰(zhàn)略研究院人才基金獲得者、前牛津大學(xué)研究員,主要研究方向包括新一代AI架構(gòu)、大物理模型、多模態(tài)生成式AI等。


論文題目:Physical Autoregressive Model for Robotic Manipulation without Action Pretraining論文鏈接:https://arxiv.org/abs/2508.09822項目主頁:https://hcplab-sysu.github.io/PhysicalAutoregressiveModel/

近日,由中山大學(xué)、拓元智慧AI實(shí)驗室聯(lián)合提出的全新“物理自回歸模型(Physical Autoregressive Model,PAR)”打通了“預(yù)判未來視頻幀—生成動作軌跡”的統(tǒng)一鏈路,將視覺幀與動作共同編碼為“物理token”,在無需動作預(yù)訓(xùn)練的前提下即可學(xué)習(xí)物理世界的動態(tài)規(guī)律?;贛aniSkill基準(zhǔn),PAR 在PushCube任務(wù)上實(shí)現(xiàn)100%成功率,并在其余任務(wù)上與需要動作預(yù)訓(xùn)練的強(qiáng)基線表現(xiàn)相當(dāng),顯示了從大規(guī)模視頻預(yù)訓(xùn)練向機(jī)器人操控遷移的可行路徑。

核心技術(shù)點(diǎn):

  • 全局記憶的自回歸框架:構(gòu)建從過去到現(xiàn)在的所有“觀察-動作”歷史,借鑒GPT等語言模型的工作模式,基于全部N個歷史token預(yù)測下一步(N+1步)最合理的行動。

  • 統(tǒng)一的“物理token”表征:將幀與動作拼接為一個序列單元,直接建模機(jī)器人與環(huán)境的聯(lián)合演化;模型以自回歸方式逐步預(yù)測下一步視頻與動作。

  • 連續(xù)空間的DiT去分詞器(de-tokenizer):以擴(kuò)散Transformer(DiT)建模幀與動作的連續(xù)分布,避免離散量化帶來的誤差累積,并促進(jìn)兩模態(tài)的相互增強(qiáng)。

  • 面向控制的因果掩碼與效率機(jī)制:引入“動作對幀的單向注意力”,形成隱式逆運(yùn)動學(xué);同時結(jié)合并行訓(xùn)練與KV-cache提升推理效率。

01

研究背景

在機(jī)器人操控領(lǐng)域,獲取大規(guī)模、標(biāo)注完備的人類示教數(shù)據(jù)成本高昂。現(xiàn)有不少方法把語言大模型用于行動策略,但文本與動作模態(tài)之間存在天然鴻溝。相比之下,自回歸視頻生成模型天生擅長“基于過去預(yù)測未來”,與動作生成的目標(biāo)更一致,因此成為遷移“世界知識”的理想載體。

此外,要讓機(jī)器人“知行合一”,不僅要“想得明白”,更要“做得精準(zhǔn)”?,F(xiàn)有的方法往往只依賴于“當(dāng)前幀+前一幀”的“局部觀察”,缺乏對長程歷史的記憶。與之相比,具備全局記憶的自回歸框架,可通過歷史全量token預(yù)測未來狀態(tài),實(shí)現(xiàn)“視覺-動作”的全局關(guān)聯(lián)建模,有效降低機(jī)器人在動態(tài)場景中(如機(jī)器人抓取、物體堆疊)因“短視”導(dǎo)致的“動作漂移”問題。

02

方法:PAR 如何把“看見的未來”變成“下一步動作”

整體框架:從“看—想—做”的自回歸閉環(huán)
PAR 的核心想法是把機(jī)器人與環(huán)境的交互過程,統(tǒng)一描述成一串“物理token”。每個 token 同時包含這一刻的視覺畫面動作片段。模型像講故事一樣按時間讀入這些token,用一個因果式Transformer形成對當(dāng)前情境的理解,然后同時預(yù)測下一張將看到的畫面以及下一步要執(zhí)行的動作。新的畫面和動作再被接回序列,進(jìn)入下一輪預(yù)測,形成“預(yù)測—執(zhí)行—再預(yù)測”的閉環(huán)。

直觀地說,PAR并不是先獨(dú)立學(xué)會“看視頻”,再額外學(xué)會“怎么動”,而是把兩件事合在一起、每一步都邊看邊想邊做。這種端到端的整體建模,避免了兩階段方法常見的分布偏移,也更貼近真實(shí)控制場景里“在行動中不斷校正”的節(jié)奏。


圖1:整體框架:從“看—想—做”的物理自回歸閉環(huán)

生成細(xì)節(jié):在“連續(xù)空間”里同時生成視頻與動作
傳統(tǒng)做法常把視頻和動作先量化成離散碼,再去預(yù)測,這會引入不可忽略的量化誤差。PAR 選擇在連續(xù)空間里直接建模:

  • 統(tǒng)一條件,雙分支生成。上述 Transformer 得到的“情境表示”被同時送入兩個生成器:一個負(fù)責(zé)“把下一張畫面逐步復(fù)原出來”(視頻分支),另一個負(fù)責(zé)“把下一段動作逐步生成出來”(動作分支)。兩個分支共享同一份條件,因此在訓(xùn)練時能彼此約束、相互增強(qiáng)——看到的未來會直接影響該怎么動,反過來更合理的動作也會促使畫面預(yù)測更貼近真實(shí)。

  • 逐步細(xì)化,貼近真實(shí)。兩個分支都采用逐步細(xì)化的生成方式(多步從粗到細(xì)),這讓結(jié)果更加平滑、細(xì)節(jié)更真實(shí),尤其適合對軌跡連續(xù)性和視覺連貫性都很敏感的機(jī)器人任務(wù)。

  • 輕量動作解碼器。動作本身維度較低,采用更輕量的生成器即可穩(wěn)定產(chǎn)出可控、平滑的控制量,便于在線部署。

注意力與控制:時間因果 + 幀內(nèi)雙向 + 動作←視覺單向
為把“預(yù)測未來”和“生成動作”真正做成控制器可用的能力,PAR 在注意力結(jié)構(gòu)上加入了三條關(guān)鍵約束:

  1. 時間因果。跨時間維度只能“看過去、不能看未來”,保證推理時與真實(shí)執(zhí)行一致,避免“偷看答案”。

  2. 幀內(nèi)雙向。同一幀內(nèi)部,圖像的各個區(qū)域可以相互關(guān)注,讓模型準(zhǔn)確理解目標(biāo)、障礙和機(jī)械臂之間的空間關(guān)系,從而把下一張畫面預(yù)測得更可信。

  3. 動作←視覺的單向通道。當(dāng)前步待預(yù)測的動作可以關(guān)注同一時刻待預(yù)測的視覺表示,但反過來不行;直覺上,這等價于在網(wǎng)絡(luò)里植入一種“從期望實(shí)現(xiàn)的外觀與相對位置反推該怎么動”的先驗(可把它理解為一種隱式逆運(yùn)動學(xué))。這使得動作更緊貼關(guān)鍵像素區(qū)域(例如方塊或目標(biāo)區(qū)),減小偏差累積。
    在工程層面,推理時配合KV-cache等增量計算,只對新增的 token 計算注意力,長序列滾動的時延增長更可控,適合在線控制。

03

評測與結(jié)果

  • 主要評測結(jié)果:在maniskill基準(zhǔn)中,PAR在PushCube達(dá)到100%成功率,總體成績居第二,僅次于需要動作預(yù)訓(xùn)練的RDT;在PickCube與StackCube上也超過或接近需要動作預(yù)訓(xùn)練的強(qiáng)基準(zhǔn)方法(總體平均74%)。

  • 對齊與可解釋性:如圖2所示,可視化顯示預(yù)測視頻實(shí)際執(zhí)行在關(guān)鍵動作時序與軌跡上高度一致;如圖3所示,注意力圖表明不同頭會在幀/動作token與關(guān)鍵像素區(qū)域(方塊、目標(biāo)區(qū)、機(jī)械臂)之間進(jìn)行有針對性的聚焦。


圖 2:預(yù)測視頻實(shí)際執(zhí)行關(guān)聯(lián)可視化


圖3:注意力圖

PAR證明了“從視頻世界遷移物理知識”用于機(jī)器人操控的有效性:不需要動作預(yù)訓(xùn)練,即可同時實(shí)現(xiàn)未來視頻預(yù)測一致的動作軌跡生成,為解決示教數(shù)據(jù)稀缺提供新路徑。

未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
馬刺6人上雙大勝奇才:文班亞馬15+8+4+4帽 新科榜眼24分

馬刺6人上雙大勝奇才:文班亞馬15+8+4+4帽 新科榜眼24分

醉臥浮生
2025-12-19 11:22:21
細(xì)思極恐!南京全城導(dǎo)航集體失靈,揭開高德、百度地圖背后的真相

細(xì)思極恐!南京全城導(dǎo)航集體失靈,揭開高德、百度地圖背后的真相

火山詩話
2025-12-19 06:18:20
中央戲劇學(xué)院院長郝戎被查,劉燁、章子怡、靳東等為其學(xué)生,曾搭檔王志文、李冰冰演電視劇,被稱"明星導(dǎo)師"

中央戲劇學(xué)院院長郝戎被查,劉燁、章子怡、靳東等為其學(xué)生,曾搭檔王志文、李冰冰演電視劇,被稱"明星導(dǎo)師"

大風(fēng)新聞
2025-12-19 11:54:20
日本即將引爆一顆金融核彈,美國會被炸死嗎?

日本即將引爆一顆金融核彈,美國會被炸死嗎?

天真無牙
2025-12-18 17:21:02
游客大理租車當(dāng)晚車身被惡意劃傷,賠償600元后監(jiān)控曝光:竟是租車行員工所為!警方:行拘

游客大理租車當(dāng)晚車身被惡意劃傷,賠償600元后監(jiān)控曝光:竟是租車行員工所為!警方:行拘

封面新聞
2025-12-18 19:17:32
剛剛,哈佛長新冠研究突破!發(fā)現(xiàn)背后黑手

剛剛,哈佛長新冠研究突破!發(fā)現(xiàn)背后黑手

徐德文科學(xué)頻道
2025-12-18 21:44:08
一馬當(dāng)先  盤盤古井貢酒·年份原漿古20馬年生肖酒“熱買經(jīng)”

一馬當(dāng)先 盤盤古井貢酒·年份原漿古20馬年生肖酒“熱買經(jīng)”

銠財
2025-12-19 09:55:26
盧卡申科最新涉華表態(tài)

盧卡申科最新涉華表態(tài)

中國網(wǎng)
2025-12-18 14:12:39
香港中環(huán)發(fā)生巨額劫案 4持刀男劫走10億日元

香港中環(huán)發(fā)生巨額劫案 4持刀男劫走10億日元

看看新聞Knews
2025-12-18 14:16:03
廣東男子吹玻璃30年肌肉拉傷變形,自嘲是“青蛙王子”笑稱自己練就了“蛤蟆功”

廣東男子吹玻璃30年肌肉拉傷變形,自嘲是“青蛙王子”笑稱自己練就了“蛤蟆功”

大象新聞
2025-12-18 18:57:05
突發(fā)!又一保險公司“人去樓空”,CEO被帶走調(diào)查?

突發(fā)!又一保險公司“人去樓空”,CEO被帶走調(diào)查?

毒sir財經(jīng)
2025-12-18 23:25:25
從3000萬輛到下一個時代,中國長安汽車的答案依然是“用戶安全”

從3000萬輛到下一個時代,中國長安汽車的答案依然是“用戶安全”

汽車預(yù)言家
2025-12-16 17:22:57
亞歷山大32+7+6雷霆送快船5連敗,哈登缺席萊納德22+8+6

亞歷山大32+7+6雷霆送快船5連敗,哈登缺席萊納德22+8+6

湖人崛起
2025-12-19 11:25:36
太平天國最大貢獻(xiàn):一場14年的“外科手術(shù)”,掏空清廷統(tǒng)治根基

太平天國最大貢獻(xiàn):一場14年的“外科手術(shù)”,掏空清廷統(tǒng)治根基

遠(yuǎn)方風(fēng)林
2025-12-18 23:49:15
索尼將退出中國,補(bǔ)償方案也是值得學(xué)習(xí)

索尼將退出中國,補(bǔ)償方案也是值得學(xué)習(xí)

比爾蓋凱
2025-12-18 22:32:52
明朝的一首詞,抵得過千萬首唐詩宋詞,因為這首詞全篇都是名句

明朝的一首詞,抵得過千萬首唐詩宋詞,因為這首詞全篇都是名句

長風(fēng)文史
2025-12-18 15:00:28
愛潑斯坦蘿莉島房間內(nèi)部首次曝光,牙醫(yī)椅子、詭異面具……還有多少秘密,誰最著急?

愛潑斯坦蘿莉島房間內(nèi)部首次曝光,牙醫(yī)椅子、詭異面具……還有多少秘密,誰最著急?

新民周刊
2025-12-05 10:03:22
俄國家杜馬通過新法:俄羅斯官員不用再公開財產(chǎn)

俄國家杜馬通過新法:俄羅斯官員不用再公開財產(chǎn)

桂系007
2025-12-19 01:52:39
泰國駐華大使館評論區(qū)爆了,感恩不斷

泰國駐華大使館評論區(qū)爆了,感恩不斷

深度報
2025-12-18 22:18:22
單扛強(qiáng)突+MVP!22歲中鋒帶隊進(jìn)決賽:離開曼聯(lián)半年12球3助

單扛強(qiáng)突+MVP!22歲中鋒帶隊進(jìn)決賽:離開曼聯(lián)半年12球3助

葉青足球世界
2025-12-19 08:29:19
2025-12-19 12:47:00
AI科技評論 incentive-icons
AI科技評論
點(diǎn)評學(xué)術(shù),服務(wù)AI
7012文章數(shù) 20715關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

媒體:美方官宣史上對臺單筆最大軍售 野心藏不住了

頭條要聞

媒體:美方官宣史上對臺單筆最大軍售 野心藏不住了

體育要聞

沒有塔圖姆,還有塔禿姆

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無期

汽車要聞

最便宜GLS 2026款奔馳GLS經(jīng)典版售96.8萬

態(tài)度原創(chuàng)

健康
本地
游戲
旅游
公開課

這些新療法,讓化療不再那么痛苦

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

Fami通周銷榜:《馬里奧賽車世界》三連冠近250萬

旅游要聞

北京周末可往返!賞冰雪、涮暖鍋、逛大集……官方推薦攻略來了→

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版