国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

大事不好!機(jī)器人學(xué)會(huì)預(yù)測(cè)未來了

0
分享至

金磊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

不得了,機(jī)器人現(xiàn)在開始學(xué)會(huì)腦補(bǔ)未來了。

這就是螞蟻靈波又又又又(連續(xù)第4天)開源的狠活兒——

全球首個(gè)用于通用機(jī)器人控制的因果視頻-動(dòng)作世界模型,LingBot-VA



怎么個(gè)腦補(bǔ)法?

簡單來說啊,以前的機(jī)器人(尤其是基于VLA的)干活兒,主打一個(gè)條件反射:眼睛看到什么,手立刻就動(dòng)一下。

這叫“觀察-反應(yīng)”模式。

但LingBot-VA就不一樣了,它通過自回歸視頻預(yù)測(cè)打破了這種思考方式,在動(dòng)手之前,腦子里先把未來幾秒的畫面推演出來。

說實(shí)話,用想象力做決策,在機(jī)器人控制這塊還是相當(dāng)新鮮的。

但這不是LingBot-VA唯一的亮點(diǎn),還包括:

  • 記憶不丟失:做長序列任務(wù)(比如做早餐)時(shí),它會(huì)記得自己剛才干了什么,狀態(tài)感知極強(qiáng)。
  • 高效泛化:只要給幾十個(gè)演示樣本,它就能適應(yīng)新任務(wù);換個(gè)機(jī)器人本體,也能hold住。



因此在LingBot-VA的加持下,像清洗細(xì)小的透明試管這種高精度任務(wù),機(jī)器人已經(jīng)是可以輕松拿捏:



視頻地址:https://mp.weixin.qq.com/s/xqE6C72usddKMc4EH89myA

正如我們剛才提到的,今天是螞蟻靈波連續(xù)第四天開源。

如果說前幾天的開源是給機(jī)器人加強(qiáng)了眼睛(LingBot-Depth)、大腦(LingBot-VLA)和世界模擬器(LingBot-World),那么今天的LingBot-VA,就是讓這具軀殼真正擁有了靈魂

一個(gè)行動(dòng)中的世界模型,讓想象真正落到執(zhí)行層面。

如此一來,通用機(jī)器人的天花板,算是被螞蟻靈波往上頂了一截。

正如網(wǎng)友所述:

  • 從預(yù)測(cè)到執(zhí)行;說實(shí)話這是巨大的飛躍。



讓想象力先行一步

LingBot-VA在架構(gòu)設(shè)計(jì)上選擇了一條更進(jìn)一步的路徑。

在傳統(tǒng)的VLA(視覺-語言-動(dòng)作)范式中,模型通常會(huì)將視覺理解、物理變化推理、低層動(dòng)作控制這三項(xiàng)復(fù)雜任務(wù)放在同一個(gè)神經(jīng)網(wǎng)絡(luò)中處理,這在學(xué)術(shù)界被稱為表征纏繞(Representation Entanglement)。

為了追求更高的樣本效率和更強(qiáng)的泛化能力,LingBot-VA選擇把這團(tuán)亂麻解開,提出了一套全新的解題思路:先想象世界,再反推動(dòng)作。

為了實(shí)現(xiàn)這個(gè)想法,螞蟻靈波團(tuán)隊(duì)采用了一個(gè)兩步走的策略:

  1. 視頻世界模型:先預(yù)測(cè)未來的視覺狀態(tài)(接下來會(huì)發(fā)生什么)。
  2. 逆向動(dòng)力學(xué)(Inverse Dynamics):基于視覺的變化,反推出應(yīng)該執(zhí)行什么動(dòng)作(為了達(dá)到這個(gè)畫面,手該怎么動(dòng))。

這與傳統(tǒng)VLA有著本質(zhì)區(qū)別:它不直接從“現(xiàn)在”跳到“動(dòng)作”,而是要經(jīng)過一下“未來”這個(gè)步驟。

如何實(shí)現(xiàn)?螞蟻靈波團(tuán)隊(duì)主要將三個(gè)架構(gòu)層面作為突破口。



首先就是視頻與動(dòng)作的自回歸交錯(cuò)序列

在LingBot-VA的模型里,視頻Token和動(dòng)作Token被放進(jìn)了同一條時(shí)間序列里。

為了保證邏輯嚴(yán)密,團(tuán)隊(duì)引入了因果注意力(Causal Attention)。這就像給模型定了一條死規(guī)矩:只能用過去的信息,絕對(duì)不能偷看未來。

同時(shí),借助KV-cache技術(shù),模型擁有了超強(qiáng)的長期記憶。它清楚地知道自己三步之前做了什么,任務(wù)絕對(duì)不會(huì)失憶。



其次是Mixture-of-Transformers (MoT) 的分工協(xié)作

這一步主要是為了解決我們前面提到的表征纏繞的問題。

我們可以把過程理解為“左右互搏”,但又很默契的一種配合:

  • 視頻流:寬而深,負(fù)責(zé)繁重的視覺推演。
  • 動(dòng)作流:輕而快,負(fù)責(zé)精準(zhǔn)的運(yùn)動(dòng)控制。

這兩個(gè)流共享注意力機(jī)制,信息互通,但在各自的表征空間里保持獨(dú)立。

這樣一來,視覺的復(fù)雜性不會(huì)干擾動(dòng)作的精準(zhǔn)度,動(dòng)作的簡單性也不會(huì)拉低視覺的豐富度。

最后就是工程設(shè)計(jì)相關(guān)的工作。

畢竟光有理論是不好使的,“實(shí)踐才是檢驗(yàn)真理的唯一標(biāo)準(zhǔn)”:

  • 部分去噪(Partial Denoising):做動(dòng)作預(yù)測(cè)時(shí),其實(shí)不需要每一次都把未來畫面渲染得高清無碼。模型學(xué)會(huì)了從帶有噪點(diǎn)的中間狀態(tài)里提取關(guān)鍵信息,計(jì)算效率大大提升。
  • 異步推理(Asynchronous Inference):機(jī)器人在執(zhí)行當(dāng)前動(dòng)作的時(shí)候,模型已經(jīng)在后臺(tái)瘋狂計(jì)算下一步了。推理和執(zhí)行并行,延遲感幾乎消失。
  • FDM 接地(Grounding):為了防止模型想象力脫離現(xiàn)實(shí),系統(tǒng)會(huì)用真實(shí)的觀測(cè)數(shù)據(jù)不斷校正想象,避免出現(xiàn)開放式的幻覺漂移。
實(shí)驗(yàn)結(jié)果與能力驗(yàn)證

在了解完理論之后,我們?cè)賮砜磳?shí)驗(yàn)效果。

螞蟻靈波團(tuán)隊(duì)在真機(jī)實(shí)驗(yàn)和仿真基準(zhǔn)上,對(duì)LingBot-VA進(jìn)行了全方位的實(shí)測(cè)。

在真機(jī)測(cè)試中,LingBot-VA覆蓋了三類最具挑戰(zhàn)性的任務(wù)。

首先是長時(shí)序任務(wù),比如準(zhǔn)備早餐(烤面包、倒水、擺盤)、拆快遞(拿刀、劃箱、開蓋)。



視頻地址:https://mp.weixin.qq.com/s/xqE6C72usddKMc4EH89myA

這些任務(wù)步驟繁多,但凡中間有一步有誤,那可以說是滿盤皆輸。從LingBot-VA的表現(xiàn)來看,一個(gè)字,

即便是不小心失敗了,機(jī)器人也會(huì)記得進(jìn)度,嘗試重來。

第二類是高精度任務(wù),比如擦試管、擰螺絲。



視頻地址:https://mp.weixin.qq.com/s/xqE6C72usddKMc4EH89myA

這要求動(dòng)作精度達(dá)到毫米級(jí),得益于MoT架構(gòu),動(dòng)作流不再受視覺噪聲的干擾,手極穩(wěn)。

剛才我們已經(jīng)看了擦拭管的案例,再來看個(gè)擰螺絲的:

第三類任務(wù)是針對(duì)可變形物體,例如折衣服、折褲子。



視頻地址:https://mp.weixin.qq.com/s/xqE6C72usddKMc4EH89myA

這些任務(wù)的難點(diǎn)在于物體處于一個(gè)隨時(shí)變化的狀態(tài),但LingBot-VA通過視頻推演,預(yù)判了布料的形變,操作行云流水。

除此之外,LingBot-VA在RoboTwin 2.0和LIBERO這兩個(gè)硬核仿真基準(zhǔn)上,也是很能打的。

尤其是在RoboTwin 2.0的雙臂協(xié)作任務(wù)中,無論是簡單的固定場景(Easy),還是復(fù)雜的隨機(jī)場景(Hard),LingBot-VA都展現(xiàn)出了不錯(cuò)的實(shí)力:

  • RoboTwin 2.0 (Easy):成功率92.93%,比第二名高出4.2%。
  • RoboTwin 2.0 (Hard):成功率91.55%,比第二名高出4.6%。



而且有一個(gè)趨勢(shì)非常明顯:

任務(wù)越難、序列越長(Horizon變大),LingBot-VA的領(lǐng)先優(yōu)勢(shì)就越大。

在 Horizon=3 的長任務(wù)中,它的優(yōu)勢(shì)甚至擴(kuò)大到了9%以上。

而在LIBERO基準(zhǔn)測(cè)試中,LingBot-VA更是拿下了98.5%的平均成功率,刷新了SOTA記錄。



總結(jié)一下,通過這些實(shí)驗(yàn),我們可以清晰地看到LingBot-VA的三個(gè)核心特質(zhì):

  • 長期記憶:在一個(gè)來回擦盤子的計(jì)數(shù)任務(wù)中,普通VLA模型擦著擦著就忘了擦了幾下,開始亂擦;LingBot-VA 則精準(zhǔn)計(jì)數(shù),擦完即停。這就是KV-cache的起到的作用。
  • 少樣本適應(yīng):面對(duì)全新的任務(wù),只需提供50條左右的演示數(shù)據(jù),稍微微調(diào)一下,它就能學(xué)會(huì)。這比那些動(dòng)輒需要成千上萬條數(shù)據(jù)的模型,效率高了幾個(gè)數(shù)量級(jí)。
  • 泛化能力:訓(xùn)練時(shí)用的是某種杯子,測(cè)試時(shí)換個(gè)形狀、換個(gè)顏色,或者把杯子隨便擺個(gè)位置,它依然能準(zhǔn)確識(shí)別并操作。



連續(xù)四天開源,已經(jīng)產(chǎn)生影響

把時(shí)間軸拉長,回看這四天的連續(xù)開源,我們會(huì)發(fā)現(xiàn)螞蟻靈波下了一盤大棋。

因?yàn)檫@四個(gè)開源項(xiàng)目拼湊在一起,就會(huì)形成一條非常清晰的技術(shù)主線:

  • Day 1: LingBot-Depth——解決“看清”的問題。讓感知能夠更加清晰。
  • Day 2: LingBot-VLA——解決“連接”的問題。打通語言、視覺到動(dòng)作的通用接口。
  • Day 3: LingBot-World——解決“理解”的問題。構(gòu)建可預(yù)測(cè)、可想象的世界模型。
  • Day 4: LingBot-VA——解決“行動(dòng)”的問題。把世界模型真正嵌入控制閉環(huán),讓想象指導(dǎo)行動(dòng)。

這四塊拼圖湊在一起,釋放了一個(gè)強(qiáng)烈的信號(hào):

通用機(jī)器人正在全面走向視頻時(shí)代。

視頻,不再僅僅是訓(xùn)練用的數(shù)據(jù)素材,它正在成為推理的媒介,成為連接感知、記憶、物理和行動(dòng)的統(tǒng)一表征。

這對(duì)于整個(gè)行業(yè)來說,價(jià)值是巨大的。

對(duì)通用機(jī)器人來說,長任務(wù)、復(fù)雜場景、非結(jié)構(gòu)化環(huán)境,這些曾經(jīng)的硬傷,現(xiàn)在有了系統(tǒng)性的解法。

從具身智能路線來看,世界模型不再是一個(gè)可選項(xiàng),它正式成為了機(jī)器人的中樞能力,從“能動(dòng)”進(jìn)化到“會(huì)想再動(dòng)”。

并且螞蟻靈波的持續(xù)不斷地開源動(dòng)作,不僅僅是提供了代碼、模型這么簡單,更是一條可復(fù)現(xiàn)、可擴(kuò)展的技術(shù)范式。

而蝴蝶效應(yīng)也在行業(yè)中開始顯現(xiàn)。

就在這兩天,谷歌宣布通過Project Genie項(xiàng)目讓更多人體驗(yàn)Genie 3;宇樹科技宣布開源UnifoLM-VLA-0……

海外媒體也對(duì)螞蟻靈波的開源動(dòng)作有了不小關(guān)注,點(diǎn)評(píng)道:

  • 螞蟻集團(tuán)發(fā)布了名為LingBot-World的高質(zhì)量機(jī)器人AI模擬環(huán)境。這家中國金融科技公司完善了一套完整的開源工具包,用于物理AI系統(tǒng)的開發(fā)。這也是在全球機(jī)器人領(lǐng)域主導(dǎo)權(quán)爭奪戰(zhàn)中的一項(xiàng)戰(zhàn)略性舉措。



嗯,螞蟻靈波的壓力是給到位了。

總而言之,LingBot-VA的出現(xiàn),標(biāo)志著世界模型第一次真正站上了機(jī)器人控制的主舞臺(tái)。

項(xiàng)目地址:
https://technology.robbyant.com/lingbot-va

GitHub地址:
https://github.com/robbyant/lingbot-va

項(xiàng)目權(quán)重:
https://huggingface.co/robbyant/lingbot-va
https://www.modelscope.cn/collections/Robbyant/LingBot-va

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
《鄉(xiāng)村愛情18》首發(fā)預(yù)告,一開場就是趙四的葬禮

《鄉(xiāng)村愛情18》首發(fā)預(yù)告,一開場就是趙四的葬禮

娛慧
2026-01-30 13:28:21
2026-01-31 01:07:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12090文章數(shù) 176368關(guān)注度
往期回顧 全部

科技要聞

意念控制機(jī)器人不是科幻 1-2年就落地

頭條要聞

特朗普警告稱中英、中加合作是"危險(xiǎn)的" 外交部回應(yīng)

頭條要聞

特朗普警告稱中英、中加合作是"危險(xiǎn)的" 外交部回應(yīng)

體育要聞

“假賭黑”的子彈,還要再飛一會(huì)兒嗎?

娛樂要聞

警方通報(bào)金晨交通事故,否認(rèn)網(wǎng)傳騙保

財(cái)經(jīng)要聞

水貝驚雷:揭秘杰我睿百億黃金賭局的背后

汽車要聞

合資品牌首搭800V/5C快充 東風(fēng)日產(chǎn)NX8將于3、4月上市

態(tài)度原創(chuàng)

教育
手機(jī)
藝術(shù)
數(shù)碼
公開課

教育要聞

China Heartbeats | Middle School Tug-of-War Ignite...

手機(jī)要聞

差200元!紅米Turbo 5與Max該怎么選?這4點(diǎn)核心差異看完不糾結(jié)!

藝術(shù)要聞

驚艷!越南攝影師鏡頭下的嫵媚女子!

數(shù)碼要聞

陶瓷外殼與鍵帽,黑爵推出非遺傳承人黃云鵬聯(lián)名Blue67磁軸鍵盤

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版