国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

不做“傳統(tǒng)機(jī)器人公司”的智元發(fā)了個大模型,要讓機(jī)器人看視頻就能進(jìn)化

0
分享至

作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com

智元機(jī)器人發(fā)布了通用具身基座大模型——智元啟元大模型(Genie Operator-1,簡稱GO-1)。

官方視頻中展示了機(jī)器人通過模仿人類操作,學(xué)習(xí)并完成各種家務(wù)任務(wù),例如倒水、制作吐司早餐等。強(qiáng)調(diào)了機(jī)器人的物體追蹤能力、智能跟隨能力,以及通過學(xué)習(xí)大量人類視頻數(shù)據(jù)來實現(xiàn)快速泛化的能力。

那么,GO-1是如何實現(xiàn)這些功能的呢?其背后是ViLLA(視覺-語言-潛在動作)架構(gòu)。

具體來看,該架構(gòu)由VLM(多模態(tài)大模型)+MoE(混合專家模型)組成。其中,MoE里包含2個關(guān)鍵的組成混合專家1 —— Latent Planner(隱式規(guī)劃器)和混合專家2 —— Action Expert(動作專家)。將用于場景感知和語言理解的視覺語言模型與用于運動規(guī)劃和執(zhí)行的專家系統(tǒng)相結(jié)合。通過在人類操作視頻和真實機(jī)器人數(shù)據(jù)上進(jìn)行訓(xùn)練,能夠在極少輸入的情況下實現(xiàn)快速泛化。

簡單理解,VLM用多模態(tài)大模型InternVL-2B“看懂”和“聽懂”任務(wù),Latent Planner基于大量數(shù)據(jù)制定動作“藍(lán)圖”,Action Expert基于真機(jī)經(jīng)驗執(zhí)行具體動作。

VLA模型通?;诖笮蜕窠?jīng)網(wǎng)絡(luò),利用視覺輸入(如攝像頭圖像)和語言指令(如“拿起杯子”)生成動作輸出(如機(jī)器人手臂的移動),以執(zhí)行復(fù)雜任務(wù)。VLA 模型的興起得益于視覺-語言模型(VLM)和大語言模型(LLM)在機(jī)器人任務(wù)中的應(yīng)用。典型例子包括OpenVLA、Helix 和 Pi0,這些模型通過視覺和語言輸入直接生成動作。這些模型表明,通過大規(guī)模數(shù)據(jù)和先進(jìn)的算法,機(jī)器人已經(jīng)能夠在一定程度上實現(xiàn)跨任務(wù)和跨場景的適應(yīng)。

與VLA模型直接基于視覺和語言條件生成動作不同,ViLLA通過預(yù)測Latent Action Tokens(隱式動作標(biāo)記),彌合圖像-文本輸入與機(jī)器人執(zhí)行動作之間的鴻溝。在真實世界的靈巧操作和長時任務(wù)方面表現(xiàn)卓越,超過了已有的開源SOTA模型。

#01

數(shù)據(jù)之困:如何讓機(jī)器人“消化”海量網(wǎng)絡(luò)視頻?

相比于互聯(lián)網(wǎng)龐大的數(shù)據(jù)集,帶有明確動作標(biāo)簽的機(jī)器人數(shù)據(jù)仍然很少?,F(xiàn)有的VLA架構(gòu)由于依賴真機(jī)和合成數(shù)據(jù),而未能充分利用互聯(lián)網(wǎng)視頻這一寶貴資源。

這些不同來源、不同格式、不同結(jié)構(gòu)的視頻數(shù)據(jù),在編碼格式、幀率、分辨率、內(nèi)容類型等方面存在差異,因此在處理時需要額外的適配和優(yōu)化。導(dǎo)致機(jī)器人難以直接從視頻中學(xué)習(xí)并執(zhí)行任務(wù)。這種“翻譯”過程涉及動作映射、環(huán)境適應(yīng)等復(fù)雜問題,使得機(jī)器人迭代成本更高,進(jìn)化速度更慢。

ViLLA的主要目的是為了利用利用這些視頻資源。為此,智元機(jī)器人和上海AI Lab的研究人員提出了一種新方法,利用“潛在動作”來捕捉連續(xù)視頻幀之間的動態(tài)關(guān)系。這樣,就可以把那些沒有動作標(biāo)簽的網(wǎng)絡(luò)視頻,以及不同類型機(jī)器人的數(shù)據(jù),一起用于訓(xùn)練。

簡單來說,這種方法能從各種不同來源的視頻中學(xué)習(xí)真實世界的物理規(guī)律,并把這些知識轉(zhuǎn)化為通用的機(jī)器人操作能力。

智元機(jī)器人在2024年末開源了AgiBot World數(shù)據(jù)集,這是一個大規(guī)模、高質(zhì)量的現(xiàn)實世界機(jī)器人數(shù)據(jù)集,涵蓋了五個應(yīng)用領(lǐng)域的 217項任務(wù),超過 100 萬條軌跡,被稱為具身智能的“ImageNet時刻”,GO-1的訓(xùn)練也利用了這些數(shù)據(jù)集數(shù)據(jù)集。

此外,數(shù)據(jù)方面,GO-1大模型的構(gòu)建和訓(xùn)練整合了四種數(shù)據(jù)類型:通過互聯(lián)網(wǎng)大規(guī)模純文本和圖文數(shù)據(jù)使機(jī)器人理解特定情境下指令的含義;借助人類和其他機(jī)器人操作視頻學(xué)習(xí)任務(wù)的關(guān)鍵環(huán)節(jié);利用仿真數(shù)據(jù)模擬不同物體、環(huán)境條件下的操作流程以打通整個任務(wù)過程;最后,通過真機(jī)示教數(shù)據(jù),實現(xiàn)精準(zhǔn)的操作執(zhí)行。這種多元數(shù)據(jù)融合使GO-1能夠從理解任務(wù)含義到精確完成實際操作的的能力。

#02

GO-1“野心”:智元不想只做一個“造機(jī)器人的公司”

一位Robotics行業(yè)從業(yè)者告訴硅星人,GO-1的亮點是引入了一個Latent空間,從而能夠利用互聯(lián)網(wǎng)的大量數(shù)據(jù),但是技術(shù)路線基本是業(yè)內(nèi)探索過的?!扒岸螘r間的Figure的Helix,也是用Latent Code作為語言和動作的橋梁,智元是把這個Latent code給明確化了,也確實是沿著之前的技術(shù)路線在走?!?/p>

Figure AI的具身大模型Helix 由System 2(S2)和 System 1(S1)組成。S2 是一個預(yù)訓(xùn)練的視覺-語言模型(VLM),負(fù)責(zé)場景理解和語言理解;S1 是一個快速反應(yīng)策略,負(fù)責(zé)將 S2 的輸出轉(zhuǎn)化為機(jī)器人動作。S2 會生成“l(fā)atent semantic representations”(潛語義表示),S1則將其轉(zhuǎn)化為“precise continuous robot actions”(精確的連續(xù)機(jī)器人動作)。

科技博主不是鄭小康也認(rèn)為,智元新推出的GenieOperator-1(GO-1)與Physical Intelligence去年10月發(fā)布的π0模型存在一些“異曲同工”之處。比如,兩者均為VLM+動作專家模型,能通過視覺語言輸入執(zhí)行復(fù)雜任務(wù)。訓(xùn)練上都結(jié)合了互聯(lián)網(wǎng)數(shù)據(jù)與專業(yè)數(shù)據(jù)集——智元使用AgiBot World,PI則采用Open X Embodiment及自有數(shù)據(jù)。技術(shù)路線各有特色:GO-1配備隱式規(guī)劃器提升視頻學(xué)習(xí)能力;π0應(yīng)用流匹配Diffusion變體實現(xiàn)50Hz連續(xù)動作輸出,動作更為流暢。

具身大模型GO-1和數(shù)據(jù)集AgiBot World都是AgiBot World Colosseo的一部分。AgiBot World Colosseo由上海AI Lab與智元機(jī)器人聯(lián)合推出。主要貢獻(xiàn)在于構(gòu)建了大規(guī)模、高質(zhì)量的機(jī)器人學(xué)習(xí)數(shù)據(jù)集,以及開發(fā)了利用潛在動作表示的機(jī)器人基礎(chǔ)策略,使其能夠在異構(gòu)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練。技術(shù)報告中也明確提到,團(tuán)隊試圖為機(jī)器人領(lǐng)域提供類似于NLP和CV領(lǐng)域那樣的數(shù)據(jù)基礎(chǔ)。

其次是推動通用機(jī)器人能力的研究。強(qiáng)調(diào)了從簡單的實驗室任務(wù)向復(fù)雜、長期規(guī)劃的真實世界任務(wù)轉(zhuǎn)變的重要性。通過覆蓋家庭、零售、工業(yè)、餐廳和辦公室等多種真實場景,希望訓(xùn)練出能夠應(yīng)對開放環(huán)境復(fù)雜性的通用型機(jī)器人策略。

此外AgiBot World Colosseo通過提供標(biāo)準(zhǔn)化的數(shù)據(jù)收集管道和人在回路的驗證機(jī)制,建立了一個可靠的平臺來評估不同算法的性能,使研究更具可比性和可重復(fù)性。

最后,根據(jù)AgiBot World Colosseo的實驗,模型性能與數(shù)據(jù)規(guī)模之間存在冪律關(guān)系,這驗證了“數(shù)據(jù)規(guī)模化”策略在機(jī)器人領(lǐng)域的有效性,為未來更大規(guī)模的數(shù)據(jù)收集提供了理論支持。

根據(jù)技術(shù)報告,GO-1模型在復(fù)雜任務(wù)中的成功率超過60%,比現(xiàn)有技術(shù)高出32%。另外值得關(guān)注的是,團(tuán)隊承諾將整個生態(tài)系統(tǒng)開源。目前,數(shù)據(jù)集、工具鏈和預(yù)訓(xùn)練模型均已開源。

GO-1的發(fā)布也透露出智元這家公司的野心。

“對機(jī)器人公司,你如果不做大模型,那是屬于沒有未來的機(jī)器人,沒有智能化,沒有作業(yè)能力只是一個硬件。他能做的事情非常有限,所以我們投入非常大的。”智元具身業(yè)務(wù)部總裁姚卯青在模型發(fā)布后點評到。

作為被大家因硬件創(chuàng)造能力而最初熟悉起來的公司,智元顯然不想變成又一個“傳統(tǒng)機(jī)器人公司”,不想只做機(jī)器人的本體和硬件產(chǎn)品。今天具身智能的火熱背后,是AI軟件層面的突破,算法模型和硬件的結(jié)合是一切想象力所在。這也是智元想讓外界注意到的能力。

GO-1這個名稱讓人聯(lián)想到AlphaGo這一AI史上的里程碑,這個充滿野心的模型發(fā)布后,要讓這個通用的模型真正變成機(jī)器人智能迭代的關(guān)鍵還有很多工作要做,但對智元來說,最重要的是它已經(jīng)邁出了這關(guān)鍵一步。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
乾隆登基后,平反了諸多被雍正打壓的叔伯,為何不愿平反其大伯?

乾隆登基后,平反了諸多被雍正打壓的叔伯,為何不愿平反其大伯?

鶴羽說個事
2026-03-01 18:29:37
美以突襲伊朗,伊朗“毀滅性”反擊 今日亞洲:中東火藥桶徹底炸了

美以突襲伊朗,伊朗“毀滅性”反擊 今日亞洲:中東火藥桶徹底炸了

林子說事
2026-03-02 02:03:10
當(dāng)你接觸的人多了,你會明白:如果一個人還在穿5年前的衣服,只說明3個問題

當(dāng)你接觸的人多了,你會明白:如果一個人還在穿5年前的衣服,只說明3個問題

LULU生活家
2026-01-16 18:51:53
這就是赤裸裸的現(xiàn)實!部分央國企副職領(lǐng)導(dǎo)已經(jīng)管不住下屬了!

這就是赤裸裸的現(xiàn)實!部分央國企副職領(lǐng)導(dǎo)已經(jīng)管不住下屬了!

時尚的弄潮
2026-02-22 00:18:07
美以襲擊伊朗,賴清德連夜緊急發(fā)聲,兩岸統(tǒng)一迎來最好時機(jī)?

美以襲擊伊朗,賴清德連夜緊急發(fā)聲,兩岸統(tǒng)一迎來最好時機(jī)?

健身狂人
2026-03-02 00:55:55
美荷兩國曾同時發(fā)聲,對中國獨立研發(fā)的光刻機(jī)技術(shù)給予了強(qiáng)烈批評

美荷兩國曾同時發(fā)聲,對中國獨立研發(fā)的光刻機(jī)技術(shù)給予了強(qiáng)烈批評

民智
2026-02-28 22:00:52
中國駐伊朗大使館:3月1日起暫停辦理簽證、認(rèn)證等領(lǐng)事證件業(yè)務(wù)

中國駐伊朗大使館:3月1日起暫停辦理簽證、認(rèn)證等領(lǐng)事證件業(yè)務(wù)

澎湃新聞
2026-03-01 01:10:16
想不通為什么有人去俄羅斯旅游

想不通為什么有人去俄羅斯旅游

劉遠(yuǎn)舉
2026-02-25 08:09:47
以色列特拉維夫傳出巨大爆炸聲

以色列特拉維夫傳出巨大爆炸聲

澎湃新聞
2026-03-01 05:25:03
第六波打擊!伊朗發(fā)起斬首行動,以總參謀部被炸,特朗普開始急了

第六波打擊!伊朗發(fā)起斬首行動,以總參謀部被炸,特朗普開始急了

墨印齋
2026-03-01 19:26:03
馬年首虎!涉嫌嚴(yán)重違紀(jì)違法,韓嵩被查

馬年首虎!涉嫌嚴(yán)重違紀(jì)違法,韓嵩被查

中國基金報
2026-02-28 20:55:42
7輪19分英超第1,卡里克獲封“卡圣”,名宿:曼聯(lián)還是要請名帥

7輪19分英超第1,卡里克獲封“卡圣”,名宿:曼聯(lián)還是要請名帥

夏侯看英超
2026-03-02 01:07:39
5分鐘4犯仍男籃功臣!末節(jié)超遠(yuǎn)三分絕平值千金 趙繼偉14分鐘13分

5分鐘4犯仍男籃功臣!末節(jié)超遠(yuǎn)三分絕平值千金 趙繼偉14分鐘13分

顏小白的籃球夢
2026-03-01 17:55:55
沙特阿拉伯股市指數(shù)(TASI)跌幅收窄至1.6%

沙特阿拉伯股市指數(shù)(TASI)跌幅收窄至1.6%

每日經(jīng)濟(jì)新聞
2026-03-01 15:28:04
TVB視后宣萱的頂級炫富,不是豪車名表,而是她車后座的102歲保姆

TVB視后宣萱的頂級炫富,不是豪車名表,而是她車后座的102歲保姆

西樓知趣雜談
2026-02-28 21:24:36
父親是中國人,母親是短跑強(qiáng)國的黑人,球員朱正加入男籃成功落戶

父親是中國人,母親是短跑強(qiáng)國的黑人,球員朱正加入男籃成功落戶

手工制作阿殲
2026-03-02 01:20:10
一點別同情她!被教練性侵27次,卻在奧運賽場上,把隊友撞出賽道

一點別同情她!被教練性侵27次,卻在奧運賽場上,把隊友撞出賽道

來科點譜
2026-02-27 07:42:10
從全球第一到業(yè)績腰斬!公牛集團(tuán)被房地產(chǎn)拖垮,十幾億準(zhǔn)備跑路

從全球第一到業(yè)績腰斬!公牛集團(tuán)被房地產(chǎn)拖垮,十幾億準(zhǔn)備跑路

小熊侃史
2026-01-08 07:55:06
中東局勢升級 金價重回1600元 專家提醒:建議投資者逢高少量減持

中東局勢升級 金價重回1600元 專家提醒:建議投資者逢高少量減持

封面新聞
2026-03-01 22:14:05
26歲林妙可逛廟會,仍是娃娃臉,本是童星出道,長大后卻無戲可拍

26歲林妙可逛廟會,仍是娃娃臉,本是童星出道,長大后卻無戲可拍

她時尚丫
2026-02-27 23:06:05
2026-03-02 03:24:49
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進(jìn)入GenAl。
243文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

特朗普警告伊朗“不要報復(fù)” 伊朗外長回應(yīng)

頭條要聞

特朗普警告伊朗“不要報復(fù)” 伊朗外長回應(yīng)

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

數(shù)碼
本地
教育
游戲
公開課

數(shù)碼要聞

榮耀Magic V6海外發(fā)布:厚度僅8.75mm三年內(nèi)第四次打破紀(jì)錄

本地新聞

津南好·四時總相宜

教育要聞

11年,學(xué)生平均增高5.52厘米!成都這所小學(xué),登上教育部發(fā)布會

以《生化危機(jī)》命名?Capcom解答對RE引擎的誤讀

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版