国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

機器人開源革命:“免費大腦”背后的四派力量與博弈

0
分享至

撰稿Vicky

今年2月前后,小米、螞蟻、阿里達(dá)摩院、宇樹紛紛發(fā)布機器人開源模型。再之前,英偉達(dá)在CES上發(fā)布了GR00T N1.6,把自家號稱“世界首個開放人形機器人基礎(chǔ)模型”又再度升級。

這些消費電子公司、互聯(lián)網(wǎng)巨頭、芯片帝國,最近都一股腦把機器人的“大腦”拿出來,免費給全世界用。機器人開源模型的生態(tài)中,有什么樣的心機和萬億美元押注的博弈呢?


本篇文章我們繼續(xù)機器人系列,之前我們分析了如今具身智能通用的VLA模型,拆解了特斯拉、Figure這些閉源巨頭的不同路線,以及他們?nèi)绾斡糜布蛿?shù)據(jù)優(yōu)勢構(gòu)筑護(hù)城河。而這篇文章,我們與全球頂尖具身智能實驗室的研究人員深聊之后,來扒一扒開源算法路線中的核心玩家和關(guān)鍵的技術(shù)領(lǐng)軍人物們。

同時我們來試圖回答這三個問題:

第一:這些開源模型分別走了什么技術(shù)路線,為什么能挑戰(zhàn)巨頭?

第二:開源的動機是什么?什么是“真”開源,什么是“假”開源?

第三:開源模型生態(tài)是什么樣的?面對特斯拉這樣的對手,開源社區(qū)拿什么打?

(本文為視頻改寫,歡迎大家收看以下視頻)

01

開源模型全景

誰在做,走什么路?

在開源模型派別中,VLA模型仍然是主流。簡單來說,就是讓機器人“看到”周圍環(huán)境,“聽懂”你的指令,然后“做出”正確的動作。


目前,開源VLA模型大致可以分成四股力量:

1. 學(xué)院派:參數(shù)不大,但能以小博大,代表模型是OpenVLA和Octo。

2. 巨頭生態(tài)派:不只做模型,還布局整套工具鏈,代表是英偉達(dá)的GR00T N1和谷歌的Gemini Robotics。

3. 創(chuàng)業(yè)公司與中國力量:自變量、OpenMind、小米、螞蟻等等。

4. 技術(shù)極致派:追求極致精度和泛化能力,代表模型是Physical Intelligence的π?。

1.1:學(xué)院派的理想主義

OpenVLA的一戰(zhàn)成名,發(fā)生在2024年6月。這個只有70億參數(shù)的開源模型,在29項機器人操作任務(wù)中,全面擊敗了“頂流”谷歌DeepMind的RT-2-X。RT-2-X有550億參數(shù),是OpenVLA的8倍大,背后站著整個谷歌的算力和數(shù)據(jù)資源。但結(jié)果是:OpenVLA的成功率比RT-2-X高出16.5%。


OpenVLA以小博大,憑的是一個很聰明的架構(gòu)設(shè)計:兩個視覺編碼器加大語言模型

對比谷歌RT-2-X,因為它只用了一個視覺編碼器,你可以想象成一個超聰明但什么都自己做的人:能力很強,但信息處理效率更低。

而OpenVLA用了兩個視覺編碼器,相當(dāng)于有“兩雙眼睛”。第一雙眼睛叫“DINOv2”,負(fù)責(zé)理解空間關(guān)系;第二雙眼睛叫“SigLIP”,專門理解語義和常識。然后再由當(dāng)時的開源大語言模型Llama 2充當(dāng)“大腦”,把空間信息和語義信息融合起來,處理指令和推理。


簡單來說,OpenVLA像一個三人小團(tuán)隊協(xié)同作戰(zhàn),把兩類信息物理隔離、各自優(yōu)化,再統(tǒng)一決策,整體反而更強。大家大概可以理解成“三個臭皮匠,頂個諸葛亮”。這個架構(gòu)證明了:在具身智能領(lǐng)域,單純的“大”并不代表“聰明”。

OpenVLA還有一個數(shù)據(jù)集的優(yōu)勢,叫做“Open X-Embodiment”,這也是開源生態(tài)的一個非常厲害的優(yōu)勢,后文會詳細(xì)展開。

另外,OpenVLA還在動作表示方式和訓(xùn)練策略上做了優(yōu)化。所以它這次對谷歌的勝利靠的是“數(shù)據(jù)+架構(gòu)+訓(xùn)練策略”的綜合結(jié)果。

而且,OpenVLA在勝出之后徹底開源:代碼、模型權(quán)重、訓(xùn)練腳本全部公開。這樣的開放姿態(tài)讓整個行業(yè)都非常興奮,開始各種后續(xù)的優(yōu)化、推理加速和微調(diào)。


這就是一個非常典型的開源故事,能用創(chuàng)新方式去“以小搏大”,撬動整個技術(shù)領(lǐng)域的后續(xù)工作。

我們再說說另外一個比較典型的開源路線“Octo”。如果說OpenVLA代表“規(guī)模化開源”,Octo就是“普及型開源”。

我們知道,機器人算法的“泛化性”是個很大的挑戰(zhàn),之前的標(biāo)準(zhǔn)做法是需要針對特定機器人用特定數(shù)據(jù)集來訓(xùn)練策略,但你換一個機器人、換一個環(huán)境,就要全部重新來訓(xùn)。而一些開源社區(qū)的大牛們就希望實現(xiàn)“通用機器人模型”,通過zero-shot這樣的技術(shù)將模型擴展到廣泛的機器人和場景中。這樣的路徑被稱為“通用機器人策略”,Octo就是其中的代表。


Octo只有數(shù)千萬參數(shù),比OpenVLA的規(guī)模更小。它是一個基于Transformer的擴散策略模型,設(shè)計強調(diào)靈活性和可擴展性,支持多種機器人平臺和傳感器配置,并能夠通過微調(diào)快速適應(yīng)新的觀察和動作空間。這使得Octo可以廣泛應(yīng)用于不同的機器人學(xué)習(xí)場景。

Octo的定位不是最強,而是人人可用,希望給開源社區(qū)提供一個更輕量、可快速適配的通用策略基礎(chǔ)模型。

1.2 巨頭生態(tài)一條龍

2025年3月的GTC大會上,黃仁勛親自站臺,發(fā)布了GR00T N1,號稱“世界首個開放人形機器人基礎(chǔ)模型”。到2026年1月CES,已經(jīng)迭代到了N1.6版本。


GR00T N1采用雙系統(tǒng)架構(gòu):一個基于視覺語言模型的“System 2”負(fù)責(zé)慢思考,理解環(huán)境、解讀指令、做出規(guī)劃;一個基于擴散Transformer的“System 1”負(fù)責(zé)快思考,以高頻率把規(guī)劃轉(zhuǎn)化為精確的關(guān)節(jié)動作。兩個系統(tǒng)端到端聯(lián)合訓(xùn)練,緊密耦合。

22億參數(shù),模型權(quán)重和代碼都公開了,不少頭部人形機器人公司都獲得了早期使用權(quán)。而且英偉達(dá)不只給了模型,還給了整套生態(tài):用Omniverse做數(shù)字孿生,用Isaac Sim生成合成訓(xùn)練數(shù)據(jù),用Cosmos生成視頻數(shù)據(jù),用Newton物理引擎做仿真,整個一條龍服務(wù)。


Google在機器人通用策略上也在持續(xù)布局。早期的RT-1開源了代碼和數(shù)據(jù),但后續(xù)更強大的RT-2以及之后的RT系列就變成閉源模型了,并沒有對外開放。

最近Google也在加速。2025年發(fā)布了Gemini Robotics系列模型,還挖來了前波士頓動力首席技術(shù)官Aaron Saunders擔(dān)任硬件工程副總裁。DeepMind CEO Demis Hassabis把這個愿景稱為“機器人界的安卓”,做通用的機器人操作系統(tǒng),讓Gemini成為各種機器人的“大腦”。


在2026年CES上,波士頓動力和Google DeepMind宣布了戰(zhàn)略合作,將Gemini Robotics模型整合到Atlas人形機器人中,聯(lián)合研究即將在兩家公司的實驗室展開。

Google從開源到閉源、再到想要打造“機器人界的安卓”,賽道轉(zhuǎn)換有點快、野心有點大,但它絕對是機器人行業(yè)的最重要玩家,我們也拭目以待它的下一步動向。

1.3 創(chuàng)業(yè)公司與中國力量

中國在開源具身智能領(lǐng)域的參與正在加速,而且態(tài)勢在從單純的“跟跑”向“參與定義規(guī)則”轉(zhuǎn)變。


小米在2月12號剛發(fā)布的Xiaomi-Robotics-0,47億參數(shù),用MoT混合架構(gòu)——把“大腦”(視覺語言理解)和“小腦”(動作執(zhí)行)分開,改善了VLA模型普遍存在的推理延遲問題。模型開源,在消費級GPU上就能跑。

螞蟻集團(tuán)的LingBot-VLA走了另一條路,強調(diào)跨形態(tài)泛化。這個模型在9種不同的雙臂機器人上預(yù)訓(xùn)練了2萬多小時的真機數(shù)據(jù),目標(biāo)是做到“一個大腦控制所有類型的機器人”,有點像我們之前提到的“通用機器人策略”路線。


清華AIR和上海AI實驗室聯(lián)合推出的X-VLA,刷新了五大仿真基準(zhǔn),代碼、數(shù)據(jù)、權(quán)重全部公開,可以說是學(xué)術(shù)界最徹底的開源范本之一。

星海圖開源了真機數(shù)據(jù)集,以及旗下最新的G0 Plus VLA模型;智元機器人的GO-1已經(jīng)部署到了真機上執(zhí)行任務(wù);星動紀(jì)元的ERA-42也在探索自己的路線。

另外,自變量機器人是一家聚焦于通用機器人“大腦”研發(fā)的中國具身智能創(chuàng)業(yè)公司,CTO王昊在之前與硅谷101播客的采訪中談到了開源的初衷。


王昊 自變量機器人CTO 我們是持續(xù)地發(fā)揚開源精神,也吸收了很多經(jīng)驗,用了大概幾萬小時的真實世界的數(shù)據(jù),基于已經(jīng)訓(xùn)練好的基礎(chǔ)的視覺語言模型去做擴展,讓它具備比較強的視覺理解、空間推理、多語言的指令遵循能力,同時它的動作的生成精度也比較高。我們也希望這次開源能夠?qū)呱碇悄苄袠I(yè)有比較好的補充。

在硅谷的初創(chuàng)公司中,我們采訪了由斯坦福教授Jan Liphardt創(chuàng)立的OpenMind。他在接受我們采訪時說,希望為不同廠商的人形機器人構(gòu)建一個通用的軟件層。OpenMind推出的OM1平臺強調(diào)開源與跨硬件兼容,希望打破當(dāng)前機器人系統(tǒng)各自封閉的局面,讓不同設(shè)備可以共享能力與生態(tài)。他們也從一開始就以開源為核心理念來打造具身智能平臺,代表了一種純粹的開源路線。


Jan Liphardt OpenMind創(chuàng)始人 我們真正想做的,是讓任何人、在任何地方,都能輕松打造出能夠完成各種有用任務(wù)的機器人。而這一切,只需要通過修改提示詞就可以實現(xiàn)。
1.4 復(fù)仇者聯(lián)盟:PI(π?)

目前開源界最受矚目的模型π?,是Physical Intelligence推出的VLA模型,屬于數(shù)十億參數(shù)級別。π?代表的是另一條思路:把“連續(xù)控制”做到極致。

在動作生成部分,π?使用了flow matching(流匹配)思路,直接生成連續(xù)的關(guān)節(jié)軌跡。這意味著模型輸出的是一段平滑的控制信號。Physical Intelligence研究員、也是π?、π?.?論文作者柯麗一鳴在接受硅谷101播客采訪的時候就告訴我們,π?控制頻率約為50Hz,也就是每秒更新約50次動作。這種高頻連續(xù)控制帶來了一個質(zhì)的飛躍:π?能做折紙、玩撲克牌這種需要極高精度的任務(wù)——而這些是OpenVLA和Octo都很難勝任的。


柯麗一鳴(Kay Ke) Physical Intelligence研究員,π?、π?.?論文作者 當(dāng)時是有一些內(nèi)部的討論,要不要再多一點和短一點。但是可能對我們來說更重要的是,想讓模型一口氣輸出一個長度,大概在一秒左右的計劃,這一秒剛好是50赫茲,所以是這么一個選擇。

從設(shè)計理念上看,π?更強調(diào)“控制質(zhì)量”和“動作連續(xù)性”。相比把動作當(dāng)作語言token預(yù)測,它更接近傳統(tǒng)控制系統(tǒng)的形式,只不過控制信號由大模型生成。

這一選擇帶來的好處是,在折疊衣物、抓取柔性物體、操作細(xì)小零件等任務(wù)中,動作更加流暢,減少了抖動和遲滯。


同時,π?的代碼與權(quán)重通過OpenPI項目對外開放,使研究社區(qū)可以在它的基礎(chǔ)上復(fù)現(xiàn)與擴展。這種做法在商業(yè)公司中并不常見,也成為開源陣營的重要力量。

更令人關(guān)注的是π?的迭代節(jié)奏。初版論文發(fā)布后不久,Physical Intelligence通過OpenPI項目公開了模型權(quán)重與代碼。隨后數(shù)月內(nèi),團(tuán)隊陸續(xù)發(fā)布更新版本,持續(xù)改進(jìn)泛化能力與控制穩(wěn)定性。隨后引入強化學(xué)習(xí)機制以進(jìn)一步優(yōu)化策略表現(xiàn),同時強調(diào)在開放環(huán)境中的適應(yīng)能力。

在機器人領(lǐng)域,這種快速迭代與持續(xù)公開更新并不常見,也成為π?受到關(guān)注的重要原因之一。

柯麗一鳴(Kay Ke) Physical Intelligence研究員,π?、π?.?論文作者 把π?.?模型放到一個移動機器人里,再把這個移動機器人放到不同的、沒有見過的家里,這些都不在模型的數(shù)據(jù)集里面,模型可能不知道會怎么反應(yīng),然后我們觀察它會怎么做。在這個過程中我們發(fā)現(xiàn),要做到泛化性還是比較有希望的,雖然機器人的表現(xiàn)不是很完美,但它好像展現(xiàn)出了一點像人類的特性,比如拿東西,換到別的家場景里還是能拿。
1.5 開源陣營人物關(guān)系

不同陣營背后的主導(dǎo)核心人物也并非對立關(guān)系,他們的關(guān)系緊密且錯綜復(fù)雜。而更有意思的是,曾經(jīng)主導(dǎo)閉源模型的多位頂級科學(xué)家,后來成為了機器人開源社區(qū)的領(lǐng)導(dǎo)者。他們又被稱為機器人界的“復(fù)仇者聯(lián)盟”。


OpenVLA來自斯坦福和伯克利的聯(lián)合團(tuán)隊,核心人物是這個領(lǐng)域的明星人物Chelsea Finn。

她MIT本科畢業(yè),又在伯克利拿到博士學(xué)位,師從機器人學(xué)習(xí)教父級人物Pieter Abbeel和Sergey Levine。2019年她加入斯坦福任教,隨后一路拿獎到手軟。她同時還是Physical Intelligence的聯(lián)合創(chuàng)始人,橫跨學(xué)術(shù)和商業(yè)兩個世界。可以說,Chelsea Finn一人就串起了開源和閉源陣營的半壁江山。


在Finn教授以外,我們可以看到OpenVLA的作者名單上除了斯坦福和伯克利的一眾研究人員,還有豐田研究院、Google DeepMind、Physical Intelligence、MIT的科學(xué)家。這說明,OpenVLA并不只是一個閉門造車的實驗室產(chǎn)物。

Octo和OpenVLA可以說是“同門師兄弟”,同樣來自伯克利,由Chelsea Finn和Sergey Levine的團(tuán)隊聯(lián)合出品。


Sergey Levine是機器人強化學(xué)習(xí)領(lǐng)域公認(rèn)的開創(chuàng)者之一,他是伯克利教授、Google Brain前研究科學(xué)家,后來也成了Physical Intelligence的聯(lián)合創(chuàng)始人和首席科學(xué)家,他跟Finn是博導(dǎo)和博士生的關(guān)系。

有趣的是,Levine和Finn在Google時期參與了RT-1、RT-2這些閉源項目,離開后又推動了Octo和OpenVLA這些開源工作。這個領(lǐng)域中的同一批人,可以說既造了閉源的堡壘,也打開了開源的大門。

PI的創(chuàng)始團(tuán)隊堪稱是機器人AI領(lǐng)域的“復(fù)仇者聯(lián)盟”,聯(lián)合創(chuàng)始人們各個都是來自學(xué)術(shù)界或者科技公司的大佬。

其中,Karol Hausman是Google DeepMind機器人方向的資深研究科學(xué)家,也是RT-1、RT-2和SayCan等標(biāo)志性機器人大模型工作的核心作者之一。

Brian Ichter同樣來自Google Brain,深度參與了這些項目的研發(fā),是那一代機器人基礎(chǔ)模型的重要推動者。Sergey Levine長期與Google Brain合作,在機器人學(xué)習(xí)和強化學(xué)習(xí)領(lǐng)域處于世界前沿,是這條技術(shù)路線的關(guān)鍵思想源頭之一。

我們前面提到好幾次的Chelsea Finn也是PI的聯(lián)合創(chuàng)始人之一,她也參與了RT系列研究,在機器人泛化與自監(jiān)督學(xué)習(xí)方向做出了重要貢獻(xiàn)。


2024年初,這幾位參與Google機器人基礎(chǔ)模型路線的核心成員陸續(xù)離開Google,并共同創(chuàng)辦了Physical Intelligence(PI)。此外,團(tuán)隊成員還包括前Stripe高管兼知名投資人Lachy Groom,以及前Anduril工程副總裁Adnan Esmail。

說白了,是閉源陣營里最懂技術(shù)的一幫人,決定跳出來換一種方式做事。

但π?的身份很“糾結(jié)”,它來自一家剛成立、融資就超過10億美元、估值56億美元的商業(yè)公司。這樣一家公司,為什么要把最核心的模型開源?這就要說到我們的第二個核心問題:“真”開源和“假”開源。

02

開源的“真”與“假”

免費背后的商業(yè)心機

2.1 Physical Intelligence:最“心機”的開源

Physical Intelligence2024年成立,投資人包括Jeff Bezos、OpenAI、Sequoia Capital、Khosla Ventures。2024年11月融了4億美元,2025年11月又融了6億美元,估值達(dá)到56億美元。


一家這么有錢的公司,為什么要把核心模型免費放出來?答案是:這可能是Physical Intelligence最有“心機”的商業(yè)策略。

第一,開源建立標(biāo)準(zhǔn)。當(dāng)全世界的機器人開發(fā)者,無論是學(xué)術(shù)實驗室、創(chuàng)業(yè)公司或者工業(yè)客戶,都在π?的框架上構(gòu)建應(yīng)用,PI就成了事實標(biāo)準(zhǔn)的定義者。別人的每一次使用,都在鞏固π?的生態(tài)地位。

第二,開源吸引人才。最優(yōu)秀的研究者想去能發(fā)論文、能影響行業(yè)的地方,PI開源π?之后,他們的openpi GitHub倉庫就成了機器人領(lǐng)域最熱的項目之一,這比任何招聘廣告都有效。


第三,開源加速數(shù)據(jù)飛輪。社區(qū)使用你的模型,發(fā)現(xiàn)問題、做出改進(jìn)、貢獻(xiàn)數(shù)據(jù),這些都回流給PI,讓下一代模型更強。

柯麗一鳴(Kay Ke) Physical Intelligence研究員,π?、π?.?論文作者 我覺得能和業(yè)界、社區(qū)分享一下模型,并且能夠幫助到大家很快地上手,可能也是在變相地降低機器人模型研究的一個入門門檻吧。其實在公司內(nèi)部,開源也是一種(研發(fā)的)過程,就是從決定要開源,然后抽調(diào)大家把剛剛發(fā)表的研究去重構(gòu)代碼,然后做測試,再和社區(qū)的一些開發(fā)者溝通看能不能跑得起來。這是一項不簡單的工作,但是真的看到我們的模型,在一些我們自己都沒想到的機器人上面跑起來了、別人能用我們的模型做很多不同的實驗,還是很開心的,現(xiàn)在大家都很樂意去開源,我覺得是很好的氛圍。

但要注意,π?不是100%開源。模型權(quán)重和推理代碼公開了,但完整的訓(xùn)練流程和PI內(nèi)部采集的數(shù)萬小時專有數(shù)據(jù)沒有公開。

這是一種精心設(shè)計的“開源引流、閉源變現(xiàn)”策略,也就是用開源的模型吸引開發(fā)者進(jìn)入你的生態(tài),用閉源的數(shù)據(jù)和訓(xùn)練能力保持競爭優(yōu)勢。也就是說社區(qū)可以用它的模型,但想要最好的版本,還得來找它。

2.2 英偉達(dá)GR00T N1:“開放”不等于開源

我們前面提到,英偉達(dá)不只給了模型GR00T N1,還給了整套生態(tài),包括生成合成訓(xùn)練數(shù)據(jù)的工具、物理引擎等等。聽起來非?!伴_放”,但為什么有人說GR00T N1是“偽開源”?

因為模型雖然開放了,整個流程都在英偉達(dá)的生態(tài)里:訓(xùn)練深度綁定英偉達(dá)的硬件生態(tài),用H100集群訓(xùn)練,在Omniverse平臺上做仿真,用Isaac Sim生成合成數(shù)據(jù),最后部署在Jetson Thor芯片上。


對比純粹的社區(qū)開源,比如OpenVLA和Octo沒有任何硬件綁定,沒有生態(tài)鎖定,在任何GPU上都能跑。這也許是“開放”和“開源”之間的根本區(qū)別。

但行業(yè)如此早期,也許根本沒有什么選擇是正確或錯誤的。學(xué)術(shù)開源追求的是知識共享和科學(xué)可復(fù)現(xiàn)性,商業(yè)開源追求的是生態(tài)控制和市場標(biāo)準(zhǔn),而戰(zhàn)略開放追求的是平臺鎖定和硬件銷售。

王昊 自變量機器CTO AI的研究我覺得跟大模型之前有很大不一樣。過去,我們可以看到研究是非常離散的,在真正形成一個社區(qū)之前,可能做研究的只有兩、三個人,大家瘋狂地研究一個算法,更多是以論文發(fā)表作為第一要務(wù),目的是占據(jù)技術(shù)的主動權(quán)。但有了社區(qū)和整個開源體系之后,大家更在乎的是,怎么在一個工程化的體系下,把這個工程基礎(chǔ)打好,讓這個社區(qū)更加繁榮?個人是通過什么方式給社區(qū)做貢獻(xiàn)?大家的榮譽反而來自于這樣的事情。這樣也就會促使開源模型的技術(shù)不停地發(fā)展。所以我覺得開源是一個非常好的事情,既可以從中學(xué)習(xí)到新的東西,也可以看到你的東西可能對別人幫助。

03

生態(tài)的力量

模型+數(shù)據(jù)+工具的“組合拳”

特斯拉有自己的工廠、自己的機器人、自己的數(shù)據(jù)閉環(huán)。英偉達(dá)有全世界最強的算力。谷歌匯聚了最頂尖的人才。開源社區(qū)一幫大學(xué)教授和創(chuàng)業(yè)團(tuán)隊,憑什么能跟這些巨頭掰手腕?

答案是:生態(tài)。單看任何一個開源模型,都不如閉源巨頭。但模型、數(shù)據(jù)、工具三層生態(tài)疊加,形成的“組合拳”力量,就讓故事不一樣了。


Jan Liphardt OpenMind創(chuàng)始人 要讓一臺人形機器人表現(xiàn)良好,軟件和硬件之間必須進(jìn)行非常精細(xì)的協(xié)同。哪怕是一些看起來很基礎(chǔ)的問題,比如不同類型的傳感器、電壓管理、電壓調(diào)節(jié)器、散熱控制、系統(tǒng)穩(wěn)定性等等,這種協(xié)同必須非常緊密。 但根據(jù)我從不同機器人公司聽到的情況,如果一家公司在完全封閉的環(huán)境里獨自開發(fā)技術(shù),往往會遇到一個問題:那些只在自己實驗室里構(gòu)建、從未經(jīng)過外部驗證的技術(shù),其實很難真正落地使用。 不點名地說,我聽說有一家非常知名的公司,為人形機器人自研芯片。聽起來這當(dāng)然是個很棒的想法,他們甚至掌握了完整的芯片架構(gòu)。但問題在于,因為沒有其他人參與使用和測試,這套架構(gòu)實際上存在大量bug。

也就是說,閉源看似安全,但沒有社區(qū)幫你測試和改進(jìn),反而可能變成一個人悶頭造車。

3.1 數(shù)據(jù)基石:Open X-Embodiment

目前開源生態(tài)的第一個優(yōu)勢就是數(shù)據(jù)集。我們前面提到,OpenVLA橫空出世,就是用了Open X-Embodiment的數(shù)據(jù)集。


Open X-Embodiment是開源陣營最寶貴的優(yōu)勢:一個跨平臺、跨實驗室的機器人數(shù)據(jù)公共資源,它的規(guī)模和組織方式在機器人領(lǐng)域前所未有:超過20個研究機構(gòu)共同貢獻(xiàn),包括斯坦福、伯克利、MIT、CMU、Google DeepMind等頂級實驗室;22種不同的機器人本體,從單臂機械臂到雙臂協(xié)作、從桌面操作到移動導(dǎo)航再到人形機器人;超過100萬條真實軌跡,覆蓋527種技能。

特斯拉的數(shù)據(jù)可能更大,但全是Optimus一種機器人在特斯拉環(huán)境里的數(shù)據(jù)。Figure的數(shù)據(jù)也只有Figure 01和02的操作。而Open X-Embodiment是幾十種不同形態(tài)的機器人,在廚房、實驗室、倉庫、辦公室等完全不同的場景里采集的數(shù)據(jù)。

為什么數(shù)據(jù)的多樣性比數(shù)據(jù)量更重要?


用訓(xùn)練RT-X模型的實驗結(jié)果來說明:RT-1-X在小數(shù)據(jù)域的表現(xiàn)比單獨訓(xùn)練的模型高了50%,RT-2-X甚至涌現(xiàn)出了原模型沒有的空間推理能力,是RT-2的3倍,能理解“on”和“near”這種細(xì)微的語言差異,這意味著它開始理解語言中的空間語義,知道“on”意味著物體之間要建立接觸和支撐關(guān)系,而“near”只是空間鄰近。

除此之外,它還能執(zhí)行訓(xùn)練時從未見過的技能組合。這直接證明了:只要數(shù)據(jù)夠多樣,就算模型不是最大的,性能也能有大幅提高。

柯麗一鳴(Kay Ke) Physical Intelligence研究員,π?、π?.?論文作者 在π?的時候,我們做了一個比較簡單的統(tǒng)計:π?使用的數(shù)據(jù),比谷歌研究院收集的所有數(shù)據(jù)加起來還要多,即使π?發(fā)表的時候,PI還是一個很年輕的初創(chuàng)企業(yè)。 我覺得其實這是說明了兩件事:第一就是那個時間點采集的數(shù)據(jù)量確實是非常大,而且之后一直有往里面增加數(shù)據(jù),而數(shù)據(jù)的成本、數(shù)據(jù)的量是在實時變化的。在谷歌研究院在開始探索的時候,要花很大的功夫才收到這些數(shù)據(jù),但后來漸漸的有了經(jīng)驗,PI或者其他公司再收就會越來越簡單,成本應(yīng)該也是能夠得到控制和降低的。

更值得一提的是數(shù)據(jù)格式的標(biāo)準(zhǔn)化貢獻(xiàn)。以前最頭疼的問題是每個實驗室的數(shù)據(jù)格式都不一樣:伯克利是一種格式,斯坦福是另一種,MIT又是第三種。想用多個數(shù)據(jù)集一起訓(xùn)練?先花幾個月寫轉(zhuǎn)換代碼。


而Open X-Embodiment定義了統(tǒng)一的數(shù)據(jù)格式,涵蓋視覺觀察、本體感知、動作序列和語言注釋,所以在產(chǎn)業(yè)中有了一個統(tǒng)一的標(biāo)準(zhǔn),這個很重要。

再說一句數(shù)據(jù)的問題,因為這是目前機器人領(lǐng)域最大的挑戰(zhàn),我們的嘉賓之間分歧也很大,一派認(rèn)為大語言模型已經(jīng)包含了足夠的物理常識,只需少量機器人數(shù)據(jù)微調(diào),而另外一派認(rèn)為物理世界的細(xì)節(jié)必須用真實的機器人數(shù)據(jù)來學(xué)習(xí),互聯(lián)網(wǎng)視頻遠(yuǎn)遠(yuǎn)不夠。這里面的門道和技術(shù)可以挖得蠻深,不同的任務(wù)、不同的精度要求,需要不同的數(shù)據(jù)策略。所以,關(guān)于數(shù)據(jù),我們之后還會單獨做一期機器人系列的深度內(nèi)容。

3.2 工具層的野心

光有數(shù)據(jù)不夠,還需要工具把數(shù)據(jù)變成可以訓(xùn)練的模型,這就是LeRobot和Genesis的角色。


LeRobot是Hugging Face從特斯拉挖來的工程師Remi Cadene帶隊打造的開源項目。Cadene之前在特斯拉參與過Autopilot和Optimus人形機器人項目。他帶著這些經(jīng)驗來到Hugging Face,目標(biāo)是“讓訓(xùn)練機器人像訓(xùn)練語言模型一樣簡單”。

LeRobot做了三件關(guān)鍵的事:

1. 定義了LeRobotDataset統(tǒng)一數(shù)據(jù)格式。

2. 一鍵集成了多種主流策略模型,你不需要去讀論文改代碼,直接調(diào)用就行。

3. 打通了數(shù)據(jù)采集、模型訓(xùn)練、到真實機器人部署的全流程,以前這三步可能需要三套不同的工具鏈。

LeRobot的GitHub已經(jīng)超過2萬星,成為了開源機器人訓(xùn)練的標(biāo)準(zhǔn)之一。但Hugging Face的野心不止于軟件。


2025年他們收購了法國的Pollen Robotics,推出了7萬美元的Reachy 2開源人形機器人,已經(jīng)在康奈爾和CMU等頂尖實驗室使用,還推出了250美元的Reachy Mini桌面機器人。更早之前,他們和The Robot Studio合作推出了SO-100機械臂,成本只要100美元,任何人都可以在家3D打印DIY一個。

由此可見,Hugging Face正在把“硬件加軟件加社區(qū)”打包,構(gòu)建一個完整的開源機器人生態(tài)。

而2024年12月發(fā)布的Genesis則嘗試優(yōu)化仿真訓(xùn)練的問題。這是由CMU卡內(nèi)基梅隆大學(xué)主導(dǎo)、聯(lián)合MIT、斯坦福、英偉達(dá)等20多個研究實驗室共同參與的開源項目,只需在仿真中運行數(shù)小時,就能生成相當(dāng)于現(xiàn)實世界中多年訓(xùn)練的樣本數(shù)據(jù),大幅降低了訓(xùn)練時間和硬件成本。


比如說,Genesis號稱在一張RTX 4090顯卡,模擬一個Franka機械臂的速度是每秒4300萬幀。這是實時速度的43萬倍。在Genesis里訓(xùn)練1小時,相當(dāng)于在真實世界訓(xùn)練超過49年。

這帶來的改變是,以前只有大公司能負(fù)擔(dān)的大規(guī)模仿真訓(xùn)練,現(xiàn)在一個研究生在家用一張消費級顯卡就能做。

值得注意的是,英偉達(dá)也和Google DeepMind、Disney Research聯(lián)合開發(fā)了一個開源物理引擎Newton,跟Genesis形成了直接競爭,所以仿真工具領(lǐng)域本身也是一個充滿競爭的領(lǐng)域。


但無論如何,一部分勛章應(yīng)該要給到Hugging Face,LeRobot管真實世界,學(xué)界主導(dǎo)的Genesis管虛擬世界,兩個工具一起,把“訓(xùn)練機器人”的門檻從百萬美元降到了幾百美元。

3.3 為什么生態(tài)能贏

總結(jié)一下,模型、數(shù)據(jù)、工具,這三層疊加,就是開源陣營的“組合拳”。

單看任何一層,開源都不如閉源巨頭:論人才密度和算力,不如谷歌;論數(shù)據(jù)量,不如特斯拉;論工具鏈的完整度,不如英偉達(dá)。但三層聯(lián)動產(chǎn)生的化學(xué)反應(yīng),釋放出了巨大的能量。


一個研究者可以用Open X-Embodiment的數(shù)據(jù),在LeRobot框架上訓(xùn)練OpenVLA,用Genesis做仿真驗證,然后部署到100美元的SO-100機械臂上。整個流程全部開源,全部免費,全部可復(fù)現(xiàn)。

這里有一個很關(guān)鍵的觀察:在大語言模型領(lǐng)域,開源是追趕者。OpenAI、Anthropic和Google先行,開源后追,晚一到兩代。但在機器人領(lǐng)域,開源和閉源幾乎是同時起跑的。

OpenVLA在2024年6月就擊敗了RT-2-X,這個時間差的原因很簡單:機器人還在非常早期的階段,沒有任何一家公司建立了壓倒性的數(shù)據(jù)或算法優(yōu)勢。這是開源難得的“公平競賽”窗口,如果錯過這個窗口,等閉源公司積累了足夠的數(shù)據(jù)飛輪,開源可能就很難追上了。

而且,開源和閉源之間的邊界遠(yuǎn)比想象的更模糊。

RT-2-X是谷歌的“閉源”模型,但它的訓(xùn)練數(shù)據(jù)有一部分來自O(shè)pen X-Embodiment這個開源數(shù)據(jù)集。Chelsea Finn同時是Octo這個開源項目的核心作者,也是RT系列閉源工作的推動者,還是PI的聯(lián)合創(chuàng)始人。而英偉達(dá)的GR00T N1介于開源和閉源之間。所以,這場競爭不是兩個陣營的對決,而是一個光譜上的多方博弈。


而說到底,開源vs閉源,表面是技術(shù)路線之爭,本質(zhì)是生態(tài)之爭,爭的還是誰來定義機器人行業(yè)的基礎(chǔ)設(shè)施層。

Jan Liphardt OpenMind創(chuàng)始人 互聯(lián)網(wǎng)本身就是建立在開源代碼之上的,Android也是開源的。當(dāng)然,有些公司希望掌控一切,從軟件到硬件,再到云服務(wù),比如非常優(yōu)秀的蘋果。但我們也看到,像三星、Google這樣的公司,同樣體量巨大,卻很樂于使用開源軟件來構(gòu)建自己的手機系統(tǒng)。他們之所以選擇使用開源軟件,原因也很簡單。每家公司都必須決定,自己的時間和資金應(yīng)該投入在哪里。

04

開源的挑戰(zhàn)與未來

算力、數(shù)據(jù)質(zhì)量、工程化差距與安全

但對于生態(tài)來說,必須要直面一個現(xiàn)實:開源面臨的挑戰(zhàn)依然很大。

首先是算力門檻,雖然有Octo這樣的輕量模型,但訓(xùn)練一個頂級開源模型仍然需要不小的投入。OpenVLA用了64張A100跑了15天,這跟特斯拉、谷歌的算力相比是小巫見大巫,但對普通研究者來說仍然是一筆不小的開支。

其次是數(shù)據(jù)質(zhì)量,Open X-Embodiment雖然大,但不同來源的數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)參差不齊,有的實驗室標(biāo)注非常細(xì)致,有的比較粗糙。特斯拉的數(shù)據(jù)可能在多樣性上不如開源,但在一致性上更強,畢竟都是同一套系統(tǒng)采集的。

第三是工程化差距,開源模型在論文里表現(xiàn)出色,但從demo到產(chǎn)品之間有一道巨大的鴻溝。閉源公司有完整的工程團(tuán)隊做優(yōu)化、做測試、做售后,開源社區(qū)更擅長創(chuàng)新探索。但把一個模型打磨成穩(wěn)定可靠的商業(yè)產(chǎn)品,往往需要閉源公司來完成。

第四是安全問題,如果人人都能訓(xùn)練機器人,如何防止被用于危險用途?物理世界的AI比虛擬世界的大語言模型風(fēng)險更高,聊天機器人說錯話最多是尷尬,但物理機器人做錯動作可能造成傷害。OpenMind的Jan Liphardt提出了一個大膽的方案:


Jan Liphardt OpenMind創(chuàng)始人 我們把規(guī)則寫進(jìn)以太坊區(qū)塊鏈。我們這樣做的原因是以太坊是不可變的,不能被改變。當(dāng)機器變得聰明時,我們應(yīng)該預(yù)料到機器可能會試圖隱藏它們在做什么,或者想改變歷史,或者想要比它們應(yīng)該擁有的更多的控制權(quán)。在這種情況下,將規(guī)則寫在公共場所、不能被更改的地方是非常重要的,作為額外的安全措施。

用區(qū)塊鏈來約束機器人行為,這個想法很前衛(wèi),也確實在業(yè)界也引發(fā)了一些爭議。但它至少說明,開源社區(qū)正在認(rèn)真思考安全問題。

開源能發(fā)展到什么程度?自變量CTO王昊給出了一個時間線預(yù)測:

王昊 自變量機器人CTO 現(xiàn)在我們是明確的知道、而且看到了這種規(guī)?;瘞淼奶嵘詫τ谖覀儊碇v,路徑和目標(biāo)更加明確、更加唯一,所以我預(yù)測會在1~2年的時間,我們完全可以達(dá)到GPT-3的這個水平。

GPT-3的水平意味著機器人會從“能完成簡單指令”跳躍到“能理解復(fù)雜意圖并靈活執(zhí)行”,這將是一個分水嶺。


在LLM時代,我們見證了OpenAI從“開放”走向封閉。一個以“Open”命名的公司,變成了一家市值千億的閉源商業(yè)帝國。在機器人時代,同樣的故事可能重演,但也可能不會。因為機器人領(lǐng)域有一個大語言模型時代沒有的東西:從一開始就足夠強大的開源生態(tài)。

最后,OpenMind創(chuàng)始人Jan Liphardt從一個父親的角度解釋了為什么他支持開源,這個回答還蠻有人味兒的:

Jan Liphardt OpenMind創(chuàng)始人 因為我是一個父親,我有兩個孩子。如果我去想象未來的世界是什么樣子,我不希望有一天他們打開家門,一臺人形機器人站在門口,說:“你好,我是你的新機器人,但我運行的系統(tǒng)你無權(quán)查看?!?像機器人這樣重要的技術(shù),必須是公開透明的。我相信,透明本身就會帶來更高的安全性。我希望我的孩子能夠給身邊的機器人添加功能,能夠參與到這個世界的建設(shè)中,而不是只能買回一個盒子里的產(chǎn)品,打開之后它自己展開,然后告訴你:“我已經(jīng)設(shè)置好了,但我的工作方式是保密的?!?這歸根到底關(guān)乎信任,也關(guān)乎安全。而作為一家創(chuàng)業(yè)公司,我們也發(fā)現(xiàn),社會對這種開放透明的期待,比我們最初預(yù)想的還要強烈。

這就是具身智能開源模型生態(tài)的現(xiàn)狀。這篇文章詳細(xì)聊了四個派系:學(xué)院派,巨頭,包括了中國公司在內(nèi)的創(chuàng)業(yè)派,以及單獨拎出來講的Physical Intelligence。大家出于不同的目的、在不同程度上參與了開源生態(tài)的搭建,確定的是,這樣的生態(tài)正在幫助我們進(jìn)一步突破技術(shù)和創(chuàng)新的邊界。

注:部分圖片來源于網(wǎng)絡(luò)

【本期節(jié)目不構(gòu)成任何投資建議】

【視頻播放渠道】

國內(nèi):B站|騰訊|視頻號|西瓜|頭條|百家號|36kr|微博|虎嗅

海外:Youtube

聯(lián)系我們:video@sv101.net

【創(chuàng)作團(tuán)隊】

監(jiān)制|泓君 陳茜

撰稿|Vicky

編輯|陳茜 王梓沁

主持 |陳茜

剪輯|橘子

動效|踹

運營|孫澤平 王梓沁

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
陽光雙冠!薩巴倫卡三盤險勝高芙,奪1000賽第11冠+生涯第24冠

陽光雙冠!薩巴倫卡三盤險勝高芙,奪1000賽第11冠+生涯第24冠

全景體育V
2026-03-29 06:07:44
上海知名主持周瑾:從不做飯全靠外賣,真實家庭狀態(tài)令人意外

上海知名主持周瑾:從不做飯全靠外賣,真實家庭狀態(tài)令人意外

日落于西
2026-03-28 21:21:53
0-4慘??!韓國球迷哀嘆:我們已不配跟日本比 只能找中國隊尋安慰

0-4慘敗!韓國球迷哀嘆:我們已不配跟日本比 只能找中國隊尋安慰

風(fēng)過鄉(xiāng)
2026-03-29 07:56:36
牢A的新賽道?

牢A的新賽道?

關(guān)爾東
2026-03-28 20:20:30
詹世清已任廣州市招考辦主任

詹世清已任廣州市招考辦主任

南方都市報
2026-03-29 09:59:33
黃仁勛最新驚人觀點:英語專業(yè)將血洗計算機,文科成AI時代新貴族

黃仁勛最新驚人觀點:英語專業(yè)將血洗計算機,文科成AI時代新貴族

南宗歷史
2026-03-28 19:31:50
突然集體拉升!霍爾木茲海峽,大消息!以軍參謀長說以軍常規(guī)部隊已崩潰

突然集體拉升!霍爾木茲海峽,大消息!以軍參謀長說以軍常規(guī)部隊已崩潰

證券時報e公司
2026-03-28 22:22:58
豬價跌破5元創(chuàng)歷史新低

豬價跌破5元創(chuàng)歷史新低

21世紀(jì)經(jīng)濟報道
2026-03-28 19:36:35
美媒:美國全國范圍爆發(fā)反對特朗普政府集會,預(yù)計超900萬人參與,或為“美國歷史上規(guī)模最大”抗議活動

美媒:美國全國范圍爆發(fā)反對特朗普政府集會,預(yù)計超900萬人參與,或為“美國歷史上規(guī)模最大”抗議活動

環(huán)球網(wǎng)資訊
2026-03-29 09:27:36
孕婦做陰超下體被男醫(yī)生看光,丈夫大鬧醫(yī)院尋死,現(xiàn)場畫面太鬧心

孕婦做陰超下體被男醫(yī)生看光,丈夫大鬧醫(yī)院尋死,現(xiàn)場畫面太鬧心

潮鹿逐夢
2026-03-28 10:59:56
韓國歌手暴雨中濕透仍全開麥,這照片直接封神了!

韓國歌手暴雨中濕透仍全開麥,這照片直接封神了!

東方不敗然多多
2026-03-29 01:08:36
恥辱?韓國男足千場里程碑吞0-4!韓媒震驚:3后衛(wèi)防線崩潰+災(zāi)難

恥辱?韓國男足千場里程碑吞0-4!韓媒震驚:3后衛(wèi)防線崩潰+災(zāi)難

我愛英超
2026-03-29 06:18:23
NBA東西部前十全出爐:榜首之爭激烈 雄鹿領(lǐng)銜十隊無緣季后賽

NBA東西部前十全出爐:榜首之爭激烈 雄鹿領(lǐng)銜十隊無緣季后賽

醉臥浮生
2026-03-29 05:59:29
伊朗伊斯蘭革命衛(wèi)隊稱美以大學(xué)將成“合法襲擊目標(biāo)”

伊朗伊斯蘭革命衛(wèi)隊稱美以大學(xué)將成“合法襲擊目標(biāo)”

新京報
2026-03-29 07:26:06
詹姆斯或小卡!曝勇士預(yù)計全力追兩大巨星 為庫里時代畫圓滿句號

詹姆斯或小卡!曝勇士預(yù)計全力追兩大巨星 為庫里時代畫圓滿句號

羅說NBA
2026-03-29 05:44:18
國家出手逮捕的3名華人首富,瘋狂斂財坑害百姓,每個都罪有應(yīng)得

國家出手逮捕的3名華人首富,瘋狂斂財坑害百姓,每個都罪有應(yīng)得

林輕吟
2026-03-25 07:15:32
1-0爆冷澳大利亞隊!恭喜中國隊,久帥成功復(fù)仇!對手點球玩大了

1-0爆冷澳大利亞隊!恭喜中國隊,久帥成功復(fù)仇!對手點球玩大了

大秦壁虎白話體育
2026-03-28 17:32:26
湖南省高院明確定性“錯判”的刑案,長沙司法系統(tǒng)為何死扛到底?

湖南省高院明確定性“錯判”的刑案,長沙司法系統(tǒng)為何死扛到底?

塔子山評說
2026-03-28 14:43:49
文班亞馬23+15+6比肩傳奇,卡斯?fàn)柸p,馬刺大勝雄鹿26戰(zhàn)24勝

文班亞馬23+15+6比肩傳奇,卡斯?fàn)柸p,馬刺大勝雄鹿26戰(zhàn)24勝

釘釘陌上花開
2026-03-29 05:21:13
再破紀(jì)錄!15930克拉巨型人造藍(lán)寶石出世

再破紀(jì)錄!15930克拉巨型人造藍(lán)寶石出世

果殼
2026-03-28 19:58:53
2026-03-29 10:11:00
硅谷101 incentive-icons
硅谷101
從這里駛向未來
162文章數(shù) 105關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認(rèn)xAI"建錯了",11位創(chuàng)始人均離職

頭條要聞

牛彈琴:特朗普親口對沙特說出傲慢的話 全世界不敢相信

頭條要聞

牛彈琴:特朗普親口對沙特說出傲慢的話 全世界不敢相信

體育要聞

全球第二大車企,也救不了這支德甲隊?

娛樂要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

財經(jīng)要聞

臥底"科技與狠活"培訓(xùn):化工調(diào)味劑泛濫

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達(dá)/華為新一代座艙

態(tài)度原創(chuàng)

藝術(shù)
親子
教育
時尚
游戲

藝術(shù)要聞

毛澤東手箋驚現(xiàn)美國拍賣會,滿紙崢嶸往事......

親子要聞

醫(yī)院設(shè)兒童智能輸液椅,看動畫9元/小時引家長不滿投訴

教育要聞

“黃毛的爹,酗酒的媽”,上海三口之家火了,只有孩子看著不叛逆

和田曦薇一樣嫩嘟嘟,這3個變美技巧你一定不能錯過!

魂師對決:王林天命+婉兒煉丹系統(tǒng)該優(yōu)先培養(yǎng)哪個?真就沒啥懸念

無障礙瀏覽 進(jìn)入關(guān)懷版