国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

π0.7來(lái)了!涌現(xiàn)出組合泛化、跨本體遷移能力,VLA又行了?

0
分享至

機(jī)器之心編輯部

在 Generalist AI 發(fā)布 Gen-1 兩周之后,具身賽道的另一位重量級(jí)玩家 ——Physical Intelligence 也亮劍了,發(fā)布了新模型 π 0.7,VLA 又往前走了一步。



這個(gè)模型的重大突破在于 —— 它不只是重復(fù)訓(xùn)練中遇到的任務(wù),而是展現(xiàn)出了組合泛化的初步跡象。什么叫組合泛化?舉個(gè)例子,你會(huì)切菜、會(huì)打開燃?xì)?、?huì)翻炒,當(dāng)你想吃番茄炒蛋時(shí),雖然你從來(lái)沒有做過(guò),但只要看一眼菜譜,你也能把這些技能組合起來(lái),把菜做出來(lái)?,F(xiàn)在的大語(yǔ)言模型之所以那么強(qiáng)大,本質(zhì)上也是因?yàn)榫邆溥@種能力。

但在機(jī)器人領(lǐng)域,這種能力還沒有大規(guī)模涌現(xiàn)。比如現(xiàn)在廣泛使用的 VLA(視覺 - 語(yǔ)言 - 動(dòng)作)模型,雖然能聽懂各種指令和概念,但它們還不會(huì)把學(xué)過(guò)的技能靈活組合起來(lái)用。你給它一個(gè)新工具或者沒見過(guò)的廚房用具,它就不知道怎么用了。而且,就算是它學(xué)過(guò)的技能,通常也得專門再「調(diào)教」一下,效果才會(huì)好。這跟早期那些語(yǔ)言模型很像,處理不同的問(wèn)題也得單獨(dú)做微調(diào)。

π (0.7) 看起來(lái)不一樣。Physical Intelligence 提到了一個(gè)空氣炸鍋的例子。他們從未讓 π0.7 學(xué)習(xí)過(guò)「用空氣炸鍋烤紅薯」這個(gè)具體任務(wù)。但是,當(dāng)通過(guò)分步的語(yǔ)言指令(就像指導(dǎo)一個(gè)第一次使用空氣炸鍋的人那樣)來(lái)「輔導(dǎo)」它時(shí),這個(gè)模型能夠理解并執(zhí)行。它需要將「關(guān)閉炸籃」、「放置食物」等從不同數(shù)據(jù)片段中學(xué)到的概念組合起來(lái),應(yīng)用到一個(gè)全新的、完整的任務(wù)流程中。

更有趣的是,經(jīng)過(guò)幾次這樣的語(yǔ)言輔導(dǎo)后,研究人員可以微調(diào)一個(gè)高層策略,讓模型完全自主地生成這些語(yǔ)言子目標(biāo),從而獨(dú)立完成整個(gè)空氣炸鍋任務(wù)。這說(shuō)明 π0.7 能夠?qū)⒂^察到的、零散的行為片段組合起來(lái),形成全新的、連貫的行為序列,這就像大型語(yǔ)言模型組合文本片段一樣。



研究人員自己也很好奇,π0.7 到底是從哪里學(xué)會(huì)「空氣炸鍋」這個(gè)概念的。畢竟,訓(xùn)練數(shù)據(jù)里并沒有直接演示「用空氣炸鍋烤紅薯」的完整過(guò)程。由于訓(xùn)練集的規(guī)模很大且非常多樣,很難精確追蹤到是哪幾段數(shù)據(jù)賦予了模型這個(gè)知識(shí)。研究人員的推測(cè)是,它很可能來(lái)自機(jī)器人操作數(shù)據(jù)和大規(guī)模視覺語(yǔ)言預(yù)訓(xùn)練的共同作用

他們花了不少力氣去搜尋,最終找到了兩段相關(guān)的家庭數(shù)據(jù):一段是機(jī)器人關(guān)閉空氣炸鍋,標(biāo)注為「把炸籃推進(jìn)空氣炸鍋」;另一段是「把空氣炸鍋的炸籃放在臺(tái)面最左邊」。此外,他們還找到了開源 DROID 數(shù)據(jù)集中一臺(tái) Franka 機(jī)械臂的相關(guān)操作片段。有趣的是,這些片段看起來(lái)與 π0.7 在實(shí)際實(shí)驗(yàn)中用移動(dòng)機(jī)器人執(zhí)行空氣炸鍋任務(wù)時(shí)的行為差異很大。這說(shuō)明 π0.7 并不是簡(jiǎn)單模仿某一段數(shù)據(jù),而是像大型語(yǔ)言模型組合網(wǎng)絡(luò)上不同文本片段那樣,把這些看似不同的、零散的行為片段重新組合起來(lái),泛化成一個(gè)全新的、連貫的「向空氣炸鍋裝入紅薯」的任務(wù)。他們認(rèn)為。這是組合泛化能力的生動(dòng)體現(xiàn)。

除了組合泛化,π0.7 在跨本體遷移方面的表現(xiàn)也非常亮眼

在一個(gè)疊衣服的例子中,π0.7 被要求控制一個(gè)它從未訓(xùn)練過(guò)的、形態(tài)差異很大的雙臂機(jī)器人(UR5e 系統(tǒng))來(lái)疊衣服。UR5e 系統(tǒng)由兩臺(tái) UR5e 工業(yè)機(jī)械臂搭配 Robotiq 平行夾爪組成。這臺(tái)機(jī)器人很難遙操作:機(jī)械臂很重,慣性很大,夾爪也相對(duì)不夠精確。研究人員之前完全沒有收集過(guò)這臺(tái)機(jī)器人做疊衣服任務(wù)的任何數(shù)據(jù)。

他們讓 π0.7 去控制這臺(tái)機(jī)器人折疊衣物。出乎意料的是,它能夠穩(wěn)定地完成這一操作。值得注意的是,該機(jī)器人在折疊 T 恤時(shí)的物理動(dòng)作,與他們最初采集訓(xùn)練數(shù)據(jù)所用的那臺(tái)更小型機(jī)器人的動(dòng)作存在顯著差異。最終,π0.7 在該任務(wù)上的成功率,與經(jīng)驗(yàn)豐富的遙操作員在同樣使用雙臂 UR5e 系統(tǒng)進(jìn)行「零樣本」操作時(shí)的成功率持平。這些操作員平均擁有 375 小時(shí)的遙操作經(jīng)驗(yàn),他們正是最初在原始機(jī)器人上采集訓(xùn)練數(shù)據(jù)的同一批專家。



視頻鏈接:https://mp.weixin.qq.com/s/tYWiq0mR3Ohg-V1FxCfunA?click_id=128

除了廣泛的任務(wù)泛化能力,研究團(tuán)隊(duì)還希望機(jī)器人干活又準(zhǔn)又快。之前他們開發(fā)了一個(gè)叫 Recap 的算法,用強(qiáng)化學(xué)習(xí)專門優(yōu)化特定任務(wù)的策略,讓機(jī)器人動(dòng)作更穩(wěn)、速度更快。

以前的做法是為每個(gè)任務(wù)單獨(dú)訓(xùn)練一個(gè) Recap 專家模型。但現(xiàn)在他們換了個(gè)思路:把 Recap 訓(xùn)練過(guò)程中產(chǎn)生的經(jīng)驗(yàn)連同策略元數(shù)據(jù)一起喂給 π0.7。

通過(guò)這種知識(shí)蒸餾,π0.7 這一個(gè)通用模型就學(xué)會(huì)了 Recap 優(yōu)化的所有技巧。結(jié)果是,無(wú)論是疊衣服、做咖啡還是折盒子,π0.7 的成功率和速度都達(dá)到了之前專門訓(xùn)練的 Recap 專家模型水平,有時(shí)甚至更好





也就是說(shuō),現(xiàn)在他們不再需要為每個(gè)任務(wù)單獨(dú)維護(hù)一個(gè)專家模型,一個(gè)通用模型就能搞定所有活兒,這也是語(yǔ)言模型領(lǐng)域發(fā)生過(guò)的重要轉(zhuǎn)折。





視頻鏈接:https://mp.weixin.qq.com/s/tYWiq0mR3Ohg-V1FxCfunA?click_id=128



π0.7 是一個(gè)通用模型,因?yàn)樗軌蚩刂聘鞣N不同的機(jī)器人執(zhí)行各種不同的任務(wù)。前面提到的那些都是針對(duì)特定能力(比如泛化性、跨本體遷移)做的專門測(cè)試,除此之外他們還試了更多日常場(chǎng)景 —— 像削蔬菜、用清潔劑擦玻璃門這些活兒它都能干。



視頻鏈接:https://mp.weixin.qq.com/s/tYWiq0mR3Ohg-V1FxCfunA?click_id=128

π0.7 為何如此強(qiáng)大?

π0.7 為什么能泛化得這么開?核心在于數(shù)據(jù)要雜,但提示要細(xì)。

基礎(chǔ)模型想泛化好,本來(lái)就得多喂各種來(lái)源的數(shù)據(jù)—— 他們匯集了幾十種不同機(jī)器人的操作記錄、人類演示視頻,還有各種自主策略跑出來(lái)的實(shí)驗(yàn)數(shù)據(jù)。

不過(guò),光是把這些數(shù)據(jù)混在一起可不行。關(guān)鍵是要在「提示詞」上下功夫:不僅要告訴模型做什么,還要告訴它怎么做(steer)。

具體來(lái)說(shuō),研究人員給模型設(shè)計(jì)了一套多樣化的提示結(jié)構(gòu),包含多模態(tài)信息。比如,除了文字描述任務(wù),還可以給一張「視覺子目標(biāo)」圖片,告訴模型物體最終要擺成什么樣;也可以給一個(gè)期望的任務(wù)時(shí)長(zhǎng),告訴模型做快一點(diǎn)還是慢一點(diǎn)。這些額外信息能消除行為上的歧義,讓模型從不同策略、不同水平的數(shù)據(jù)中都能學(xué)到東西。



這套提示框架讓 π0.7 可以把以前難以合并的數(shù)據(jù)源統(tǒng)一利用起來(lái),包括:

  • 描述任務(wù)和每一步的語(yǔ)言指令;
  • 描述操作方式(比如快慢、質(zhì)量高低)的元數(shù)據(jù);
  • 控制模式標(biāo)簽(用關(guān)節(jié)控制還是末端控制);
  • 視覺子目標(biāo)圖片 —— 可以在測(cè)試時(shí)由世界模型實(shí)時(shí)生成,幫助模型理解「下一步長(zhǎng)什么樣」。

有了這些豐富的標(biāo)注信息,π0.7 就能放心地使用更多類型的數(shù)據(jù)。舉個(gè)例子,那些質(zhì)量不高的自主數(shù)據(jù),本來(lái)可能會(huì)「教壞」模型,讓模型學(xué)出低質(zhì)量的動(dòng)作。但只要給這類數(shù)據(jù)打上合適的標(biāo)簽,比如「質(zhì)量偏低」或「速度偏慢」,模型就能正確理解,不會(huì)照單全收。



在論文中,Physical Intelligence 還公布了 π0.7 的更多細(xì)節(jié)。

π0.7 基于 π0.6 的 VLA 架構(gòu)與 MEM 記憶系統(tǒng)構(gòu)建,并新增多模態(tài)上下文條件調(diào)制。模型包含以 Gemma3 4B 視覺語(yǔ)言模型初始化的 VLM 主干(含 0.4B 視覺編碼器),以及 0.8B 參數(shù)的流匹配動(dòng)作專家,總參數(shù)約 5B。

下圖展示了模型架構(gòu)的整體概況:



大家如果關(guān)心更多細(xì)節(jié),可以去論文里找找看:



  • 論文標(biāo)題:π0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities
  • 論文鏈接:https://www.pi.website/download/pi07.pdf

未來(lái)方向:數(shù)據(jù)和上下文才是關(guān)鍵?

π0.7 是一個(gè)統(tǒng)一的通用模型,它具備一種「組合式泛化」的能力 —— 不僅能聽懂各種指令、看懂視覺子目標(biāo),而且開箱即用,表現(xiàn)相當(dāng)出色。即便是以前需要專門訓(xùn)練、精細(xì)調(diào)優(yōu)的「專家模型」才能完成的任務(wù),它也能直接上手。

研究人員認(rèn)為,像 π0.7 這樣能力強(qiáng)、可操控的模型,未來(lái)有可能解決更復(fù)雜、從未見過(guò)的任務(wù)。怎么做到呢?讓模型自己「想一想」,先思考可能用什么方法去完成任務(wù),利用它遵循多種提示的能力,把這些想法落地成具體的動(dòng)作,然后再根據(jù)執(zhí)行結(jié)果反思、調(diào)整方案。

所以,高效的提示遵循和泛化能力,不僅讓人更方便地告訴機(jī)器人「我想讓你做什么」,還能讓現(xiàn)代基礎(chǔ)模型把它們的語(yǔ)義推理和問(wèn)題解決能力「翻譯」成物理世界中的行動(dòng)。換句話說(shuō),讓機(jī)器人真正理解并動(dòng)手干活。

除了這些展望,Physical Intelligence 團(tuán)隊(duì)還分享了他們關(guān)于世界模型以及未來(lái) scale 方向的看法。團(tuán)隊(duì)成員 Lucy Shi 提到,他們?cè)举€世界模型會(huì)是機(jī)器人泛化能力的關(guān)鍵,結(jié)果數(shù)據(jù)規(guī)模一拉大,VLA 基線就把 world model 吃掉了,而且架構(gòu)簡(jiǎn)單得多。







她把這個(gè)「苦中帶甜」的教訓(xùn)寫成論文和 π0.7,結(jié)論是:大規(guī)模多樣數(shù)據(jù) + 正確上下文,就能自然涌現(xiàn)出驚人的組合泛化能力,很多過(guò)去覺得「很難」的問(wèn)題其實(shí)沒那么難。





不過(guò),他們也沒有完全否定 world model。在 π0.7 中,他們?nèi)匀皇褂昧溯p量級(jí) world model 來(lái)生成視覺子目標(biāo)。



同時(shí),Lucy Shi 也發(fā)現(xiàn),現(xiàn)在模型能力是提上來(lái)了,但評(píng)估又成了新的瓶頸。數(shù)據(jù)那么多,你很難確定模型到底見沒見過(guò)某個(gè)任務(wù)相關(guān)的數(shù)據(jù),因此泛化也很難定義。這也是未來(lái)值得發(fā)力的一個(gè)方向



參考鏈接:https://www.pi.website/blog/pi07

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
經(jīng)常去這幾個(gè)地方的女人,后來(lái)大多都偷情了?

經(jīng)常去這幾個(gè)地方的女人,后來(lái)大多都偷情了?

思絮
2026-04-19 14:55:18
性需求是人的活力來(lái)源,其實(shí)很多人都不知道

性需求是人的活力來(lái)源,其實(shí)很多人都不知道

加油丁小文
2026-04-07 23:21:28
今天才知道,為啥鵝蛋很少有人吃?為啥賣鵝蛋的人很少?漲知識(shí)

今天才知道,為啥鵝蛋很少有人吃?為啥賣鵝蛋的人很少?漲知識(shí)

阿龍美食記
2026-04-12 15:01:18
國(guó)民黨發(fā)言人牛煦庭:鄭麗文走兩岸和平路線,對(duì)臺(tái)灣民眾有利

國(guó)民黨發(fā)言人牛煦庭:鄭麗文走兩岸和平路線,對(duì)臺(tái)灣民眾有利

海峽導(dǎo)報(bào)社
2026-04-18 15:16:07
定了!4月17日發(fā)改委官宣:工資假期收入全上調(diào)

定了!4月17日發(fā)改委官宣:工資假期收入全上調(diào)

夜深愛雜談
2026-04-19 10:01:09
國(guó)內(nèi)暴跌35%,全球大跌19.1%,為什么大家都不買小米手機(jī)了?

國(guó)內(nèi)暴跌35%,全球大跌19.1%,為什么大家都不買小米手機(jī)了?

科技松鼠
2026-04-16 16:00:08
拒逆轉(zhuǎn)!約基奇25+13+11戈貝爾盡力,穆雷30分16罰,華子22+9苦笑

拒逆轉(zhuǎn)!約基奇25+13+11戈貝爾盡力,穆雷30分16罰,華子22+9苦笑

魚崖大話籃球
2026-04-19 06:21:49
電車重量飆至3噸,能耗高,毀路面?外媒痛批:填鴨式造車隱患多

電車重量飆至3噸,能耗高,毀路面?外媒痛批:填鴨式造車隱患多

今朝牛馬
2026-04-17 21:01:36
蔣介石孫子召開發(fā)布會(huì),提出“兩蔣”移靈大陸,2句話讓世人唏噓

蔣介石孫子召開發(fā)布會(huì),提出“兩蔣”移靈大陸,2句話讓世人唏噓

老謝談史
2026-03-18 18:33:35
被噴用中國(guó)貨!韓國(guó)Naver宣布:全面棄用阿里Qwen編碼器

被噴用中國(guó)貨!韓國(guó)Naver宣布:全面棄用阿里Qwen編碼器

快科技
2026-04-18 10:23:13
“不是打穿天山容易,而是天山那頭有人民”,感慨因何而發(fā)?

“不是打穿天山容易,而是天山那頭有人民”,感慨因何而發(fā)?

新華社
2026-04-16 20:38:52
老同學(xué)聚會(huì)班花陰陽(yáng)我:同學(xué)中就屬你混得差,我:你爸都是我員工

老同學(xué)聚會(huì)班花陰陽(yáng)我:同學(xué)中就屬你混得差,我:你爸都是我員工

紅豆講堂
2025-04-23 11:05:46
90年代下崗潮的賬,正在慢慢清還!一代人的犧牲,正在被時(shí)代接住

90年代下崗潮的賬,正在慢慢清還!一代人的犧牲,正在被時(shí)代接住

匹夫來(lái)搞笑
2026-04-19 11:51:55
佟麗婭真人被偶遇!網(wǎng)友:陳思誠(chéng)你眼酸不?

佟麗婭真人被偶遇!網(wǎng)友:陳思誠(chéng)你眼酸不?

民宿體驗(yàn)志
2026-04-17 13:39:04
豬蹄被關(guān)注!研究發(fā)現(xiàn):癌癥患者吃豬蹄,不出2月,或有這5變化

豬蹄被關(guān)注!研究發(fā)現(xiàn):癌癥患者吃豬蹄,不出2月,或有這5變化

荷蘭豆愛健康
2026-04-19 12:39:25
一個(gè)卡扣要換13萬(wàn)電池包!國(guó)產(chǎn)這種售后,到外國(guó)會(huì)罰到懷疑人生!

一個(gè)卡扣要換13萬(wàn)電池包!國(guó)產(chǎn)這種售后,到外國(guó)會(huì)罰到懷疑人生!

沙雕小琳琳
2026-04-19 12:32:36
火箭3主力身價(jià)暴跌!申京三無(wú)產(chǎn)品,謝潑德攻守全崩,阿門狂被帽

火箭3主力身價(jià)暴跌!申京三無(wú)產(chǎn)品,謝潑德攻守全崩,阿門狂被帽

籃球資訊達(dá)人
2026-04-19 12:26:12
毛焦?fàn)栠€沒踏上訪華專機(jī),歐盟突然通告匈牙利:對(duì)中國(guó)該采取行動(dòng)

毛焦?fàn)栠€沒踏上訪華專機(jī),歐盟突然通告匈牙利:對(duì)中國(guó)該采取行動(dòng)

莫地方
2026-04-19 00:45:03
大馬首富之女建議香港教育改革,以普通話教學(xué)

大馬首富之女建議香港教育改革,以普通話教學(xué)

俠客棧
2026-04-19 11:48:10
我拒絕陳麗華3次,但母親重病,她花大價(jià)錢,讓我母親又活了半年

我拒絕陳麗華3次,但母親重病,她花大價(jià)錢,讓我母親又活了半年

大眼妹妹
2026-04-18 16:04:30
2026-04-19 15:24:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12792文章數(shù) 142632關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

頭條要聞

牛彈琴:伊朗遭到特朗普"羞辱"被激怒 結(jié)果印度遭了殃

頭條要聞

牛彈琴:伊朗遭到特朗普"羞辱"被激怒 結(jié)果印度遭了殃

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

張?zhí)鞇墼u(píng)論區(qū)淪陷!被曝卷入小三風(fēng)波

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬(wàn) 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

房產(chǎn)
健康
游戲
親子
藝術(shù)

房產(chǎn)要聞

官宣簽約最強(qiáng)城更!??跇鞘?,突然殺入神秘房企!

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

穿越還是刪帖?《GTA6》五年前預(yù)言帖被扒:網(wǎng)友吵翻天

親子要聞

不能隱瞞爸爸媽媽的四件事兒

藝術(shù)要聞

當(dāng)代著名畫家 | 全山石人物油畫23幅

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版