国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

具身智能無共識,就是最好的共識

0
分享至




在技術(shù)早期,總有人試圖尋找唯一正確的路線,希望通過一次性押注來穿越迷霧。但具身智能的復(fù)雜性正在提醒行業(yè),具身智能不是從一條路徑長出來,而是從無數(shù)次試錯、沖突與調(diào)和中被“雕刻”出來。模型不完美,數(shù)據(jù)不完整,架構(gòu)不統(tǒng)一,這聽上去像缺陷,卻恰恰是具身智能最真實(shí)的生命力所在。

作者:彭堃方

編輯:呂鑫燚

出品:具身研習(xí)社

意料之內(nèi)的是具身智能在2025年末依然保持高昂姿態(tài)前行。

更在意料之內(nèi)的是,具身智能依然沒有共識。

2025智源具身OpenDay圓桌論壇上,國內(nèi)最頂尖的具身從業(yè)者來了一場“各執(zhí)一詞的真心話”,無論是模型架構(gòu)的選擇,還是數(shù)據(jù)的使用都未能在圓桌對話上找到統(tǒng)一的發(fā)展方向。
一時間不少人對于具身智能仍無共識這事兒,抱有遺憾。

但具身研習(xí)社認(rèn)為,“無共識”的另一層意思是具身智能仍值得期待,技術(shù)還會在不經(jīng)意間“偷襲”。畢竟,有明確風(fēng)向了反倒是略顯無聊。當(dāng)我們不再訴諸“確定性”,其實(shí)能夠看出一些趨勢?;蛟S“無共識”本身就是一種共識。



圖片來源:智源研究院

從產(chǎn)業(yè)視角來看,共識的缺失有三重利好意義:

其一,無共識本質(zhì)上打破了單一技術(shù)路線的壟斷性話語權(quán),避免行業(yè)陷入“路徑依賴”的創(chuàng)新陷阱。在具身智能領(lǐng)域,從“分層架構(gòu) vs 端到端”的技術(shù)路線分歧,到“通用人形機(jī)器人vs場景化具身智能”的落地選擇,無共識狀態(tài)讓不同技術(shù)理念、學(xué)科背景的團(tuán)隊獲得平等試錯空間;

其二,成熟行業(yè)的共識往往伴隨著高準(zhǔn)入壁壘,而具身智能的“無共識”狀態(tài),為中小企業(yè)、初創(chuàng)團(tuán)隊乃至跨界玩家提供了彎道超車的機(jī)會。無需遵循既有的技術(shù)標(biāo)準(zhǔn)或商業(yè)規(guī)則,新入局者可憑借差異化優(yōu)勢切入賽道。

其三,具身智能作為交叉學(xué)科賽道,其技術(shù)基礎(chǔ)仍在快速迭代,過早形成共識反而可能固化技術(shù)路徑,限制行業(yè)向更高維度突破。無共識狀態(tài)的核心價值,在于為技術(shù)迭代預(yù)留了“彈性空間”。

在智源具身OpenDay圓桌論壇上,講述了太多“無共識”,也折射出更多可能性。具身研習(xí)社基于在場嘉賓的回答,洞察出具身智能五大信號,未來發(fā)展的方向或許就藏在信號中。



模型還不夠好

有人要另起爐灶

  • 信號1:世界模型暫時扛不起大梁

在具身智能的模型討論中,“當(dāng)紅炸子雞”世界模型是繞不開的話題。

它的核心價值在于“預(yù)測”。讓機(jī)器人像人類一樣,根據(jù)當(dāng)前時空狀態(tài)預(yù)判下一步變化,進(jìn)而規(guī)劃動作,這一點(diǎn)得到了圓桌嘉賓的普遍認(rèn)可。北京大學(xué)助理教授、銀河通用創(chuàng)始人王鶴以機(jī)器人運(yùn)控為例,指出無論是人形機(jī)器人的足式行走、跳舞,還是靈巧手的精細(xì)操作,其底層控制邏輯都需要對物理交互的預(yù)測能力,而世界模型恰好能提供這種支撐,但要讓世界模型真正服務(wù)于機(jī)器人,它的訓(xùn)練數(shù)據(jù)中必須包含更多機(jī)器人本身的數(shù)據(jù)。

但世界模型的短板同樣突出,難以單獨(dú)成為具身智能的“萬能方案”。王鶴強(qiáng)調(diào),當(dāng)前很多世界模型依賴人類行為視頻訓(xùn)練,可機(jī)器人的身體結(jié)構(gòu)(如輪式底盤、多自由度機(jī)械臂)與人類差異巨大,這些數(shù)據(jù)對機(jī)器人實(shí)際操作的幫助有限。加速進(jìn)化創(chuàng)始人兼CEO程昊也提到,在做飯、復(fù)雜裝配等真實(shí)場景中,世界模型的預(yù)測精度仍不足,只能先通過分層模型解決簡單任務(wù),再逐步迭代升級。

  • 信號2:模型要“另起爐灶”

既然現(xiàn)有模型難以滿足需求,“打造具身專屬模型”成為不少企業(yè)的共識。


清華大學(xué)交叉信息學(xué)院助理教授、星海圖CTO 趙行表示,具身智能需要平行于大語言模型的“Large Action Model”,這類模型要以“動作”為核心,而非語言。他解釋道,人類智能的進(jìn)化是“先有動作、再有視覺、最后有語言”,機(jī)器人要適應(yīng)物理世界,也應(yīng)該遵循類似邏輯——比如開車時,人類靠視覺觀察路況、靠動作操控方向盤,語言并未參與核心操作,具身模型也應(yīng)優(yōu)先打通“視覺-動作”的閉環(huán)。


自變量創(chuàng)始人兼CEO王潛的觀點(diǎn)更為具體,他認(rèn)為具身智能需要一套“物理世界基礎(chǔ)模型”,既能控制機(jī)器人動作,又能作為世界模型預(yù)測物理規(guī)律。虛擬世界的多模態(tài)模型靠文字、圖片訓(xùn)練,但物理世界的摩擦、碰撞、力反饋等精細(xì)過程,卻是無法用語言準(zhǔn)確描述的。當(dāng)一個機(jī)器人抓取雞蛋時,它需要感知蛋殼的脆弱度、調(diào)整握力,這種對物理屬性的理解,必須依賴專門針對物理世界訓(xùn)練的模型。

  • 信號3:從底層架構(gòu)開始革新

過去幾年,Transformer架構(gòu)憑借跨模態(tài)處理能力,撐起了ChatGPT等大語言模型的爆發(fā),但在具身智能領(lǐng)域,它的適用性正受到質(zhì)疑。招商局集團(tuán)AI首席科學(xué)家張家興是這一觀點(diǎn)的代表,他直言“具身智能不能走LLM到VLM的老路”。

在他看來,Transformer架構(gòu)是以語言為核心,將視覺、動作等模態(tài)向語言映射,這與物理世界的操作邏輯相悖——人類做動作時,視覺感知直接指導(dǎo)肌肉運(yùn)動,無需經(jīng)過語言“翻譯”。他透露,硅谷頭部團(tuán)隊已在探索“Vision First”或“Vision Action First”的新架構(gòu),讓視覺和動作直接交互,減少語言中介的損耗。

王鶴也補(bǔ)充道,Transformer作為一個跨模態(tài)的Attention機(jī)制,是很通用的。比如你發(fā)現(xiàn)它吞吐文模態(tài)、視頻模態(tài)、聲音模態(tài)都是可以的。但“今天具身的問題是,我們?nèi)擞醒?、耳、口、鼻、舌,這么多‘覺’,雖然從Attention的角度,把這些‘覺’Token化以后都能放到Transformer里,但是它在輸出上好像不是那么的理想,根本挑戰(zhàn)是數(shù)據(jù)問題以及與之對應(yīng)的學(xué)習(xí)范式”。

王鶴提出,短期來看,仿真模擬與合成數(shù)據(jù)是突破探索速度的核心手段;長期來看,現(xiàn)實(shí)世界中人形機(jī)器人的規(guī)模必須持續(xù)快速擴(kuò)張,只有足夠大的“機(jī)器人人口”與能力提升相互推動,才能催生真正強(qiáng)大的具身大模型。

這種底層架構(gòu)的不匹配,讓行業(yè)意識到:要實(shí)現(xiàn)具身智能的突破,或許需要從架構(gòu)根源上革新,而非在現(xiàn)有框架內(nèi)修修補(bǔ)補(bǔ)。



數(shù)據(jù)依舊是卡點(diǎn)

且胃口越來越大

  • 信號4:沒有完美數(shù)據(jù),只有適配選擇

“數(shù)據(jù)是具身智能的燃料”,這是圓桌論壇的共識,但“用什么數(shù)據(jù)”卻沒有統(tǒng)一答案。由于不同數(shù)據(jù)類型各有優(yōu)劣,企業(yè)普遍采取“多源融合、按需選擇”的策略,根據(jù)任務(wù)場景匹配最合適的數(shù)據(jù)來源。
真機(jī)數(shù)據(jù)是最“保真”的選擇,能直接反映真實(shí)物理世界的交互規(guī)律,因此成為精細(xì)操作場景的首選。趙行所在的星海圖團(tuán)隊,就堅持深入真實(shí)場景采集數(shù)據(jù),他們把真實(shí)性、質(zhì)量看作真實(shí)機(jī)器人的數(shù)采起點(diǎn)。
智元機(jī)器人合伙人、首席科學(xué)家羅劍嵐也強(qiáng)調(diào),智元機(jī)器人也堅持真實(shí)數(shù)據(jù),并且在數(shù)據(jù)采集中堅持真實(shí)場景而非單靠數(shù)采工廠,摸索一條通過機(jī)器人自主地去產(chǎn)生數(shù)據(jù),構(gòu)建起數(shù)據(jù)飛輪的道路。
而仿真數(shù)據(jù)則憑借“低成本、可規(guī)模化”的優(yōu)勢,成為底層控制訓(xùn)練的主力。王鶴認(rèn)為,在強(qiáng)化學(xué)習(xí)中,很多極端場景(如機(jī)器人摔倒、機(jī)械臂過載)難以在真機(jī)上反復(fù)測試,而仿真器可以快速生成大量類似數(shù)據(jù),幫助模型學(xué)習(xí)應(yīng)對策略。在他看來,模擬器并不是對真實(shí)世界的否定,而是以模擬器為始,它能夠給具身企業(yè)一個很好的Base Controller,讓我們能在真實(shí)世界里能把數(shù)據(jù)飛輪轉(zhuǎn)起來。


程昊的加速進(jìn)化團(tuán)隊也采取類似策略,先用仿真數(shù)據(jù)讓機(jī)器人掌握基本運(yùn)控能力,再用真機(jī)數(shù)據(jù)微調(diào)適配真實(shí)場景。“我們用仿真數(shù)據(jù)訓(xùn)練的一個目標(biāo),是讓機(jī)器人接下來能獲得更多真實(shí)數(shù)據(jù),有了真實(shí)數(shù)據(jù),整體能力才能再提升?!痹诔剃豢磥磉@很可能是一個螺旋上升的過程。

視頻數(shù)據(jù)則成為基座模型訓(xùn)練的重要補(bǔ)充。智源研究院院長王仲遠(yuǎn)認(rèn)為“視頻數(shù)據(jù)訓(xùn)練基座模型”這一套邏輯其實(shí)跟現(xiàn)在小朋友刷手機(jī)來認(rèn)識世界是一個原理——先通過視頻學(xué)習(xí)到這個世界,再通過真實(shí)的交互體驗(yàn)來提升他們的技能。這些視頻數(shù)據(jù)包含時空、因果、意圖等多維度信息,且能大規(guī)模獲取,是當(dāng)前缺乏海量真機(jī)數(shù)據(jù)時的“折中最優(yōu)解”。
但在具身研習(xí)社追問“從視頻中學(xué)習(xí)如何解決觸覺跟力控精細(xì)化數(shù)據(jù)?”時王仲遠(yuǎn)也承認(rèn),視頻中確實(shí)缺乏力反饋、觸覺等信息,但這并不影響其價值?,F(xiàn)在智源研究院具身智能實(shí)驗(yàn)室里也備有帶力反饋數(shù)據(jù)的采集設(shè)備。視頻數(shù)據(jù)更多用于“打基礎(chǔ)”,還需結(jié)合其他數(shù)據(jù)做針對性優(yōu)化、微調(diào)。

  • 信號5:“數(shù)量”“質(zhì)量”“種類”,具身企業(yè)全方位要數(shù)據(jù)

隨著具身智能向復(fù)雜場景滲透,行業(yè)對數(shù)據(jù)的需求正不斷升級,不僅“量”要大,“質(zhì)”要高,“種類”也要更豐富,形成了越來越大的“數(shù)據(jù)胃口”。

首先是“量”的渴求,“互聯(lián)網(wǎng)級別”數(shù)據(jù)成為行業(yè)共同的期待。如趙行認(rèn)為,數(shù)據(jù)的規(guī)?;?,能夠反向的驅(qū)動模型的進(jìn)化和智能的實(shí)現(xiàn)。王仲遠(yuǎn)也表示“更好的具身大模型,可能要等大量機(jī)器人在真實(shí)場景中解決具體問題、累積出‘具身智能互聯(lián)網(wǎng)’級別的數(shù)據(jù)之后,才會出現(xiàn)”。換句話說,沒有足夠的數(shù)據(jù),模型就像沒吃飽的孩子,跑不快也長不壯。


當(dāng)業(yè)內(nèi)在為Generalist構(gòu)建的27萬小時真機(jī)數(shù)據(jù)集,疑似觸碰到所謂規(guī)?;▌t而歡呼時,王仲遠(yuǎn)對具身研習(xí)社坦言,“幾十萬小時的數(shù)據(jù)依然不能叫海量數(shù)據(jù),還遠(yuǎn)沒到ChatGPT時刻”。



圖片來源:智源研究院

在“量”之外,是“質(zhì)”的追求,“高質(zhì)量數(shù)據(jù)比海量低質(zhì)數(shù)據(jù)更有價值”的觀點(diǎn)逐漸成為主流。王潛認(rèn)為,數(shù)據(jù)雖然很重要,但不是簡單的“越多越好”。

事實(shí)上,語言模型已經(jīng)驗(yàn)證過,單純堆數(shù)據(jù)規(guī)模未必帶來最好效果,高質(zhì)量、高效率的數(shù)據(jù)才是決定性因素。他認(rèn)為在具身場景里,數(shù)據(jù)質(zhì)量比數(shù)據(jù)總量更能拉開一個量級上的差距。在這里,站在金字塔頂尖的真機(jī)數(shù)據(jù)或許可以少,但很可能是打地基的那一層或者說是針對仿真、視頻數(shù)據(jù)之外,扶大廈之將傾的存在。

最后是“種類”的豐富,多模態(tài)數(shù)據(jù)的需求日益迫切。隨著機(jī)器人應(yīng)用場景擴(kuò)展,單一類型的數(shù)據(jù)已無法滿足需求。比如在家庭服務(wù)場景中,機(jī)器人需要同時處理視覺(識別物體)、聽覺(理解指令)、觸覺(感知物體軟硬)、力反饋(控制動作力度)等多維度信息。
當(dāng)前業(yè)內(nèi)所說的多模態(tài)更能力,多是承襲基座大模型的視覺、語言能力,在真正物理交互中的觸覺、力反饋等模態(tài)少之又少。


這種對數(shù)據(jù)種類的豐富需求,也讓行業(yè)意識到:未來的數(shù)據(jù)采集,不僅要記錄“機(jī)器人做了什么”,還要記錄“環(huán)境發(fā)生了什么”“交互有何反饋”“人類需要什么”,才能讓模型更懂物理世界、更懂人類需求。
在技術(shù)的早期,總有人試圖尋找唯一正確的路線,希望通過一次性押注來穿越迷霧。但具身智能的復(fù)雜性正在提醒行業(yè):真正的智能不是從一條路徑長出來,而是從無數(shù)次試錯、沖突與調(diào)和中被“雕刻”出來。模型不完美,數(shù)據(jù)不完整,架構(gòu)不統(tǒng)一,這聽上去像缺陷,卻恰恰是具身智能最真實(shí)的生命力所在。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
大鬧亞航后續(xù):女子冒充空姐,正臉曝光已社死,寫保證書只是開始

大鬧亞航后續(xù):女子冒充空姐,正臉曝光已社死,寫保證書只是開始

社會日日鮮
2026-04-24 07:15:27
“最佳空腹血糖”是多少?建議:過63歲以后,血糖最好控制這范圍

“最佳空腹血糖”是多少?建議:過63歲以后,血糖最好控制這范圍

醫(yī)學(xué)科普匯
2026-04-24 20:20:03
146年來,全球僅有120位醫(yī)生獲得的殊榮,瑞金這位醫(yī)生拿到了!

146年來,全球僅有120位醫(yī)生獲得的殊榮,瑞金這位醫(yī)生拿到了!

上海交通大學(xué)醫(yī)學(xué)院附屬瑞金醫(yī)院
2026-04-24 18:55:17
中美金融戰(zhàn),意外地幫中國解決了,房地產(chǎn)這個尾大不掉的問題

中美金融戰(zhàn),意外地幫中國解決了,房地產(chǎn)這個尾大不掉的問題

南宗歷史
2026-04-24 05:20:02
陳首富終究吞不下云南白藥 | 棱鏡

陳首富終究吞不下云南白藥 | 棱鏡

新浪財經(jīng)
2026-04-24 17:04:15
悲催!37歲名牌大學(xué)畢業(yè)、年薪30萬女醫(yī)生被技術(shù)男嫌棄,當(dāng)場崩潰

悲催!37歲名牌大學(xué)畢業(yè)、年薪30萬女醫(yī)生被技術(shù)男嫌棄,當(dāng)場崩潰

火山詩話
2026-04-24 06:14:58
斯諾克世錦賽:趙心童迎首勝!單桿64分追平丁俊暉,囧哥3-5到5-5

斯諾克世錦賽:趙心童迎首勝!單桿64分追平丁俊暉,囧哥3-5到5-5

劉姚堯的文字城堡
2026-04-24 22:22:43
內(nèi)存漲價了,安卓終于想起要管流氓 APP 了

內(nèi)存漲價了,安卓終于想起要管流氓 APP 了

互聯(lián)網(wǎng)放大鏡
2026-04-23 13:34:06
iPhone 18"不漲價"?蘋果把屏幕砍回四年前,然后叫它"先進(jìn)OLED"

iPhone 18"不漲價"?蘋果把屏幕砍回四年前,然后叫它"先進(jìn)OLED"

互聯(lián)網(wǎng)放大鏡
2026-04-23 12:37:46
美媒稱,革命衛(wèi)隊總司令瓦希迪成為美軍最新打擊目標(biāo)

美媒稱,革命衛(wèi)隊總司令瓦希迪成為美軍最新打擊目標(biāo)

山河路口
2026-04-24 13:23:02
華為系“圍獵”小米

華為系“圍獵”小米

電動汽車觀察家
2026-04-23 15:21:05
6億成本拖9年,《美人魚2》難產(chǎn),華誼申請破產(chǎn),周星馳也很無奈

6億成本拖9年,《美人魚2》難產(chǎn),華誼申請破產(chǎn),周星馳也很無奈

八卦南風(fēng)
2026-04-24 17:50:24
廣東省政府副秘書長吳耿淡被查

廣東省政府副秘書長吳耿淡被查

上觀新聞
2026-04-24 18:11:03
DeepSeek+華為,黃仁勛:我們的噩夢來了!

DeepSeek+華為,黃仁勛:我們的噩夢來了!

藍(lán)字計劃
2026-04-24 19:59:54
北京首鋼50分大勝!超級外援首秀9分,曾凡博爆發(fā),麥基18分

北京首鋼50分大勝!超級外援首秀9分,曾凡博爆發(fā),麥基18分

體壇瞎白話
2026-04-24 21:25:36
2026了,《穿普拉達(dá)的女王2》華裔角色竟然叫這名,日韓網(wǎng)民怒了

2026了,《穿普拉達(dá)的女王2》華裔角色竟然叫這名,日韓網(wǎng)民怒了

觀察者網(wǎng)
2026-04-24 20:06:36
大理民宿市場涼透了!7000家民宿廝殺,有人虧百萬仍沒賣出去…

大理民宿市場涼透了!7000家民宿廝殺,有人虧百萬仍沒賣出去…

火山詩話
2026-04-23 09:14:07
A股,尾盤傳來一個“重磅利好”信號,下周,或?qū)⒂瓉泶笞儽P!

A股,尾盤傳來一個“重磅利好”信號,下周,或?qū)⒂瓉泶笞儽P!

夜深愛雜談
2026-04-24 21:31:35
“兩高”最新司法解釋引巨大爭議,網(wǎng)友:有些內(nèi)容太可怕了!

“兩高”最新司法解釋引巨大爭議,網(wǎng)友:有些內(nèi)容太可怕了!

娛樂圈見解說
2026-04-24 08:11:57
20余萬元尚未解救被困緬甸園區(qū)女孩,同園區(qū)逃生者講述驚魂一刻

20余萬元尚未解救被困緬甸園區(qū)女孩,同園區(qū)逃生者講述驚魂一刻

界面新聞
2026-04-24 13:05:29
2026-04-24 23:23:00
具身研習(xí)社
具身研習(xí)社
記錄具身智能浪潮迭代。
145文章數(shù) 1關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價格依然"屠夫級"

頭條要聞

賴清德面臨彈劾投票 島內(nèi)網(wǎng)友:不記名投票一定過

頭條要聞

賴清德面臨彈劾投票 島內(nèi)網(wǎng)友:不記名投票一定過

體育要聞

上海男籃23連勝+主場全勝 姚明之后最強(qiáng)一季

娛樂要聞

停工16個月!趙露思證實(shí)接拍新劇

財經(jīng)要聞

LG財閥內(nèi)斗:百億美元商業(yè)帝國爭奪戰(zhàn)

汽車要聞

零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

態(tài)度原創(chuàng)

時尚
房產(chǎn)
本地
數(shù)碼
軍事航空

春天穿衣千萬別老氣橫秋!短長搭配、多穿裙子,優(yōu)雅舒適顯高

房產(chǎn)要聞

新一輪教育大爆發(fā)來了!??冢_始瘋狂建學(xué)校!

本地新聞

云游中國|逛世界風(fēng)箏都 留學(xué)生探秘中國傳統(tǒng)文化

數(shù)碼要聞

RGB-Mini LED電視普及風(fēng)暴,海信正式發(fā)布小墨E5S Pro

軍事要聞

美伊陷入互相封鎖僵局

無障礙瀏覽 進(jìn)入關(guān)懷版