国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

具身導(dǎo)航,感知推理到底是「上帝」,還是執(zhí)行控制是「命門」?| GAIR Live 023

0
分享至


從“幾何路徑規(guī)劃”到“空間智能”,具身智能正在經(jīng)歷史詩(shī)級(jí)范式躍遷。

作者丨岑峰

如果說大語言模型(LLM)的爆發(fā)賦予了 AI 思考的“靈魂”,那么具身智能(Embodied AI)的崛起則是要為 AI 打造一副可以感知、行動(dòng)并改變物理世界的“身體”。在這一進(jìn)程中,導(dǎo)航技術(shù)作為機(jī)器人觸達(dá)環(huán)境的第一步,正經(jīng)歷著從傳統(tǒng)的“幾何路徑規(guī)劃”向“空間智能”的史詩(shī)級(jí)范式躍遷。

當(dāng)下的具身導(dǎo)航早已超越了簡(jiǎn)單的 A 點(diǎn)到 B 點(diǎn)的避障。隨著三維視覺、神經(jīng)渲染(NeRF/3DGS)以及端到端(End-to-End)智駕經(jīng)驗(yàn)的深度融合,機(jī)器人的“眼睛”越來越亮,“腿腳”也愈發(fā)靈巧。

這背后隱藏著一場(chǎng)技術(shù)范式之爭(zhēng):具身導(dǎo)航的命門,究竟在于大腦的空間理解與常識(shí)推理,還是在于肢體在物理世界中的精密執(zhí)行與安全反饋?

本期 GAIR Live 邀請(qǐng)到了兩位極具代表性的跨界專家——浙江大學(xué)百人計(jì)劃研究員彭思達(dá)博士具身多模態(tài)大模型算法專家郝孝帥博士。彭思達(dá)博士深耕三維視覺與神經(jīng)渲染(如 3DGS、NeRF),代表著具身智能的“眼睛”與空間大腦;郝孝帥博士作為全球首個(gè)跨域具身大模型 MiMo-Embodied 的第一作者,擁有深厚的智駕落地經(jīng)驗(yàn),代表著具身智能的“雙腿”與實(shí)戰(zhàn)決策。

在這場(chǎng)一個(gè)半小時(shí)的圓桌對(duì)話中,兩位專家圍繞具身導(dǎo)航的多個(gè)爭(zhēng)議焦點(diǎn)展開了深度碰撞:

? 關(guān)于本質(zhì):從“幾何位姿”走向“空間語義”。彭思達(dá)指出,傳統(tǒng)的“自動(dòng)化”導(dǎo)航只需建圖并避障,而具身導(dǎo)航的本質(zhì)是“空間推理”與“意圖理解”的結(jié)合。在他看來,導(dǎo)航正演變?yōu)橐环N“具身 VQA(視覺問答)”,機(jī)器人需要理解如“幫我找個(gè)空的會(huì)議室”這類復(fù)雜指令并自主漫游決策。郝孝帥則認(rèn)為,無論是車還是機(jī)器人,導(dǎo)航的本質(zhì)是高層語義指令與物理空間的映射,核心在于如何將模棱兩可的人類需求(如“我渴了”)轉(zhuǎn)化為尋找水源的主動(dòng)探索行為。

? 關(guān)于范式:端到端決策與“模擬派”的崛起。針對(duì)學(xué)術(shù)界“重感知、輕執(zhí)行”的論斷,彭思達(dá)認(rèn)為,導(dǎo)航不像機(jī)械臂抓取那樣涉及復(fù)雜的物理交互,其“執(zhí)行”相對(duì)成熟,因此高保真仿真環(huán)境(如 3DGS 重建)是提升導(dǎo)航智能的一條路徑,通過“虛擬宇宙”可以生成海量數(shù)據(jù)。郝孝帥則從工業(yè)落地視角提出辯證看法,他認(rèn)為“有圖與無圖結(jié)合”才是具身導(dǎo)航的未來。對(duì)于長(zhǎng)程導(dǎo)航,完全脫離語義地圖的自主探索極易陷入死循環(huán),必須借助空間先驗(yàn)來縮小搜索空間。

? 關(guān)于挑戰(zhàn):解決“視覺幻覺”與記憶負(fù)荷。在數(shù)據(jù)層面,兩位專家達(dá)成共識(shí):視頻數(shù)據(jù)能提供“通用常識(shí)”,但物理規(guī)律必須在真實(shí)世界里“撞”出來。彭思達(dá)提出用“心靈地圖(Mental Map)”來解決大模型長(zhǎng)上下文的內(nèi)存壓力,通過壓縮空間信息提供全局引導(dǎo)。郝孝帥則警示了具身場(chǎng)景下的“視覺幻覺”風(fēng)險(xiǎn)——機(jī)器人可能將鏡子當(dāng)成通路,或?qū)⒌靥河爱?dāng)成深坑,這種對(duì)物理質(zhì)感的誤判是具身導(dǎo)航走向深水區(qū)的最大障礙。

? 關(guān)于交互:非語言指令與情感的交織。在人機(jī)交互方面,郝孝帥分享了對(duì)手勢(shì)與意圖融合的期待,比如通過“一招手”召喚機(jī)器人,或通過“一擺手”讓其避讓,使交互超越文本。彭思達(dá)則指出,情感理解是陪伴機(jī)器人的核心壁壘,雖然目前大模型在識(shí)別語氣神態(tài)上仍顯吃力,但這是實(shí)現(xiàn)真正“擬人智能”的長(zhǎng)期價(jià)值所在。

從學(xué)術(shù)前沿的“虛擬宇宙”到工業(yè)落地的“物理街道”,兩位專家不僅拆解了具身導(dǎo)航的底層架構(gòu),更對(duì)未來 5-10 年具身機(jī)器人在工業(yè)巡檢、酒店服務(wù)乃至家庭伴侶場(chǎng)景的爆發(fā)給出了極具穿透力的預(yù)判。

以下為本次圓桌討論的實(shí)錄精編,讓我們跟隨兩位專家的思辨,一起走進(jìn)具身導(dǎo)航爆發(fā)的前夜。


馬曉寧:大家好,歡迎來到今天的GAIR Live 直播。如果說大語言模型賦予了 AI 思考的靈魂,那么具身智能就是為 AI 打造行動(dòng)的身體。在具身智能領(lǐng)域,導(dǎo)航已不再是簡(jiǎn)單的從 A 點(diǎn)到 B 點(diǎn)的路徑規(guī)劃,而是一個(gè)演變?yōu)榧曈X感知、空間推理等于一體的系統(tǒng)性挑戰(zhàn)。

今天我們邀請(qǐng)到了兩位重量級(jí)嘉賓:浙江大學(xué)百人計(jì)劃研究員彭思達(dá)博士,以及具身多模態(tài)大模型算法專家郝孝帥博士。郝老師也是全球首個(gè)跨域具身智能大模型 MiMo-Embodied 的第一作者;彭老師則長(zhǎng)期從事三維視覺、神經(jīng)渲染與空間智能的研究。我們將共同探討:具身導(dǎo)航,感知推理到底是‘上帝’,還是執(zhí)行控制是‘命門’?

01
具身導(dǎo)航的本質(zhì)進(jìn)化:從“位姿解算”到“空間推理”

馬曉寧:具身導(dǎo)航正經(jīng)歷著一場(chǎng)深刻的范式變革。很多人認(rèn)為導(dǎo)航就是設(shè)計(jì)路徑、躲避障礙,但在具身智能語境下,導(dǎo)航內(nèi)涵已發(fā)生巨大變化。彭老師,從您的視角看,具身導(dǎo)航更偏向于幾何意義上的位姿解算,還是認(rèn)知層面的空間規(guī)劃?

彭思達(dá):傳統(tǒng)的導(dǎo)航確實(shí)偏向幾何。如果我們假設(shè)地圖已知、目標(biāo)點(diǎn)明確,利用 A* 這種算法規(guī)劃出路徑,這個(gè)過程可以稱為“自動(dòng)化”,但很難說是“智能”。

所謂智能,應(yīng)當(dāng)像人一樣,大腦能理解并推導(dǎo)指令。隨著大模型的成熟,導(dǎo)航被賦予了新含義。例如,我給機(jī)器人下達(dá)指令:“幫我去看看某會(huì)議室有沒有人,如果有人,找一個(gè)空的會(huì)議室?!睓C(jī)器人需要先走到目的地,觀察環(huán)境并回答問題,最后返回告知結(jié)果。這時(shí),導(dǎo)航的外延與具身 VQA(視覺問答)結(jié)合在了一起。具身 VQA 是指智能體在三維空間中自由漫游并回答問題,這個(gè)漫游過程本質(zhì)上就是帶有明確目的性的導(dǎo)航。

馬曉寧:郝老師,您有非常豐富的智駕研究經(jīng)驗(yàn)。導(dǎo)航應(yīng)當(dāng)如何與具身本體結(jié)合?

郝孝帥:無論是自動(dòng)駕駛還是具身機(jī)器人,本質(zhì)都是路徑規(guī)劃問題。汽車、人形機(jī)器人、四足機(jī)械狗或輪式機(jī)器人,實(shí)際上只是不同的載體(本體)。它們共同的底層任務(wù)都是實(shí)現(xiàn)視覺感知、空間推理和行為決策。

如果非要說本質(zhì)區(qū)別,我認(rèn)為有三點(diǎn):

? 反饋頻率與場(chǎng)景結(jié)構(gòu): 智駕導(dǎo)航要求極高頻的實(shí)時(shí)反饋,場(chǎng)景相對(duì)固定且結(jié)構(gòu)化(如車道線、交通標(biāo)志),其核心是在地圖元素約束下選擇最優(yōu)安全路徑。

? 場(chǎng)景復(fù)雜性: 具身導(dǎo)航面臨的是非結(jié)構(gòu)化環(huán)境,如會(huì)議室里的桌椅電腦、茶水間的咖啡機(jī)等,這對(duì)視覺感知和空間推理的要求更高。

? 任務(wù)鏈條與主動(dòng)探索: 具身導(dǎo)航往往涉及長(zhǎng)時(shí)理解。比如用戶說“我渴了”,機(jī)器人需要推理出“渴了”意味著“找水”,進(jìn)而定位到“茶水間”。如果在茶水間沒發(fā)現(xiàn)飲水機(jī),機(jī)器人還需要具備主動(dòng)行為探索的能力。雖然本體不同,但兩者都涉及視覺輸入、空間推理到行為決策的高效閉環(huán)。

馬曉寧:既然本質(zhì)相似,那么具身導(dǎo)航研究的技術(shù)核心問題在哪里?請(qǐng)兩位老師分別談?wù)劇?/p>

彭思達(dá):最大的技術(shù)挑戰(zhàn)在于“缺乏先驗(yàn)地圖”。在自動(dòng)駕駛中,長(zhǎng)程規(guī)劃可以依靠已知的地圖解算。但在具身語境下,前提消失了:機(jī)器人不知道目的地在哪。

這引入了三個(gè)核心挑戰(zhàn):

? 環(huán)境構(gòu)建: 如何在移動(dòng)過程中構(gòu)建對(duì)環(huán)境的理解?

? 記憶存儲(chǔ): 在環(huán)境轉(zhuǎn)悠一圈后,能否完整記住這些空間信息?

? 信息索引: 當(dāng)接收到指令時(shí),能否準(zhǔn)確地從記憶中索引出相關(guān)內(nèi)容。

至于局部規(guī)劃(Local Planning),由于機(jī)器人不像汽車那樣對(duì)高速安全性有極端要求,必要時(shí)可以停下來,因此我認(rèn)為這雖然是小問題,但相對(duì)容易解決。

郝孝帥:我補(bǔ)充一個(gè)角度。我認(rèn)為核心問題是“高層語義指令與物理空間的映射”。

當(dāng)用戶下達(dá)模棱兩可的指令,如“找個(gè)空會(huì)議室”時(shí),機(jī)器人需要強(qiáng)大的空間推理能力和通用常識(shí)。

這種常識(shí)能告訴機(jī)器人:礦泉水大概率出現(xiàn)在桌子上或廚房,而不是臥室。我們需要構(gòu)建推理模型,將存儲(chǔ)的記憶轉(zhuǎn)化為通用知識(shí),使機(jī)器人能推理出目標(biāo)物體可能存在的區(qū)域。

02
范式革命:高保真模擬、端到端與具身“去地圖化”之路

馬曉寧:傳統(tǒng) SLAM 導(dǎo)航本質(zhì)是坐標(biāo)系對(duì)齊,而彭老師現(xiàn)在做的是實(shí)時(shí)高保真場(chǎng)景渲染。這種“高保真”帶來的感知提升,是否從根本上改變了導(dǎo)航的輸入邏輯?

彭思達(dá):我做高保真渲染的初衷是構(gòu)建“高保真仿真器”。無論是導(dǎo)航還是操作,具身智能在真實(shí)環(huán)境中測(cè)試和采集專家數(shù)據(jù)的成本極高。

高保真仿真器的意義在于:

? 場(chǎng)景復(fù)刻與訓(xùn)練: 利用三維高斯(3DGS)等技術(shù),我們可以快速?gòu)囊曨l觀測(cè)中構(gòu)建目標(biāo)場(chǎng)景的仿真環(huán)境,通過大規(guī)模強(qiáng)化學(xué)習(xí)讓模型在該場(chǎng)景中實(shí)現(xiàn)極致性能,從而直接落地。

? 高質(zhì)量數(shù)據(jù)合成: 目前主流研究使用的是比較“假”的基于 Mesh 的資產(chǎn),泛化能力有限。如果我們把仿真資產(chǎn)換成高保真三維高斯,生成的專家數(shù)據(jù)將顯著提升模型的實(shí)戰(zhàn)能力。

馬曉寧:未來導(dǎo)航是基于點(diǎn)云坐標(biāo),還是空間語義常識(shí)?

彭思達(dá):從目前趨勢(shì)看,輸入端依然會(huì)以 RGB 或 RGBD(彩色+深度)為主。但我認(rèn)為 RGB 視頻輸入更為通用。雖然深度信息(Depth)有助于理解幾何結(jié)構(gòu),但不同廠家的深度傳感器差異巨大,直接輸入模型反而容易干擾性能。

我不傾向于在模型內(nèi)部構(gòu)建復(fù)雜的點(diǎn)云或 Spatial Box。因?yàn)閺脑家曨l信號(hào)轉(zhuǎn)為 3D 信號(hào)的過程中必然存在信息損耗,且計(jì)算量巨大。更關(guān)鍵的是,3D 數(shù)據(jù)的規(guī)模遠(yuǎn)不及視頻數(shù)據(jù)。對(duì)于目前的具身模型來說,利用視頻進(jìn)行可擴(kuò)展的訓(xùn)練是更有效的路徑。

馬曉寧:剛才彭老師提到高保真渲染主要用于訓(xùn)練。那么我想進(jìn)一步探討:如果一個(gè)模糊的世界模型配合強(qiáng)大的大語言模型進(jìn)行推理,是否就已經(jīng)足夠完成導(dǎo)航任務(wù)了?我們是否真的需要高精度的 3D 重建或高保真的場(chǎng)景渲染作為實(shí)時(shí)輸入?

彭思達(dá):我完全同意這個(gè)觀點(diǎn)。高保真渲染并非一定要嵌入到導(dǎo)航模型中,它的核心價(jià)值是為模型提供高質(zhì)量的訓(xùn)練數(shù)據(jù)或仿真環(huán)境。

從模型架構(gòu)的角度看,我認(rèn)為最理想的狀態(tài)是“RGB 視頻輸入,動(dòng)作指令輸出”。這種端到端的模式非常簡(jiǎn)潔,且具備極強(qiáng)的可擴(kuò)展性。如果在模型中強(qiáng)行嵌入顯示的 3D 結(jié)構(gòu),一方面從視頻轉(zhuǎn) 3D 會(huì)產(chǎn)生信號(hào)損耗,另一方面也會(huì)破壞模型的擴(kuò)展性。

但我認(rèn)為世界模型不能“太模糊”。目前大模型在處理超長(zhǎng)上下文時(shí),能力會(huì)顯著下降。雖然文本 Token 比較緊湊,但如果一個(gè)機(jī)器人在大型別墅中長(zhǎng)期運(yùn)行,積累的視覺數(shù)據(jù)量是驚人的,很容易超出內(nèi)存或上下文限制。

因此,一個(gè)比較理想的狀態(tài)是構(gòu)建“心靈地圖(Mental Map)”。當(dāng)機(jī)器人在房子里走過一遍后,它在大腦中形成了一個(gè)雖然模糊但關(guān)鍵的“指揮棒”。在實(shí)際執(zhí)行任務(wù)時(shí),它主要依賴眼前的實(shí)時(shí)視覺信號(hào),而心靈地圖則提供全局性的引導(dǎo)。如何科學(xué)地構(gòu)造這種既能壓縮信息又不失關(guān)鍵特征的“心靈地圖”,是目前的一個(gè)重要挑戰(zhàn)。

馬曉寧:自動(dòng)駕駛已經(jīng)經(jīng)歷了從高精地圖到依賴實(shí)時(shí)感知決策的“無圖方案”的過程。郝老師,具身智能導(dǎo)航是否也會(huì)經(jīng)歷類似的“去地圖化”過程?

郝孝帥:我認(rèn)為具身導(dǎo)航是否需要地圖,必須具體情況具體分析。目前如 Object Nav 或 VLN 任務(wù)等許多研究更傾向于短程導(dǎo)航,即目之所及的任務(wù),這可以通過目標(biāo)檢測(cè)和安全導(dǎo)航算法較好地解決。

但在真實(shí)的具身場(chǎng)景中,長(zhǎng)程導(dǎo)航(Long-Horizon Navigation)才是核心難點(diǎn)。比如在一個(gè)包含辦公區(qū)、茶水間、陽臺(tái)的大型平層或跨樓層環(huán)境中,任務(wù)并非“目之所及”。我們?nèi)ツ晏岢隽恕癆3 導(dǎo)航”概念:理解任何指令、導(dǎo)航到任何位置、找到任何物體。這需要分三步走:首先通過大模型解析模棱兩可的指令;其次讓機(jī)器人導(dǎo)航到目標(biāo)可能存在的區(qū)域;最后在該區(qū)域進(jìn)行主動(dòng)感知與搜索以精確定位目標(biāo)。

在第二步中,語義地圖(Semantic Map)是不可或缺的。如果完全沒有地圖,只靠機(jī)器人盲目地主動(dòng)探索,很容易陷入死循環(huán),或者在尋找物體的過程中耗費(fèi)極長(zhǎng)時(shí)間。而如果我們事先構(gòu)建好語義地圖,告訴機(jī)器人辦公室、茶水間的布局,它就能先快速定位到目標(biāo)區(qū)域。

因此,我的觀點(diǎn)是:“有圖”與“無圖”相結(jié)合才是具身導(dǎo)航的未來。在開放或復(fù)雜的真實(shí)場(chǎng)景下,單純的自主探索算法效率極低。借助于語義地圖提供的先驗(yàn)知識(shí),能夠顯著縮小搜索空間。這種地圖不需要高精度,只要能區(qū)分功能區(qū)域即可。這就像一個(gè)人來到陌生的城市,如果知道“購(gòu)物去三里屯”這樣的先驗(yàn)知識(shí),尋找目標(biāo)的效率會(huì)大大提升。

馬曉寧:在自動(dòng)駕駛中,視覺幻覺或博弈失效是常見痛點(diǎn)。在室內(nèi)具身場(chǎng)景下,這些現(xiàn)象會(huì)造成什么后果?

郝孝帥:視覺幻覺在智駕中可能導(dǎo)致“誤報(bào)”或“漏報(bào)”,引發(fā)幽靈剎車或危險(xiǎn)闖行。在具身導(dǎo)航中,視覺幻覺主要表現(xiàn)為對(duì)透明物體(如玻璃、鏡子)或高光物體的識(shí)別失敗。 這會(huì)造成兩種后果:一是在探索過程中與物體發(fā)生碰撞;二是因?yàn)檎`判環(huán)境(如將地毯陰影視為深坑)而產(chǎn)生過度規(guī)避,導(dǎo)致機(jī)器人無法到達(dá)目標(biāo)點(diǎn)。

關(guān)于“博弈失效”,在具身導(dǎo)航中并不像智駕那樣頻繁,因?yàn)槭覂?nèi)環(huán)境的人機(jī)交互相對(duì)簡(jiǎn)單。除非有人故意站在機(jī)器人面前測(cè)試其動(dòng)態(tài)避障能力。雖然碰撞的后果通常不嚴(yán)重,但它是驗(yàn)證算法動(dòng)態(tài)避障有效性的重要指標(biāo)。

對(duì)于沒有預(yù)先建圖的陌生家庭環(huán)境,機(jī)器人需要具備空間推理能力。即便沒有地圖,常識(shí)會(huì)告訴機(jī)器人:沙發(fā)通常在客廳,冰箱通常在廚房。同時(shí),隨著機(jī)器人在家中的漫游,它可以逐步構(gòu)建并存儲(chǔ)空間布局和物體關(guān)系。雖然小件物體會(huì)更新,但大件物體的布局是相對(duì)固定的,這構(gòu)成了機(jī)器人的先驗(yàn)記憶。

馬曉寧:最近阿德萊德大學(xué)吳琦教授在AI科技評(píng)論向他約稿的一篇文章中提出了一個(gè)具有挑戰(zhàn)性的論斷:導(dǎo)航的本質(zhì)是“重感知與推理,輕執(zhí)行”。郝老師,作為實(shí)戰(zhàn)派,您的第一反應(yīng)是什么?

郝孝帥:我認(rèn)為這個(gè)觀點(diǎn)從學(xué)術(shù)角度看是有道理的,但需要全面理解。

吳老師的邏輯是:如果你能通過感知準(zhǔn)確識(shí)別環(huán)境,通過推理確定最優(yōu)路徑,并具備像“導(dǎo)航大腦”一樣的思考能力,那么執(zhí)行就類似于“跑腿”,技術(shù)實(shí)現(xiàn)上相對(duì)成熟。

但我認(rèn)為,感知推理與執(zhí)行是相輔相成的,類似于人的“大腦”與“小腦”,或者快慢系統(tǒng)。決策做得再好,最終必須落實(shí)到執(zhí)行這一環(huán)。執(zhí)行不僅要保證“走過去”,還要保證過程的穩(wěn)定性與安全性。這二者沒有誰更重要,而是一個(gè)閉環(huán)系統(tǒng)中不可分割的部分。

彭思達(dá):我理解吳老師的論斷。他可能認(rèn)為在目前的機(jī)器人本體技術(shù)下,輪式或足式機(jī)器人的移動(dòng)已經(jīng)做得不錯(cuò)了,不像“靈巧手”操作那樣復(fù)雜。因此,在導(dǎo)航這個(gè)命題下,研究重心應(yīng)當(dāng)更專注在大腦如何進(jìn)行感知推理。如果從技術(shù)攻堅(jiān)的優(yōu)先級(jí)來看,這個(gè)觀點(diǎn)是沒有問題的。

馬曉寧:剛才兩位老師談到了感知的邏輯。接下來我想請(qǐng)教一個(gè)近期非常熱門的話題:具身智能的數(shù)據(jù)路線之爭(zhēng)。我們到底應(yīng)該走真機(jī)實(shí)測(cè)的數(shù)據(jù)收集路線,還是走大規(guī)模的模擬仿真數(shù)據(jù)路線?

彭思達(dá):在導(dǎo)航領(lǐng)域,數(shù)據(jù)的爭(zhēng)議可能沒有機(jī)器人操作(Manipulation)領(lǐng)域那么大。操作數(shù)據(jù)的質(zhì)量爭(zhēng)議在于,仿真環(huán)境與真實(shí)物理世界的鴻溝(Gap)實(shí)在太大了,它涉及精細(xì)的觸覺、復(fù)雜的物理反饋等。但導(dǎo)航數(shù)據(jù)相對(duì)簡(jiǎn)單,其核心邏輯是“第一視角觀測(cè)+行動(dòng)軌跡”。只要能保證觀測(cè)信號(hào)的真實(shí)性以及軌跡的合理性,讓機(jī)器人走起來是比較容易實(shí)現(xiàn)的。

從這個(gè)角度看,真實(shí)數(shù)據(jù)并不難收集,無論是人還是機(jī)器人,記錄一段漫游視頻及其對(duì)應(yīng)的軌跡,就是一份專家數(shù)據(jù)。同時(shí),模擬數(shù)據(jù)也不是問題。例如利用三維高斯(3DGS)重建環(huán)境,渲染出的視頻極其真實(shí),產(chǎn)生的軌跡也非常合理。因此,在導(dǎo)航層面,我認(rèn)為真機(jī)數(shù)據(jù)與仿真數(shù)據(jù)的差異是可以被抹平的。

馬曉寧:既然導(dǎo)航強(qiáng)調(diào)空間感知,那是不是意味著只要讓機(jī)器人看上幾百萬小時(shí)的視頻,導(dǎo)航問題就能迎刃而解?

彭思達(dá):我不這么認(rèn)為。這可以用開車來做比喻:有些人看了幾萬小時(shí)的駕駛視頻,但到了實(shí)際操作時(shí)依然不會(huì)開。單純的視頻流無法直接驅(qū)動(dòng)復(fù)雜的行為邏輯,我們?nèi)匀恍枰欢ū壤膶<覕?shù)據(jù)(行為克隆)來訓(xùn)練模型。

郝孝帥:我補(bǔ)充一下。目前行業(yè)內(nèi)普遍采用“視頻預(yù)訓(xùn)練+真機(jī)微調(diào)”的策略。 第一階段,利用海量視頻進(jìn)行預(yù)訓(xùn)練,主要目的是學(xué)習(xí)通用常識(shí)。比如通過視頻,模型可以理解抓取動(dòng)作的大致邏輯,或者開車遇到紅綠燈需要停下。這些是跨場(chǎng)景的通用知識(shí)。

但視頻數(shù)據(jù)存在兩個(gè)核心問題:一是它大多記錄的是“成功案例”,缺乏異常或失敗情況的覆蓋;二是它無法提供真實(shí)的物理規(guī)律反饋。例如,視頻里看到一塊地毯,視覺上能走過去,但在具身導(dǎo)航中,你必須通過真實(shí)世界的“碰撞”和體驗(yàn),才能判斷它到底是一塊平整的地毯,還是一個(gè)偽裝成地毯的深坑。

這種物理常識(shí)和規(guī)律必須通過真機(jī)在物理世界中“撞”出來。所以,第一階段用視頻提供通用常識(shí),第二階段必須用真實(shí)數(shù)據(jù)進(jìn)行后訓(xùn)練,讓模型學(xué)習(xí)真實(shí)世界的物理法則,這樣才能完成高質(zhì)量的導(dǎo)航任務(wù)。

馬曉寧:接下來我們進(jìn)入“感知與理解”的主題。具身智能常被比作 AI 的“眼睛”。彭老師,您在三維視覺領(lǐng)域深耕多年,如何讓智能體不僅“看到”幾何結(jié)構(gòu),還能“理解”細(xì)微的語義?神經(jīng)渲染或 3D 高斯建模在其中扮演什么角色?

彭思達(dá):直白地講,我認(rèn)為傳統(tǒng)的、高度依賴模塊化感知的做法正在遇到瓶頸。 以前的模塊化導(dǎo)航流程通常是:輸入圖片、進(jìn)行三維檢測(cè)、構(gòu)建場(chǎng)景圖(Scene Graph)或地圖,然后由模型判斷是否找到目標(biāo)并進(jìn)行路徑搜索。這種方法的上限很低,且存在嚴(yán)重的誤差累積。比如我跑過一些算法,我想找桌上的杯子,杯子就在機(jī)器人眼前,但它死活找不到。這是因?yàn)樵凇皥D像轉(zhuǎn)三維框”的檢測(cè)環(huán)節(jié),杯子被漏掉了。感知層的缺失直接導(dǎo)致了決策層的癱瘓。

相比之下,這兩年端到端的方法表現(xiàn)越來越強(qiáng)。它將視頻流直接輸入大的 Transformer 架構(gòu),通過 Attention 機(jī)制讓模型自動(dòng) Focus 在指令相關(guān)的畫面區(qū)域。

這種范式有兩個(gè)優(yōu)勢(shì):第一,它是可優(yōu)化的,避免了模塊化方法中梯度消失的問題;第二,它實(shí)現(xiàn)了指令語義與畫面特征的直接關(guān)聯(lián)。過去,我們需要人為定義成千上萬個(gè)物體的語義接口,極其繁瑣。

我認(rèn)為,感知的形式正在發(fā)生變化。它不再是獨(dú)立存在的檢測(cè)模塊,而是會(huì)被統(tǒng)一在“感知推理一體化”的大模型中。未來,顯式的三維感知會(huì)弱化,取而代之的是我前面提到的“心靈地圖”。它可能只保留房間格局等不變的特征,而具體的感知任務(wù)則交由端到端模型直接處理。

馬曉寧:在構(gòu)建這種世界模型時(shí),如何處理動(dòng)態(tài)風(fēng)險(xiǎn)或不確定的危機(jī)?

彭思達(dá):在具身導(dǎo)航的室內(nèi)場(chǎng)景中,動(dòng)態(tài)環(huán)境比自動(dòng)駕駛簡(jiǎn)單得多,畢竟沒有高速行駛帶來的極端風(fēng)險(xiǎn)。我們可以參考智駕的經(jīng)驗(yàn),利用海量的專家數(shù)據(jù)覆蓋各種長(zhǎng)尾場(chǎng)景。只要訓(xùn)練數(shù)據(jù)足夠豐富,解決動(dòng)態(tài)避障等問題并非難事。

馬曉寧:郝老師,自動(dòng)駕駛中多傳感器融合已非常成熟。在未來具身導(dǎo)航中,視覺之外的毫米波雷達(dá)、超聲波、激光雷達(dá)等異構(gòu)感知模態(tài)融合,會(huì)面臨什么挑戰(zhàn)?

郝孝帥:多傳感器融合的核心目的在于提供冗余和互補(bǔ)。在惡劣天氣(如下雪、大雨)導(dǎo)致視覺傳感器失效時(shí),毫米波雷達(dá)或超聲波能提供關(guān)鍵的補(bǔ)充信息。RGB 負(fù)責(zé)語義信息,激光雷達(dá)提供精確的幾何結(jié)構(gòu)。

我認(rèn)為未來的挑戰(zhàn)主要集中在三個(gè)方面:

1. 對(duì)齊與融合:如何高效地將不同維度的異構(gòu)數(shù)據(jù)在空間和時(shí)間尺度上精確對(duì)齊。

2. 算法效率:在多傳感器數(shù)據(jù)爆發(fā)式增長(zhǎng)的情況下,如何設(shè)計(jì)更融合、更輕量的模型。

3. 傳感器失效的穩(wěn)健性:這是我做過的一項(xiàng)關(guān)鍵測(cè)試。很多融合模型在某個(gè)傳感器(如 RGB)完全失效時(shí),整體性能會(huì)直接歸零。這意味著模型過于依賴某個(gè)模態(tài)。我們接下來的課題是:如何設(shè)計(jì)一種模型,即便在部分傳感器損毀或失效的情況下,依然能保持高性能和高魯棒性的運(yùn)行。

馬曉寧:智駕已經(jīng)覆蓋了城市、鄉(xiāng)村等場(chǎng)景。如果具身導(dǎo)航要實(shí)現(xiàn)真正的“跨場(chǎng)景”泛化,需要克服哪些障礙?

郝孝帥:具身導(dǎo)航要實(shí)現(xiàn)通用化,至少要克服三個(gè)維度的障礙:

1. 語義理解的歧義性:同樣的指令在不同場(chǎng)景下含義完全不同。用戶在家里說“我想休息了”,機(jī)器人應(yīng)該帶他去臥室;如果在辦公室說這句話,機(jī)器人應(yīng)該導(dǎo)向休息室。

2. 通用物理常識(shí)的遷移:模型需要具備跨場(chǎng)景的推理能力。無論在公司還是家里,“渴了”都要去找飲水機(jī)。模型需要將這些通用常識(shí)存儲(chǔ)(無論是通過 Memory 系統(tǒng)還是大模型權(quán)重)并實(shí)現(xiàn)場(chǎng)景間的平滑遷移。

3. 本體執(zhí)行的異構(gòu)性:具身導(dǎo)航涉及輪式、足式等多種本體。雖然視覺感知和推理模型可以通用,但最終執(zhí)行環(huán)節(jié)需要針對(duì)不同本體的動(dòng)力學(xué)特性進(jìn)行精細(xì)適配。只有打通了“通用大腦”與“差異化小腦”的連接,才能真正跑通跨場(chǎng)景導(dǎo)航。

03
認(rèn)知推理與深度交互:意圖理解及其局限

馬曉寧:接下來是一個(gè)比較發(fā)散性的問題。在與研發(fā)陪伴機(jī)器人的朋友交流時(shí),他們提到未來的機(jī)器人應(yīng)當(dāng)能理解人類的情緒、意圖以及各種非語言指令。我想請(qǐng)問兩位,具身智能如何更好地理解這些非語言信號(hào),并將其融入導(dǎo)航策略中?

郝孝帥:這個(gè)話題非常有意思。我們目前更多是在討論如何讓機(jī)器人理解模棱兩可的語言指令,但理解人類真實(shí)的非語言意圖同樣關(guān)鍵。

舉個(gè)例子,在居家場(chǎng)景中,如果我向機(jī)器人招手,即使不說話,它也應(yīng)該意識(shí)到我是在召喚它過來;或者當(dāng)機(jī)器人在走廊擋住去路時(shí),我擺一擺手,它應(yīng)當(dāng)能主動(dòng)避讓。將人類的姿態(tài)、手勢(shì)與文本指令進(jìn)行融合,會(huì)顯著提升居家機(jī)器人的交互體驗(yàn)。

進(jìn)一步說,如果機(jī)器人能理解人類的心理意圖,比如在狹窄通道相遇時(shí),它能通過觀察判斷出你是想先行還是想禮讓,從而避免“搶路”,這種進(jìn)化到情感層面的感知,會(huì)讓機(jī)器人真正融入人類生活,而不只是一個(gè)生硬的工具。

彭思達(dá):我認(rèn)為情感理解是陪伴機(jī)器人的核心差異化競(jìng)爭(zhēng)力,但這極具挑戰(zhàn)。

目前的現(xiàn)狀是,即使是最成熟的大語言模型,對(duì)人類語氣的識(shí)別依然不夠理想。例如,你用悲傷或開心的語氣與模型對(duì)話,它往往感知不到差異。既然純音頻的情感識(shí)別尚且如此,那么要求陪伴機(jī)器人通過神態(tài)、動(dòng)作來實(shí)時(shí)感知人類的情緒狀態(tài)并做出導(dǎo)航反饋,比如看到主人垂頭喪氣回家,主動(dòng)過來安慰,技術(shù)難度極大。這是一個(gè)長(zhǎng)期且非常有價(jià)值的研究方向,只有做到這一點(diǎn),機(jī)器人才能實(shí)現(xiàn)真正的“擬人智能”。

馬曉寧:接下來我們討論“決策與行動(dòng)”。郝老師,在具身規(guī)劃控制中,從單純的“避障”到“意圖規(guī)劃”,這種技術(shù)演進(jìn)是如何實(shí)現(xiàn)的?

郝孝帥:簡(jiǎn)單來說,這本質(zhì)上是從“空間幾何判斷”向“物理功能升維”的跨越。

在自動(dòng)駕駛中,意圖規(guī)劃是根據(jù)視覺觀察和其他車輛的行為,在嚴(yán)格的交通規(guī)則下判斷是停是行。而在具身操縱領(lǐng)域,情況更為復(fù)雜,通常涉及“導(dǎo)航+操縱”的組合任務(wù)。

具身智能的一大核心是與物理世界的主動(dòng)交互。比如指令是“拿一瓶礦泉水”,機(jī)器人首先需要規(guī)劃出路徑,如穿過客廳、打開茶水間的門,同時(shí)要理解物體的“可利用性”。

意圖規(guī)劃在這里體現(xiàn)為:機(jī)器人不僅要走到水瓶前,還要識(shí)別出哪一部分是該抓取的區(qū)域,哪一部分是該擰開的瓶蓋。這種對(duì)物體交互區(qū)域的理解,取決于對(duì)用戶指令的深度拆解。只有從理解意圖到精準(zhǔn)執(zhí)行形成閉環(huán),才能完成精細(xì)的具身任務(wù)。

馬曉寧:剛才我們也談到了記憶。具身導(dǎo)航如何構(gòu)建常識(shí)記憶能力?在這個(gè)過程中有哪些技術(shù)挑戰(zhàn)?

郝孝帥:借鑒自動(dòng)駕駛的經(jīng)驗(yàn),所謂的“長(zhǎng)時(shí)記憶”或“常識(shí)”,其實(shí)來自于對(duì)海量真實(shí)場(chǎng)景數(shù)據(jù)的積累。通過收集無數(shù)正常和異常的 Case,系統(tǒng)見識(shí)過的場(chǎng)景越多,在遇到突發(fā)狀況時(shí)的處理能力就越強(qiáng)。

目前的挑戰(zhàn)在于兩點(diǎn):

1. 高效檢索:我們擁有海量的數(shù)據(jù)庫(kù),但當(dāng)機(jī)器人當(dāng)前處于某個(gè)場(chǎng)景時(shí),如何快速、精準(zhǔn)地檢索出最相似、最有效的記憶片段?這種實(shí)時(shí)檢索效率是目前的一個(gè)技術(shù)瓶頸。

2. 動(dòng)態(tài)更新:這是具身導(dǎo)航與智駕記憶最大的區(qū)別。室內(nèi)環(huán)境是高度動(dòng)態(tài)的,你昨天掃描的會(huì)議室有十把椅子,今天可能被搬走了。如果記憶是靜態(tài)的,它很快就會(huì)失效。因此,具身記憶必須是實(shí)時(shí)、動(dòng)態(tài)更新的。這也是為什么我主張采用“分層導(dǎo)航”:先利用記憶導(dǎo)航到大概區(qū)域,再配合實(shí)時(shí)感知的“自主探索”來定位物體。

彭思達(dá):關(guān)于記憶,我可以補(bǔ)充一下目前學(xué)術(shù)界主流的三種路徑及其局限:

1. 傳統(tǒng)的場(chǎng)景圖:這種層級(jí)化的結(jié)構(gòu)(房子-樓層-房間-物體)非常直觀,符合人類邏輯。但在檢索時(shí),如果僅用傳統(tǒng)匹配方法,上限較低。

2. 大模型+文本化:有些研究嘗試將場(chǎng)景圖轉(zhuǎn)成巨長(zhǎng)的文本喂給大模型。但即便經(jīng)過壓縮,文本依然會(huì)超出大模型的上下文窗口,導(dǎo)致模型難以從中抽取出關(guān)鍵信息。

3. 基于 RAG(檢索增強(qiáng)生成)的方案:例如 Nvidia 之前的研究,通過 RAG 索引關(guān)鍵信息再給 LLM。但問題在于,這種索引經(jīng)常會(huì)發(fā)生遺漏,導(dǎo)致決策失敗。

目前最新的嘗試包括:用大模型先精簡(jiǎn)長(zhǎng)文本,或者將場(chǎng)景圖轉(zhuǎn)為 Token 喂給圖神經(jīng)網(wǎng)絡(luò)。但實(shí)話說,這些方法的效果都還不理想。

馬曉寧:彭老師,既然場(chǎng)景圖聽起來這么直觀,為什么在實(shí)際落地中效果不佳呢?是構(gòu)建范式的問題嗎?

彭思達(dá):我個(gè)人認(rèn)為場(chǎng)景圖本身存在局限。首先是處理能力問題,即便假設(shè)大模型有無限的上下文,如何讓它準(zhǔn)確理解復(fù)雜的空間拓?fù)潢P(guān)系依然很難。其次,正如你提到的,場(chǎng)景圖往往是靜態(tài)的,如何將其演進(jìn)為“4D 場(chǎng)景圖”以應(yīng)對(duì)動(dòng)態(tài)變化,目前還缺乏非常有效的手段。即使是處理靜態(tài)環(huán)境,目前的模型在檢索精度上也遠(yuǎn)未達(dá)到理想水平。

馬曉寧:有一種觀點(diǎn)認(rèn)為,這種分層級(jí)的結(jié)構(gòu)化描述方式可能是一個(gè)錯(cuò)誤的路線,兩位怎么看?

郝孝帥:我倒不認(rèn)為這是一個(gè)錯(cuò)誤的路線。相反,場(chǎng)景圖是非常符合人類直觀感受的——先確定樓層,再確定房間,最后定位到房間內(nèi)的物體。這種分級(jí)思維在邏輯上是非常順暢的。

彭思達(dá):我也認(rèn)同這不是路線錯(cuò)誤,目前的短板主要在于大語言模型處理此類結(jié)構(gòu)化數(shù)據(jù)的方式不夠高效。我們需要探索的是如何讓 LLM 與場(chǎng)景圖進(jìn)行更深度的交互。

郝孝帥:彭老師,我想請(qǐng)教一下,您認(rèn)為大模型目前處理場(chǎng)景圖效果不佳,是因?yàn)槟P捅旧淼哪芰ζ款i,還是數(shù)據(jù)格式轉(zhuǎn)換帶來的問題?

彭思達(dá):我認(rèn)為并非大模型本身不行,而是交互方式存在“信息損耗”。我非常推崇 DeepSeek 關(guān)于 OCR 的那篇論文提出的核心觀點(diǎn):“一圖勝千言”。

直接將原始圖像喂給視覺語言模型(VLM),模型能夠獲取極佳的感性理解。但如果先用極其詳細(xì)的文字去描述這張圖片的所有細(xì)節(jié),然后再把這段冗長(zhǎng)的文字喂給模型,模型理解的效果反而會(huì)變差。這是因?yàn)槲淖衷谵D(zhuǎn)譯過程中會(huì)丟失大量空間上下文信息,且過長(zhǎng)的文本序列會(huì)分散模型的注意力。

具身導(dǎo)航也是同理。如果我們非要把龐大的三維空間壓縮成一個(gè)超級(jí)長(zhǎng)的場(chǎng)景圖,再轉(zhuǎn)換成文本喂給 VLM,信息在經(jīng)過多次轉(zhuǎn)手和描述后會(huì)發(fā)生瘋狂的變形和缺失。這種“轉(zhuǎn)譯損失”才是導(dǎo)致效果不佳的根本原因。

04
Sim2Real 遷移 & 未來展望

馬曉寧:感謝彭老師的深入剖析。順著這個(gè)話題,您提到高保真三維重建的模擬環(huán)境可以幫助后續(xù)的強(qiáng)化學(xué)習(xí)。這種高保真環(huán)境具體如何賦能導(dǎo)航策略的迭代?在從虛擬環(huán)境遷移到真實(shí)環(huán)境(Sim2Real)時(shí),會(huì)面臨哪些挑戰(zhàn)?

彭思達(dá):首先談?wù)勌搶?shí)遷移的問題。在過去,這確實(shí)是一個(gè)巨大的門檻。如果你用過傳統(tǒng)的 Habitat 模擬器,就會(huì)發(fā)現(xiàn)它的渲染質(zhì)量非常簡(jiǎn)陋,由于視覺信號(hào)太“假”,在模擬器里訓(xùn)練出的模型直接部署到真實(shí)環(huán)境幾乎跑不起來。研究者被迫加入大量的專家數(shù)據(jù)進(jìn)行開環(huán)訓(xùn)練來彌補(bǔ)這一差距。

但現(xiàn)在的技術(shù)范式發(fā)生了改變。三維高斯(3DGS)等技術(shù)的出現(xiàn),讓三維掃描生成的模擬場(chǎng)景在視覺質(zhì)量上幾乎等同于真實(shí)環(huán)境的視頻漫游。在這種高保真的環(huán)境下訓(xùn)練模型,從視覺信號(hào)層面看,模擬與真實(shí)的鴻溝(Gap)已經(jīng)非常微小,幾乎到了肉眼難辨的程度。

至于模擬器對(duì)迭代的幫助,其意義在于效率的指數(shù)級(jí)提升。在真實(shí)環(huán)境中部署測(cè)試是串行過程,你一次只能用一個(gè)機(jī)器人跑一個(gè)場(chǎng)景,且需要漫長(zhǎng)的等待。而在仿真環(huán)境下,我們可以同時(shí)開啟 1000 個(gè)不同的環(huán)境進(jìn)行并行訓(xùn)練和測(cè)試。這種大規(guī)模并行的能力,是具身智能走向通用化的必然路徑。

馬曉寧:具身智能對(duì)計(jì)算資源的實(shí)時(shí)性和延時(shí)性要求極高。在三維感知和構(gòu)建模型時(shí),我們?nèi)绾纹胶饽P偷膹?fù)雜度與邊緣側(cè)計(jì)算資源的限制?

彭思達(dá):這里需要聲明一個(gè)概念:高保真的仿真環(huán)境主要是在“訓(xùn)練階段”使用的,它是事先在高性能服務(wù)器上建好的。當(dāng)導(dǎo)航智能體真正部署到機(jī)器人端進(jìn)行實(shí)時(shí)工作時(shí),它并不需要在線去構(gòu)建這些復(fù)雜模型,而更多是利用訓(xùn)練好的策略進(jìn)行推理。因此,高精度渲染并不會(huì)直接拖慢實(shí)機(jī)運(yùn)行的延遲。

馬曉寧:明白。訓(xùn)練在云端或服務(wù)器進(jìn)行,執(zhí)行在邊緣端,這解耦了計(jì)算壓力。

馬曉寧:關(guān)于決策與行動(dòng),最后一個(gè)繞不開的話題是安全性。在面臨未知、異常且多變的環(huán)境時(shí),我們?nèi)绾未_保具身導(dǎo)航的安全性?

彭思達(dá):在安全性上,我認(rèn)為具身導(dǎo)航可以完全參考自動(dòng)駕駛的經(jīng)驗(yàn),通過大規(guī)模數(shù)據(jù)覆蓋和閉環(huán)測(cè)試來解決??陀^來講,具身導(dǎo)航的安全性挑戰(zhàn)比自動(dòng)駕駛要簡(jiǎn)單得多。自動(dòng)駕駛是在高速運(yùn)動(dòng)中博弈,對(duì)實(shí)時(shí)性和容錯(cuò)率要求極高。而機(jī)器人導(dǎo)航是在相對(duì)慢速的環(huán)境下運(yùn)行,不撞到人是底線。只要避障策略足夠魯棒,安全性是不成問題的,甚至不需要像汽車那樣過度考慮乘坐的舒適性。

郝孝帥:我非常贊同。在惡劣天氣或極端異常環(huán)境下,自動(dòng)駕駛系統(tǒng)的安全性面臨巨大考驗(yàn)。但目前的具身導(dǎo)航在動(dòng)態(tài)避障方面已經(jīng)做得非常出色了。無論是輪式還是足式機(jī)器人,只要設(shè)定好 A 點(diǎn)到 B 點(diǎn),即便路徑上突然出現(xiàn)行人,機(jī)器人也能迅速做出反應(yīng)并繞行。更重要的是,機(jī)器人的移動(dòng)速度很慢,每一步大約只有 10 到 15 厘米,這種低速運(yùn)行狀態(tài)本身就為系統(tǒng)響應(yīng)留下了充足的時(shí)間緩沖,安全性非常有保障。

馬曉寧:今天的討論非常精彩,兩位老師分享了許多硬核且具前瞻性的見解。最后,請(qǐng)兩位對(duì)未來 5 到 10 年具身智能導(dǎo)航的發(fā)展做一個(gè)簡(jiǎn)單展望。

郝孝帥:我認(rèn)為落地效果最好的首先會(huì)是工業(yè)機(jī)器人,其次是辦公場(chǎng)景下的服務(wù)機(jī)器人。從長(zhǎng)遠(yuǎn)來看,我非常期待具備情感理解和非語言意圖識(shí)別能力的居家機(jī)器人。當(dāng)我們的機(jī)器人能理解主人的手勢(shì)、情緒和真實(shí)想法,并能無縫融入各種生活場(chǎng)景進(jìn)行服務(wù),那將是具身智能真正造福人類的時(shí)刻。

彭思達(dá):我看好兩個(gè)方向。首先是導(dǎo)航技術(shù)將迅速增強(qiáng)現(xiàn)有的機(jī)器人品類。比如酒店服務(wù)機(jī)器人、園區(qū)清潔機(jī)器人、家用的掃地機(jī)器人,以前它們更多是按固定路線“死板”地運(yùn)行,效率較低。具備空間智能后的導(dǎo)航技術(shù)能讓這些機(jī)器人實(shí)現(xiàn)階段性的智力躍遷。

其次是陪伴型機(jī)器人。這類產(chǎn)品不需要追求 100% 的完美智能就能產(chǎn)生商業(yè)價(jià)值。比如一款能跟著小孩跑、能進(jìn)行簡(jiǎn)單互動(dòng)的機(jī)器人小狗,其對(duì)導(dǎo)航和感知的要求適中,但能帶來很好的用戶體驗(yàn)。隨著技術(shù)演進(jìn),最終會(huì)向高階的養(yǎng)老陪伴、全能家政機(jī)器人進(jìn)化。

馬曉寧:感謝彭思達(dá)老師和郝孝帥老師。從高保真環(huán)境的強(qiáng)化學(xué)習(xí),到場(chǎng)景圖與大模型的糾葛,再到對(duì)未來社會(huì)場(chǎng)景的描繪,今天的直播讓我們對(duì)具身導(dǎo)航有了全方位的認(rèn)識(shí)。感謝兩位嘉賓,也感謝各位觀眾的參與,我們下次再見!

彭思達(dá)、郝孝帥:謝謝大家,再見。

完整視頻觀看地址:https://youtu.be/vQxfw3ghuPo

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
特朗普“停戰(zhàn)”,還挺諷刺的

特朗普“停戰(zhàn)”,還挺諷刺的

中國(guó)新聞周刊
2026-03-10 22:22:09
深圳上線“政務(wù)龍蝦”,卻被發(fā)現(xiàn)政務(wù)系統(tǒng)還在用IE瀏覽器,網(wǎng)友擔(dān)心信息遭泄露

深圳上線“政務(wù)龍蝦”,卻被發(fā)現(xiàn)政務(wù)系統(tǒng)還在用IE瀏覽器,網(wǎng)友擔(dān)心信息遭泄露

小蘿卜絲
2026-03-10 17:33:28
曝伊朗女足已正式登機(jī)離開澳洲:多人落淚+反抗未果 有2人成功留下

曝伊朗女足已正式登機(jī)離開澳洲:多人落淚+反抗未果 有2人成功留下

風(fēng)過鄉(xiāng)
2026-03-10 21:14:19
李斌談超快充和換電模式:超快再快不可能有換電快,超快充對(duì)電池壽命和安全性等有損害

李斌談超快充和換電模式:超快再快不可能有換電快,超快充對(duì)電池壽命和安全性等有損害

中國(guó)能源網(wǎng)
2026-03-10 11:33:11
火爆全網(wǎng)的“養(yǎng)龍蝦”,第一批受害者已出現(xiàn)!有人被AI燒掉數(shù)萬元

火爆全網(wǎng)的“養(yǎng)龍蝦”,第一批受害者已出現(xiàn)!有人被AI燒掉數(shù)萬元

派大星紀(jì)錄片
2026-03-10 11:13:04
難以置信!網(wǎng)傳一女子征婚,稱網(wǎng)貸欠200多萬,誰幫還債就嫁給誰

難以置信!網(wǎng)傳一女子征婚,稱網(wǎng)貸欠200多萬,誰幫還債就嫁給誰

火山詩(shī)話
2026-03-10 13:46:15
出售藍(lán)軍23.5億鎊去向爭(zhēng)議,英國(guó)政府下最后通牒,阿布抗?fàn)幗?年

出售藍(lán)軍23.5億鎊去向爭(zhēng)議,英國(guó)政府下最后通牒,阿布抗?fàn)幗?年

夏侯看英超
2026-03-11 01:34:41
北大醫(yī)學(xué)專家胡大一:睡覺,一個(gè)讓你延長(zhǎng)生命的革命性新秘方

北大醫(yī)學(xué)專家胡大一:睡覺,一個(gè)讓你延長(zhǎng)生命的革命性新秘方

新浪財(cái)經(jīng)
2026-03-10 00:31:51
給屁眼做美白,已經(jīng)成為歐美上流社會(huì)的肛需

給屁眼做美白,已經(jīng)成為歐美上流社會(huì)的肛需

beebee
2026-03-10 11:09:50
證據(jù)確鑿!導(dǎo)致伊朗小學(xué)165人喪生的那枚導(dǎo)彈不是“戰(zhàn)斧”

證據(jù)確鑿!導(dǎo)致伊朗小學(xué)165人喪生的那枚導(dǎo)彈不是“戰(zhàn)斧”

山間聽雨
2026-03-10 22:09:43
金與正發(fā)出警告:后果可怕,不堪設(shè)想!

金與正發(fā)出警告:后果可怕,不堪設(shè)想!

IN朝鮮
2026-03-10 16:38:48
伊朗南部3省宣布支持巴列維,川普與內(nèi)塔爆發(fā)口水戰(zhàn),欲打退堂鼓

伊朗南部3省宣布支持巴列維,川普與內(nèi)塔爆發(fā)口水戰(zhàn),欲打退堂鼓

史政先鋒
2026-03-10 21:00:09
中國(guó)游客不來了,日本政府大力歡迎印度游客!日本空姐崩潰:他們用完的廁所簡(jiǎn)直是災(zāi)難!

中國(guó)游客不來了,日本政府大力歡迎印度游客!日本空姐崩潰:他們用完的廁所簡(jiǎn)直是災(zāi)難!

東京新青年
2026-03-10 18:52:49
伊朗德黑蘭突降“黑雨”!有民眾呼吸困難 喉嚨刺痛

伊朗德黑蘭突降“黑雨”!有民眾呼吸困難 喉嚨刺痛

閃電新聞
2026-03-10 19:30:10
國(guó)家互聯(lián)網(wǎng)應(yīng)急中心發(fā)布OpenClaw安全應(yīng)用風(fēng)險(xiǎn)提示

國(guó)家互聯(lián)網(wǎng)應(yīng)急中心發(fā)布OpenClaw安全應(yīng)用風(fēng)險(xiǎn)提示

界面新聞
2026-03-10 19:29:53
不怕被報(bào)復(fù)?伊朗女足5人摘下頭巾!獲準(zhǔn)留在澳洲 球員家人遭逮捕

不怕被報(bào)復(fù)?伊朗女足5人摘下頭巾!獲準(zhǔn)留在澳洲 球員家人遭逮捕

念洲
2026-03-10 07:46:07
中國(guó)女足4-0戰(zhàn)勝對(duì)手,晉級(jí)四強(qiáng)

中國(guó)女足4-0戰(zhàn)勝對(duì)手,晉級(jí)四強(qiáng)

大嘴說臺(tái)球
2026-03-10 21:43:09
于東來公布公司40億資產(chǎn)利潤(rùn)分配方案:胖東來12名店長(zhǎng)共分2.4億,每人2000萬元

于東來公布公司40億資產(chǎn)利潤(rùn)分配方案:胖東來12名店長(zhǎng)共分2.4億,每人2000萬元

大象新聞
2026-03-10 14:46:05
這菜再貴也要吃,大量上市!通便排毒,殺菌消炎,提高免疫力

這菜再貴也要吃,大量上市!通便排毒,殺菌消炎,提高免疫力

阿龍美食記
2026-03-10 16:31:51
陳都靈太嫩了

陳都靈太嫩了

阿廢冷眼觀察所
2026-02-28 11:28:38
2026-03-11 02:47:01
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7111文章數(shù) 20739關(guān)注度
往期回顧 全部

科技要聞

全民"養(yǎng)蝦"背后:大廠集體下場(chǎng)瘋狂賣Token

頭條要聞

伊朗新最高領(lǐng)袖在襲擊中受傷未公開發(fā)表講話 官方回應(yīng)

頭條要聞

伊朗新最高領(lǐng)袖在襲擊中受傷未公開發(fā)表講話 官方回應(yīng)

體育要聞

加蘭沒那么差,但鱸魚會(huì)用嗎?

娛樂要聞

《逐玉》注水風(fēng)波升級(jí)!315評(píng)論區(qū)淪陷

財(cái)經(jīng)要聞

“龍蝦補(bǔ)貼”密集出爐 最高1000萬!

汽車要聞

MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

態(tài)度原創(chuàng)

時(shí)尚
家居
教育
房產(chǎn)
軍事航空

看來看去這些才是適合普通人的穿搭!不花哨、不繁瑣,提氣質(zhì)

家居要聞

自然肌理 溫度質(zhì)感婚房

教育要聞

南京十三中發(fā)來邀請(qǐng)函!

房產(chǎn)要聞

信號(hào)!千億巨頭入局,三亞開啟新一輪大征拆!

軍事要聞

剛說完戰(zhàn)爭(zhēng)很快結(jié)束 特朗普改口

無障礙瀏覽 進(jìn)入關(guān)懷版