網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

具身導(dǎo)航，感知推理到底是「上帝」，還是執(zhí)行控制是「命門」？| GAIR Live 023

2026-02-12 18:26:04　來源: AI科技評(píng)論

廣東舉報(bào)

分享至

從“幾何路徑規(guī)劃”到“空間智能”，具身智能正在經(jīng)歷史詩(shī)級(jí)范式躍遷。

作者丨岑峰

如果說大語言模型（LLM）的爆發(fā)賦予了 AI 思考的“靈魂”，那么具身智能（Embodied AI）的崛起則是要為 AI 打造一副可以感知、行動(dòng)并改變物理世界的“身體”。在這一進(jìn)程中，導(dǎo)航技術(shù)作為機(jī)器人觸達(dá)環(huán)境的第一步，正經(jīng)歷著從傳統(tǒng)的“幾何路徑規(guī)劃”向“空間智能”的史詩(shī)級(jí)范式躍遷。

當(dāng)下的具身導(dǎo)航早已超越了簡(jiǎn)單的 A 點(diǎn)到 B 點(diǎn)的避障。隨著三維視覺、神經(jīng)渲染（NeRF/3DGS）以及端到端（End-to-End）智駕經(jīng)驗(yàn)的深度融合，機(jī)器人的“眼睛”越來越亮，“腿腳”也愈發(fā)靈巧。

這背后隱藏著一場(chǎng)技術(shù)范式之爭(zhēng)：具身導(dǎo)航的命門，究竟在于大腦的空間理解與常識(shí)推理，還是在于肢體在物理世界中的精密執(zhí)行與安全反饋？

本期 GAIR Live 邀請(qǐng)到了兩位極具代表性的跨界專家——浙江大學(xué)百人計(jì)劃研究員彭思達(dá)博士與具身多模態(tài)大模型算法專家郝孝帥博士。彭思達(dá)博士深耕三維視覺與神經(jīng)渲染（如 3DGS、NeRF），代表著具身智能的“眼睛”與空間大腦；郝孝帥博士作為全球首個(gè)跨域具身大模型 MiMo-Embodied 的第一作者，擁有深厚的智駕落地經(jīng)驗(yàn)，代表著具身智能的“雙腿”與實(shí)戰(zhàn)決策。

在這場(chǎng)一個(gè)半小時(shí)的圓桌對(duì)話中，兩位專家圍繞具身導(dǎo)航的多個(gè)爭(zhēng)議焦點(diǎn)展開了深度碰撞：

? 關(guān)于本質(zhì)：從“幾何位姿”走向“空間語義”。彭思達(dá)指出，傳統(tǒng)的“自動(dòng)化”導(dǎo)航只需建圖并避障，而具身導(dǎo)航的本質(zhì)是“空間推理”與“意圖理解”的結(jié)合。在他看來，導(dǎo)航正演變?yōu)橐环N“具身 VQA（視覺問答）”，機(jī)器人需要理解如“幫我找個(gè)空的會(huì)議室”這類復(fù)雜指令并自主漫游決策。郝孝帥則認(rèn)為，無論是車還是機(jī)器人，導(dǎo)航的本質(zhì)是高層語義指令與物理空間的映射，核心在于如何將模棱兩可的人類需求（如“我渴了”）轉(zhuǎn)化為尋找水源的主動(dòng)探索行為。

? 關(guān)于范式：端到端決策與“模擬派”的崛起。針對(duì)學(xué)術(shù)界“重感知、輕執(zhí)行”的論斷，彭思達(dá)認(rèn)為，導(dǎo)航不像機(jī)械臂抓取那樣涉及復(fù)雜的物理交互，其“執(zhí)行”相對(duì)成熟，因此高保真仿真環(huán)境（如 3DGS 重建）是提升導(dǎo)航智能的一條路徑，通過“虛擬宇宙”可以生成海量數(shù)據(jù)。郝孝帥則從工業(yè)落地視角提出辯證看法，他認(rèn)為“有圖與無圖結(jié)合”才是具身導(dǎo)航的未來。對(duì)于長(zhǎng)程導(dǎo)航，完全脫離語義地圖的自主探索極易陷入死循環(huán)，必須借助空間先驗(yàn)來縮小搜索空間。

? 關(guān)于挑戰(zhàn)：解決“視覺幻覺”與記憶負(fù)荷。在數(shù)據(jù)層面，兩位專家達(dá)成共識(shí)：視頻數(shù)據(jù)能提供“通用常識(shí)”，但物理規(guī)律必須在真實(shí)世界里“撞”出來。彭思達(dá)提出用“心靈地圖（Mental Map）”來解決大模型長(zhǎng)上下文的內(nèi)存壓力，通過壓縮空間信息提供全局引導(dǎo)。郝孝帥則警示了具身場(chǎng)景下的“視覺幻覺”風(fēng)險(xiǎn)——機(jī)器人可能將鏡子當(dāng)成通路，或?qū)⒌靥河爱?dāng)成深坑，這種對(duì)物理質(zhì)感的誤判是具身導(dǎo)航走向深水區(qū)的最大障礙。

? 關(guān)于交互：非語言指令與情感的交織。在人機(jī)交互方面，郝孝帥分享了對(duì)手勢(shì)與意圖融合的期待，比如通過“一招手”召喚機(jī)器人，或通過“一擺手”讓其避讓，使交互超越文本。彭思達(dá)則指出，情感理解是陪伴機(jī)器人的核心壁壘，雖然目前大模型在識(shí)別語氣神態(tài)上仍顯吃力，但這是實(shí)現(xiàn)真正“擬人智能”的長(zhǎng)期價(jià)值所在。

從學(xué)術(shù)前沿的“虛擬宇宙”到工業(yè)落地的“物理街道”，兩位專家不僅拆解了具身導(dǎo)航的底層架構(gòu)，更對(duì)未來 5-10 年具身機(jī)器人在工業(yè)巡檢、酒店服務(wù)乃至家庭伴侶場(chǎng)景的爆發(fā)給出了極具穿透力的預(yù)判。

以下為本次圓桌討論的實(shí)錄精編，讓我們跟隨兩位專家的思辨，一起走進(jìn)具身導(dǎo)航爆發(fā)的前夜。

馬曉寧：大家好，歡迎來到今天的GAIR Live 直播。如果說大語言模型賦予了 AI 思考的靈魂，那么具身智能就是為 AI 打造行動(dòng)的身體。在具身智能領(lǐng)域，導(dǎo)航已不再是簡(jiǎn)單的從 A 點(diǎn)到 B 點(diǎn)的路徑規(guī)劃，而是一個(gè)演變?yōu)榧曈X感知、空間推理等于一體的系統(tǒng)性挑戰(zhàn)。

今天我們邀請(qǐng)到了兩位重量級(jí)嘉賓：浙江大學(xué)百人計(jì)劃研究員彭思達(dá)博士，以及具身多模態(tài)大模型算法專家郝孝帥博士。郝老師也是全球首個(gè)跨域具身智能大模型 MiMo-Embodied 的第一作者；彭老師則長(zhǎng)期從事三維視覺、神經(jīng)渲染與空間智能的研究。我們將共同探討：具身導(dǎo)航，感知推理到底是‘上帝’，還是執(zhí)行控制是‘命門’？

01
具身導(dǎo)航的本質(zhì)進(jìn)化：從“位姿解算”到“空間推理”

馬曉寧：具身導(dǎo)航正經(jīng)歷著一場(chǎng)深刻的范式變革。很多人認(rèn)為導(dǎo)航就是設(shè)計(jì)路徑、躲避障礙，但在具身智能語境下，導(dǎo)航內(nèi)涵已發(fā)生巨大變化。彭老師，從您的視角看，具身導(dǎo)航更偏向于幾何意義上的位姿解算，還是認(rèn)知層面的空間規(guī)劃？

彭思達(dá)：傳統(tǒng)的導(dǎo)航確實(shí)偏向幾何。如果我們假設(shè)地圖已知、目標(biāo)點(diǎn)明確，利用 A* 這種算法規(guī)劃出路徑，這個(gè)過程可以稱為“自動(dòng)化”，但很難說是“智能”。

所謂智能，應(yīng)當(dāng)像人一樣，大腦能理解并推導(dǎo)指令。隨著大模型的成熟，導(dǎo)航被賦予了新含義。例如，我給機(jī)器人下達(dá)指令：“幫我去看看某會(huì)議室有沒有人，如果有人，找一個(gè)空的會(huì)議室?！睓C(jī)器人需要先走到目的地，觀察環(huán)境并回答問題，最后返回告知結(jié)果。這時(shí)，導(dǎo)航的外延與具身 VQA（視覺問答）結(jié)合在了一起。具身 VQA 是指智能體在三維空間中自由漫游并回答問題，這個(gè)漫游過程本質(zhì)上就是帶有明確目的性的導(dǎo)航。

馬曉寧：郝老師，您有非常豐富的智駕研究經(jīng)驗(yàn)。導(dǎo)航應(yīng)當(dāng)如何與具身本體結(jié)合？

郝孝帥：無論是自動(dòng)駕駛還是具身機(jī)器人，本質(zhì)都是路徑規(guī)劃問題。汽車、人形機(jī)器人、四足機(jī)械狗或輪式機(jī)器人，實(shí)際上只是不同的載體（本體）。它們共同的底層任務(wù)都是實(shí)現(xiàn)視覺感知、空間推理和行為決策。

如果非要說本質(zhì)區(qū)別，我認(rèn)為有三點(diǎn)：

? 反饋頻率與場(chǎng)景結(jié)構(gòu)：智駕導(dǎo)航要求極高頻的實(shí)時(shí)反饋，場(chǎng)景相對(duì)固定且結(jié)構(gòu)化（如車道線、交通標(biāo)志），其核心是在地圖元素約束下選擇最優(yōu)安全路徑。

? 場(chǎng)景復(fù)雜性：具身導(dǎo)航面臨的是非結(jié)構(gòu)化環(huán)境，如會(huì)議室里的桌椅電腦、茶水間的咖啡機(jī)等，這對(duì)視覺感知和空間推理的要求更高。

? 任務(wù)鏈條與主動(dòng)探索：具身導(dǎo)航往往涉及長(zhǎng)時(shí)理解。比如用戶說“我渴了”，機(jī)器人需要推理出“渴了”意味著“找水”，進(jìn)而定位到“茶水間”。如果在茶水間沒發(fā)現(xiàn)飲水機(jī)，機(jī)器人還需要具備主動(dòng)行為探索的能力。雖然本體不同，但兩者都涉及視覺輸入、空間推理到行為決策的高效閉環(huán)。

馬曉寧：既然本質(zhì)相似，那么具身導(dǎo)航研究的技術(shù)核心問題在哪里？請(qǐng)兩位老師分別談?wù)劇?/p>

彭思達(dá)：最大的技術(shù)挑戰(zhàn)在于“缺乏先驗(yàn)地圖”。在自動(dòng)駕駛中，長(zhǎng)程規(guī)劃可以依靠已知的地圖解算。但在具身語境下，前提消失了：機(jī)器人不知道目的地在哪。

這引入了三個(gè)核心挑戰(zhàn)：

? 環(huán)境構(gòu)建：如何在移動(dòng)過程中構(gòu)建對(duì)環(huán)境的理解？

? 記憶存儲(chǔ)：在環(huán)境轉(zhuǎn)悠一圈后，能否完整記住這些空間信息？

? 信息索引：當(dāng)接收到指令時(shí)，能否準(zhǔn)確地從記憶中索引出相關(guān)內(nèi)容。

至于局部規(guī)劃（Local Planning），由于機(jī)器人不像汽車那樣對(duì)高速安全性有極端要求，必要時(shí)可以停下來，因此我認(rèn)為這雖然是小問題，但相對(duì)容易解決。

郝孝帥：我補(bǔ)充一個(gè)角度。我認(rèn)為核心問題是“高層語義指令與物理空間的映射”。

當(dāng)用戶下達(dá)模棱兩可的指令，如“找個(gè)空會(huì)議室”時(shí)，機(jī)器人需要強(qiáng)大的空間推理能力和通用常識(shí)。

這種常識(shí)能告訴機(jī)器人：礦泉水大概率出現(xiàn)在桌子上或廚房，而不是臥室。我們需要構(gòu)建推理模型，將存儲(chǔ)的記憶轉(zhuǎn)化為通用知識(shí)，使機(jī)器人能推理出目標(biāo)物體可能存在的區(qū)域。

02
范式革命：高保真模擬、端到端與具身“去地圖化”之路

馬曉寧：傳統(tǒng) SLAM 導(dǎo)航本質(zhì)是坐標(biāo)系對(duì)齊，而彭老師現(xiàn)在做的是實(shí)時(shí)高保真場(chǎng)景渲染。這種“高保真”帶來的感知提升，是否從根本上改變了導(dǎo)航的輸入邏輯？

彭思達(dá)：我做高保真渲染的初衷是構(gòu)建“高保真仿真器”。無論是導(dǎo)航還是操作，具身智能在真實(shí)環(huán)境中測(cè)試和采集專家數(shù)據(jù)的成本極高。

高保真仿真器的意義在于：

? 場(chǎng)景復(fù)刻與訓(xùn)練：利用三維高斯（3DGS）等技術(shù)，我們可以快速?gòu)囊曨l觀測(cè)中構(gòu)建目標(biāo)場(chǎng)景的仿真環(huán)境，通過大規(guī)模強(qiáng)化學(xué)習(xí)讓模型在該場(chǎng)景中實(shí)現(xiàn)極致性能，從而直接落地。

? 高質(zhì)量數(shù)據(jù)合成：目前主流研究使用的是比較“假”的基于 Mesh 的資產(chǎn)，泛化能力有限。如果我們把仿真資產(chǎn)換成高保真三維高斯，生成的專家數(shù)據(jù)將顯著提升模型的實(shí)戰(zhàn)能力。

馬曉寧：未來導(dǎo)航是基于點(diǎn)云坐標(biāo)，還是空間語義常識(shí)？

彭思達(dá)：從目前趨勢(shì)看，輸入端依然會(huì)以 RGB 或 RGBD（彩色+深度）為主。但我認(rèn)為 RGB 視頻輸入更為通用。雖然深度信息（Depth）有助于理解幾何結(jié)構(gòu)，但不同廠家的深度傳感器差異巨大，直接輸入模型反而容易干擾性能。

我不傾向于在模型內(nèi)部構(gòu)建復(fù)雜的點(diǎn)云或 Spatial Box。因?yàn)閺脑家曨l信號(hào)轉(zhuǎn)為 3D 信號(hào)的過程中必然存在信息損耗，且計(jì)算量巨大。更關(guān)鍵的是，3D 數(shù)據(jù)的規(guī)模遠(yuǎn)不及視頻數(shù)據(jù)。對(duì)于目前的具身模型來說，利用視頻進(jìn)行可擴(kuò)展的訓(xùn)練是更有效的路徑。

馬曉寧：剛才彭老師提到高保真渲染主要用于訓(xùn)練。那么我想進(jìn)一步探討：如果一個(gè)模糊的世界模型配合強(qiáng)大的大語言模型進(jìn)行推理，是否就已經(jīng)足夠完成導(dǎo)航任務(wù)了？我們是否真的需要高精度的 3D 重建或高保真的場(chǎng)景渲染作為實(shí)時(shí)輸入？

彭思達(dá)：我完全同意這個(gè)觀點(diǎn)。高保真渲染并非一定要嵌入到導(dǎo)航模型中，它的核心價(jià)值是為模型提供高質(zhì)量的訓(xùn)練數(shù)據(jù)或仿真環(huán)境。

從模型架構(gòu)的角度看，我認(rèn)為最理想的狀態(tài)是“RGB 視頻輸入，動(dòng)作指令輸出”。這種端到端的模式非常簡(jiǎn)潔，且具備極強(qiáng)的可擴(kuò)展性。如果在模型中強(qiáng)行嵌入顯示的 3D 結(jié)構(gòu)，一方面從視頻轉(zhuǎn) 3D 會(huì)產(chǎn)生信號(hào)損耗，另一方面也會(huì)破壞模型的擴(kuò)展性。

但我認(rèn)為世界模型不能“太模糊”。目前大模型在處理超長(zhǎng)上下文時(shí)，能力會(huì)顯著下降。雖然文本 Token 比較緊湊，但如果一個(gè)機(jī)器人在大型別墅中長(zhǎng)期運(yùn)行，積累的視覺數(shù)據(jù)量是驚人的，很容易超出內(nèi)存或上下文限制。

因此，一個(gè)比較理想的狀態(tài)是構(gòu)建“心靈地圖（Mental Map）”。當(dāng)機(jī)器人在房子里走過一遍后，它在大腦中形成了一個(gè)雖然模糊但關(guān)鍵的“指揮棒”。在實(shí)際執(zhí)行任務(wù)時(shí)，它主要依賴眼前的實(shí)時(shí)視覺信號(hào)，而心靈地圖則提供全局性的引導(dǎo)。如何科學(xué)地構(gòu)造這種既能壓縮信息又不失關(guān)鍵特征的“心靈地圖”，是目前的一個(gè)重要挑戰(zhàn)。

馬曉寧：自動(dòng)駕駛已經(jīng)經(jīng)歷了從高精地圖到依賴實(shí)時(shí)感知決策的“無圖方案”的過程。郝老師，具身智能導(dǎo)航是否也會(huì)經(jīng)歷類似的“去地圖化”過程？

郝孝帥：我認(rèn)為具身導(dǎo)航是否需要地圖，必須具體情況具體分析。目前如 Object Nav 或 VLN 任務(wù)等許多研究更傾向于短程導(dǎo)航，即目之所及的任務(wù)，這可以通過目標(biāo)檢測(cè)和安全導(dǎo)航算法較好地解決。

但在真實(shí)的具身場(chǎng)景中，長(zhǎng)程導(dǎo)航（Long-Horizon Navigation）才是核心難點(diǎn)。比如在一個(gè)包含辦公區(qū)、茶水間、陽臺(tái)的大型平層或跨樓層環(huán)境中，任務(wù)并非“目之所及”。我們?nèi)ツ晏岢隽恕癆3 導(dǎo)航”概念：理解任何指令、導(dǎo)航到任何位置、找到任何物體。這需要分三步走：首先通過大模型解析模棱兩可的指令；其次讓機(jī)器人導(dǎo)航到目標(biāo)可能存在的區(qū)域；最后在該區(qū)域進(jìn)行主動(dòng)感知與搜索以精確定位目標(biāo)。

在第二步中，語義地圖（Semantic Map）是不可或缺的。如果完全沒有地圖，只靠機(jī)器人盲目地主動(dòng)探索，很容易陷入死循環(huán)，或者在尋找物體的過程中耗費(fèi)極長(zhǎng)時(shí)間。而如果我們事先構(gòu)建好語義地圖，告訴機(jī)器人辦公室、茶水間的布局，它就能先快速定位到目標(biāo)區(qū)域。

因此，我的觀點(diǎn)是：“有圖”與“無圖”相結(jié)合才是具身導(dǎo)航的未來。在開放或復(fù)雜的真實(shí)場(chǎng)景下，單純的自主探索算法效率極低。借助于語義地圖提供的先驗(yàn)知識(shí)，能夠顯著縮小搜索空間。這種地圖不需要高精度，只要能區(qū)分功能區(qū)域即可。這就像一個(gè)人來到陌生的城市，如果知道“購(gòu)物去三里屯”這樣的先驗(yàn)知識(shí)，尋找目標(biāo)的效率會(huì)大大提升。

馬曉寧：在自動(dòng)駕駛中，視覺幻覺或博弈失效是常見痛點(diǎn)。在室內(nèi)具身場(chǎng)景下，這些現(xiàn)象會(huì)造成什么后果？

郝孝帥：視覺幻覺在智駕中可能導(dǎo)致“誤報(bào)”或“漏報(bào)”，引發(fā)幽靈剎車或危險(xiǎn)闖行。在具身導(dǎo)航中，視覺幻覺主要表現(xiàn)為對(duì)透明物體（如玻璃、鏡子）或高光物體的識(shí)別失敗。這會(huì)造成兩種后果：一是在探索過程中與物體發(fā)生碰撞；二是因?yàn)檎`判環(huán)境（如將地毯陰影視為深坑）而產(chǎn)生過度規(guī)避，導(dǎo)致機(jī)器人無法到達(dá)目標(biāo)點(diǎn)。

關(guān)于“博弈失效”，在具身導(dǎo)航中并不像智駕那樣頻繁，因?yàn)槭覂?nèi)環(huán)境的人機(jī)交互相對(duì)簡(jiǎn)單。除非有人故意站在機(jī)器人面前測(cè)試其動(dòng)態(tài)避障能力。雖然碰撞的后果通常不嚴(yán)重，但它是驗(yàn)證算法動(dòng)態(tài)避障有效性的重要指標(biāo)。

對(duì)于沒有預(yù)先建圖的陌生家庭環(huán)境，機(jī)器人需要具備空間推理能力。即便沒有地圖，常識(shí)會(huì)告訴機(jī)器人：沙發(fā)通常在客廳，冰箱通常在廚房。同時(shí)，隨著機(jī)器人在家中的漫游，它可以逐步構(gòu)建并存儲(chǔ)空間布局和物體關(guān)系。雖然小件物體會(huì)更新，但大件物體的布局是相對(duì)固定的，這構(gòu)成了機(jī)器人的先驗(yàn)記憶。

馬曉寧：最近阿德萊德大學(xué)吳琦教授在AI科技評(píng)論向他約稿的一篇文章中提出了一個(gè)具有挑戰(zhàn)性的論斷：導(dǎo)航的本質(zhì)是“重感知與推理，輕執(zhí)行”。郝老師，作為實(shí)戰(zhàn)派，您的第一反應(yīng)是什么？

郝孝帥：我認(rèn)為這個(gè)觀點(diǎn)從學(xué)術(shù)角度看是有道理的，但需要全面理解。

吳老師的邏輯是：如果你能通過感知準(zhǔn)確識(shí)別環(huán)境，通過推理確定最優(yōu)路徑，并具備像“導(dǎo)航大腦”一樣的思考能力，那么執(zhí)行就類似于“跑腿”，技術(shù)實(shí)現(xiàn)上相對(duì)成熟。

但我認(rèn)為，感知推理與執(zhí)行是相輔相成的，類似于人的“大腦”與“小腦”，或者快慢系統(tǒng)。決策做得再好，最終必須落實(shí)到執(zhí)行這一環(huán)。執(zhí)行不僅要保證“走過去”，還要保證過程的穩(wěn)定性與安全性。這二者沒有誰更重要，而是一個(gè)閉環(huán)系統(tǒng)中不可分割的部分。

彭思達(dá)：我理解吳老師的論斷。他可能認(rèn)為在目前的機(jī)器人本體技術(shù)下，輪式或足式機(jī)器人的移動(dòng)已經(jīng)做得不錯(cuò)了，不像“靈巧手”操作那樣復(fù)雜。因此，在導(dǎo)航這個(gè)命題下，研究重心應(yīng)當(dāng)更專注在大腦如何進(jìn)行感知推理。如果從技術(shù)攻堅(jiān)的優(yōu)先級(jí)來看，這個(gè)觀點(diǎn)是沒有問題的。

馬曉寧：剛才兩位老師談到了感知的邏輯。接下來我想請(qǐng)教一個(gè)近期非常熱門的話題：具身智能的數(shù)據(jù)路線之爭(zhēng)。我們到底應(yīng)該走真機(jī)實(shí)測(cè)的數(shù)據(jù)收集路線，還是走大規(guī)模的模擬仿真數(shù)據(jù)路線？

彭思達(dá)：在導(dǎo)航領(lǐng)域，數(shù)據(jù)的爭(zhēng)議可能沒有機(jī)器人操作（Manipulation）領(lǐng)域那么大。操作數(shù)據(jù)的質(zhì)量爭(zhēng)議在于，仿真環(huán)境與真實(shí)物理世界的鴻溝（Gap）實(shí)在太大了，它涉及精細(xì)的觸覺、復(fù)雜的物理反饋等。但導(dǎo)航數(shù)據(jù)相對(duì)簡(jiǎn)單，其核心邏輯是“第一視角觀測(cè)+行動(dòng)軌跡”。只要能保證觀測(cè)信號(hào)的真實(shí)性以及軌跡的合理性，讓機(jī)器人走起來是比較容易實(shí)現(xiàn)的。

從這個(gè)角度看，真實(shí)數(shù)據(jù)并不難收集，無論是人還是機(jī)器人，記錄一段漫游視頻及其對(duì)應(yīng)的軌跡，就是一份專家數(shù)據(jù)。同時(shí)，模擬數(shù)據(jù)也不是問題。例如利用三維高斯（3DGS）重建環(huán)境，渲染出的視頻極其真實(shí)，產(chǎn)生的軌跡也非常合理。因此，在導(dǎo)航層面，我認(rèn)為真機(jī)數(shù)據(jù)與仿真數(shù)據(jù)的差異是可以被抹平的。

馬曉寧：既然導(dǎo)航強(qiáng)調(diào)空間感知，那是不是意味著只要讓機(jī)器人看上幾百萬小時(shí)的視頻，導(dǎo)航問題就能迎刃而解？

彭思達(dá)：我不這么認(rèn)為。這可以用開車來做比喻：有些人看了幾萬小時(shí)的駕駛視頻，但到了實(shí)際操作時(shí)依然不會(huì)開。單純的視頻流無法直接驅(qū)動(dòng)復(fù)雜的行為邏輯，我們?nèi)匀恍枰欢ū壤膶＜覕?shù)據(jù)（行為克隆）來訓(xùn)練模型。

郝孝帥：我補(bǔ)充一下。目前行業(yè)內(nèi)普遍采用“視頻預(yù)訓(xùn)練+真機(jī)微調(diào)”的策略。第一階段，利用海量視頻進(jìn)行預(yù)訓(xùn)練，主要目的是學(xué)習(xí)通用常識(shí)。比如通過視頻，模型可以理解抓取動(dòng)作的大致邏輯，或者開車遇到紅綠燈需要停下。這些是跨場(chǎng)景的通用知識(shí)。

但視頻數(shù)據(jù)存在兩個(gè)核心問題：一是它大多記錄的是“成功案例”，缺乏異常或失敗情況的覆蓋；二是它無法提供真實(shí)的物理規(guī)律反饋。例如，視頻里看到一塊地毯，視覺上能走過去，但在具身導(dǎo)航中，你必須通過真實(shí)世界的“碰撞”和體驗(yàn)，才能判斷它到底是一塊平整的地毯，還是一個(gè)偽裝成地毯的深坑。

這種物理常識(shí)和規(guī)律必須通過真機(jī)在物理世界中“撞”出來。所以，第一階段用視頻提供通用常識(shí)，第二階段必須用真實(shí)數(shù)據(jù)進(jìn)行后訓(xùn)練，讓模型學(xué)習(xí)真實(shí)世界的物理法則，這樣才能完成高質(zhì)量的導(dǎo)航任務(wù)。

馬曉寧：接下來我們進(jìn)入“感知與理解”的主題。具身智能常被比作 AI 的“眼睛”。彭老師，您在三維視覺領(lǐng)域深耕多年，如何讓智能體不僅“看到”幾何結(jié)構(gòu)，還能“理解”細(xì)微的語義？神經(jīng)渲染或 3D 高斯建模在其中扮演什么角色？

彭思達(dá)：直白地講，我認(rèn)為傳統(tǒng)的、高度依賴模塊化感知的做法正在遇到瓶頸。以前的模塊化導(dǎo)航流程通常是：輸入圖片、進(jìn)行三維檢測(cè)、構(gòu)建場(chǎng)景圖（Scene Graph）或地圖，然后由模型判斷是否找到目標(biāo)并進(jìn)行路徑搜索。這種方法的上限很低，且存在嚴(yán)重的誤差累積。比如我跑過一些算法，我想找桌上的杯子，杯子就在機(jī)器人眼前，但它死活找不到。這是因?yàn)樵凇皥D像轉(zhuǎn)三維框”的檢測(cè)環(huán)節(jié)，杯子被漏掉了。感知層的缺失直接導(dǎo)致了決策層的癱瘓。

相比之下，這兩年端到端的方法表現(xiàn)越來越強(qiáng)。它將視頻流直接輸入大的 Transformer 架構(gòu)，通過 Attention 機(jī)制讓模型自動(dòng) Focus 在指令相關(guān)的畫面區(qū)域。

這種范式有兩個(gè)優(yōu)勢(shì)：第一，它是可優(yōu)化的，避免了模塊化方法中梯度消失的問題；第二，它實(shí)現(xiàn)了指令語義與畫面特征的直接關(guān)聯(lián)。過去，我們需要人為定義成千上萬個(gè)物體的語義接口，極其繁瑣。

我認(rèn)為，感知的形式正在發(fā)生變化。它不再是獨(dú)立存在的檢測(cè)模塊，而是會(huì)被統(tǒng)一在“感知推理一體化”的大模型中。未來，顯式的三維感知會(huì)弱化，取而代之的是我前面提到的“心靈地圖”。它可能只保留房間格局等不變的特征，而具體的感知任務(wù)則交由端到端模型直接處理。

馬曉寧：在構(gòu)建這種世界模型時(shí)，如何處理動(dòng)態(tài)風(fēng)險(xiǎn)或不確定的危機(jī)？

彭思達(dá)：在具身導(dǎo)航的室內(nèi)場(chǎng)景中，動(dòng)態(tài)環(huán)境比自動(dòng)駕駛簡(jiǎn)單得多，畢竟沒有高速行駛帶來的極端風(fēng)險(xiǎn)。我們可以參考智駕的經(jīng)驗(yàn)，利用海量的專家數(shù)據(jù)覆蓋各種長(zhǎng)尾場(chǎng)景。只要訓(xùn)練數(shù)據(jù)足夠豐富，解決動(dòng)態(tài)避障等問題并非難事。

馬曉寧：郝老師，自動(dòng)駕駛中多傳感器融合已非常成熟。在未來具身導(dǎo)航中，視覺之外的毫米波雷達(dá)、超聲波、激光雷達(dá)等異構(gòu)感知模態(tài)融合，會(huì)面臨什么挑戰(zhàn)？

郝孝帥：多傳感器融合的核心目的在于提供冗余和互補(bǔ)。在惡劣天氣（如下雪、大雨）導(dǎo)致視覺傳感器失效時(shí)，毫米波雷達(dá)或超聲波能提供關(guān)鍵的補(bǔ)充信息。RGB 負(fù)責(zé)語義信息，激光雷達(dá)提供精確的幾何結(jié)構(gòu)。

我認(rèn)為未來的挑戰(zhàn)主要集中在三個(gè)方面：

1. 對(duì)齊與融合：如何高效地將不同維度的異構(gòu)數(shù)據(jù)在空間和時(shí)間尺度上精確對(duì)齊。

2. 算法效率：在多傳感器數(shù)據(jù)爆發(fā)式增長(zhǎng)的情況下，如何設(shè)計(jì)更融合、更輕量的模型。

3. 傳感器失效的穩(wěn)健性：這是我做過的一項(xiàng)關(guān)鍵測(cè)試。很多融合模型在某個(gè)傳感器（如 RGB）完全失效時(shí)，整體性能會(huì)直接歸零。這意味著模型過于依賴某個(gè)模態(tài)。我們接下來的課題是：如何設(shè)計(jì)一種模型，即便在部分傳感器損毀或失效的情況下，依然能保持高性能和高魯棒性的運(yùn)行。

馬曉寧：智駕已經(jīng)覆蓋了城市、鄉(xiāng)村等場(chǎng)景。如果具身導(dǎo)航要實(shí)現(xiàn)真正的“跨場(chǎng)景”泛化，需要克服哪些障礙？

郝孝帥：具身導(dǎo)航要實(shí)現(xiàn)通用化，至少要克服三個(gè)維度的障礙：

1. 語義理解的歧義性：同樣的指令在不同場(chǎng)景下含義完全不同。用戶在家里說“我想休息了”，機(jī)器人應(yīng)該帶他去臥室；如果在辦公室說這句話，機(jī)器人應(yīng)該導(dǎo)向休息室。

2. 通用物理常識(shí)的遷移：模型需要具備跨場(chǎng)景的推理能力。無論在公司還是家里，“渴了”都要去找飲水機(jī)。模型需要將這些通用常識(shí)存儲(chǔ)（無論是通過 Memory 系統(tǒng)還是大模型權(quán)重）并實(shí)現(xiàn)場(chǎng)景間的平滑遷移。

3. 本體執(zhí)行的異構(gòu)性：具身導(dǎo)航涉及輪式、足式等多種本體。雖然視覺感知和推理模型可以通用，但最終執(zhí)行環(huán)節(jié)需要針對(duì)不同本體的動(dòng)力學(xué)特性進(jìn)行精細(xì)適配。只有打通了“通用大腦”與“差異化小腦”的連接，才能真正跑通跨場(chǎng)景導(dǎo)航。

03
認(rèn)知推理與深度交互：意圖理解及其局限

馬曉寧：接下來是一個(gè)比較發(fā)散性的問題。在與研發(fā)陪伴機(jī)器人的朋友交流時(shí)，他們提到未來的機(jī)器人應(yīng)當(dāng)能理解人類的情緒、意圖以及各種非語言指令。我想請(qǐng)問兩位，具身智能如何更好地理解這些非語言信號(hào)，并將其融入導(dǎo)航策略中？

郝孝帥：這個(gè)話題非常有意思。我們目前更多是在討論如何讓機(jī)器人理解模棱兩可的語言指令，但理解人類真實(shí)的非語言意圖同樣關(guān)鍵。

舉個(gè)例子，在居家場(chǎng)景中，如果我向機(jī)器人招手，即使不說話，它也應(yīng)該意識(shí)到我是在召喚它過來；或者當(dāng)機(jī)器人在走廊擋住去路時(shí)，我擺一擺手，它應(yīng)當(dāng)能主動(dòng)避讓。將人類的姿態(tài)、手勢(shì)與文本指令進(jìn)行融合，會(huì)顯著提升居家機(jī)器人的交互體驗(yàn)。

進(jìn)一步說，如果機(jī)器人能理解人類的心理意圖，比如在狹窄通道相遇時(shí)，它能通過觀察判斷出你是想先行還是想禮讓，從而避免“搶路”，這種進(jìn)化到情感層面的感知，會(huì)讓機(jī)器人真正融入人類生活，而不只是一個(gè)生硬的工具。

彭思達(dá)：我認(rèn)為情感理解是陪伴機(jī)器人的核心差異化競(jìng)爭(zhēng)力，但這極具挑戰(zhàn)。

目前的現(xiàn)狀是，即使是最成熟的大語言模型，對(duì)人類語氣的識(shí)別依然不夠理想。例如，你用悲傷或開心的語氣與模型對(duì)話，它往往感知不到差異。既然純音頻的情感識(shí)別尚且如此，那么要求陪伴機(jī)器人通過神態(tài)、動(dòng)作來實(shí)時(shí)感知人類的情緒狀態(tài)并做出導(dǎo)航反饋，比如看到主人垂頭喪氣回家，主動(dòng)過來安慰，技術(shù)難度極大。這是一個(gè)長(zhǎng)期且非常有價(jià)值的研究方向，只有做到這一點(diǎn)，機(jī)器人才能實(shí)現(xiàn)真正的“擬人智能”。

馬曉寧：接下來我們討論“決策與行動(dòng)”。郝老師，在具身規(guī)劃控制中，從單純的“避障”到“意圖規(guī)劃”，這種技術(shù)演進(jìn)是如何實(shí)現(xiàn)的？

郝孝帥：簡(jiǎn)單來說，這本質(zhì)上是從“空間幾何判斷”向“物理功能升維”的跨越。

在自動(dòng)駕駛中，意圖規(guī)劃是根據(jù)視覺觀察和其他車輛的行為，在嚴(yán)格的交通規(guī)則下判斷是停是行。而在具身操縱領(lǐng)域，情況更為復(fù)雜，通常涉及“導(dǎo)航+操縱”的組合任務(wù)。

具身智能的一大核心是與物理世界的主動(dòng)交互。比如指令是“拿一瓶礦泉水”，機(jī)器人首先需要規(guī)劃出路徑，如穿過客廳、打開茶水間的門，同時(shí)要理解物體的“可利用性”。

意圖規(guī)劃在這里體現(xiàn)為：機(jī)器人不僅要走到水瓶前，還要識(shí)別出哪一部分是該抓取的區(qū)域，哪一部分是該擰開的瓶蓋。這種對(duì)物體交互區(qū)域的理解，取決于對(duì)用戶指令的深度拆解。只有從理解意圖到精準(zhǔn)執(zhí)行形成閉環(huán)，才能完成精細(xì)的具身任務(wù)。

馬曉寧：剛才我們也談到了記憶。具身導(dǎo)航如何構(gòu)建常識(shí)記憶能力？在這個(gè)過程中有哪些技術(shù)挑戰(zhàn)？

郝孝帥：借鑒自動(dòng)駕駛的經(jīng)驗(yàn)，所謂的“長(zhǎng)時(shí)記憶”或“常識(shí)”，其實(shí)來自于對(duì)海量真實(shí)場(chǎng)景數(shù)據(jù)的積累。通過收集無數(shù)正常和異常的 Case，系統(tǒng)見識(shí)過的場(chǎng)景越多，在遇到突發(fā)狀況時(shí)的處理能力就越強(qiáng)。

目前的挑戰(zhàn)在于兩點(diǎn)：

1. 高效檢索：我們擁有海量的數(shù)據(jù)庫(kù)，但當(dāng)機(jī)器人當(dāng)前處于某個(gè)場(chǎng)景時(shí)，如何快速、精準(zhǔn)地檢索出最相似、最有效的記憶片段？這種實(shí)時(shí)檢索效率是目前的一個(gè)技術(shù)瓶頸。

2. 動(dòng)態(tài)更新：這是具身導(dǎo)航與智駕記憶最大的區(qū)別。室內(nèi)環(huán)境是高度動(dòng)態(tài)的，你昨天掃描的會(huì)議室有十把椅子，今天可能被搬走了。如果記憶是靜態(tài)的，它很快就會(huì)失效。因此，具身記憶必須是實(shí)時(shí)、動(dòng)態(tài)更新的。這也是為什么我主張采用“分層導(dǎo)航”：先利用記憶導(dǎo)航到大概區(qū)域，再配合實(shí)時(shí)感知的“自主探索”來定位物體。

彭思達(dá)：關(guān)于記憶，我可以補(bǔ)充一下目前學(xué)術(shù)界主流的三種路徑及其局限：

1. 傳統(tǒng)的場(chǎng)景圖：這種層級(jí)化的結(jié)構(gòu)（房子-樓層-房間-物體）非常直觀，符合人類邏輯。但在檢索時(shí)，如果僅用傳統(tǒng)匹配方法，上限較低。

2. 大模型+文本化：有些研究嘗試將場(chǎng)景圖轉(zhuǎn)成巨長(zhǎng)的文本喂給大模型。但即便經(jīng)過壓縮，文本依然會(huì)超出大模型的上下文窗口，導(dǎo)致模型難以從中抽取出關(guān)鍵信息。

3. 基于 RAG（檢索增強(qiáng)生成）的方案：例如 Nvidia 之前的研究，通過 RAG 索引關(guān)鍵信息再給 LLM。但問題在于，這種索引經(jīng)常會(huì)發(fā)生遺漏，導(dǎo)致決策失敗。

目前最新的嘗試包括：用大模型先精簡(jiǎn)長(zhǎng)文本，或者將場(chǎng)景圖轉(zhuǎn)為 Token 喂給圖神經(jīng)網(wǎng)絡(luò)。但實(shí)話說，這些方法的效果都還不理想。

馬曉寧：彭老師，既然場(chǎng)景圖聽起來這么直觀，為什么在實(shí)際落地中效果不佳呢？是構(gòu)建范式的問題嗎？

彭思達(dá)：我個(gè)人認(rèn)為場(chǎng)景圖本身存在局限。首先是處理能力問題，即便假設(shè)大模型有無限的上下文，如何讓它準(zhǔn)確理解復(fù)雜的空間拓?fù)潢P(guān)系依然很難。其次，正如你提到的，場(chǎng)景圖往往是靜態(tài)的，如何將其演進(jìn)為“4D 場(chǎng)景圖”以應(yīng)對(duì)動(dòng)態(tài)變化，目前還缺乏非常有效的手段。即使是處理靜態(tài)環(huán)境，目前的模型在檢索精度上也遠(yuǎn)未達(dá)到理想水平。

馬曉寧：有一種觀點(diǎn)認(rèn)為，這種分層級(jí)的結(jié)構(gòu)化描述方式可能是一個(gè)錯(cuò)誤的路線，兩位怎么看？

郝孝帥：我倒不認(rèn)為這是一個(gè)錯(cuò)誤的路線。相反，場(chǎng)景圖是非常符合人類直觀感受的——先確定樓層，再確定房間，最后定位到房間內(nèi)的物體。這種分級(jí)思維在邏輯上是非常順暢的。

彭思達(dá)：我也認(rèn)同這不是路線錯(cuò)誤，目前的短板主要在于大語言模型處理此類結(jié)構(gòu)化數(shù)據(jù)的方式不夠高效。我們需要探索的是如何讓 LLM 與場(chǎng)景圖進(jìn)行更深度的交互。

郝孝帥：彭老師，我想請(qǐng)教一下，您認(rèn)為大模型目前處理場(chǎng)景圖效果不佳，是因?yàn)槟Ｐ捅旧淼哪芰ζ款i，還是數(shù)據(jù)格式轉(zhuǎn)換帶來的問題？

彭思達(dá)：我認(rèn)為并非大模型本身不行，而是交互方式存在“信息損耗”。我非常推崇 DeepSeek 關(guān)于 OCR 的那篇論文提出的核心觀點(diǎn)：“一圖勝千言”。

直接將原始圖像喂給視覺語言模型（VLM），模型能夠獲取極佳的感性理解。但如果先用極其詳細(xì)的文字去描述這張圖片的所有細(xì)節(jié)，然后再把這段冗長(zhǎng)的文字喂給模型，模型理解的效果反而會(huì)變差。這是因?yàn)槲淖衷谵D(zhuǎn)譯過程中會(huì)丟失大量空間上下文信息，且過長(zhǎng)的文本序列會(huì)分散模型的注意力。

具身導(dǎo)航也是同理。如果我們非要把龐大的三維空間壓縮成一個(gè)超級(jí)長(zhǎng)的場(chǎng)景圖，再轉(zhuǎn)換成文本喂給 VLM，信息在經(jīng)過多次轉(zhuǎn)手和描述后會(huì)發(fā)生瘋狂的變形和缺失。這種“轉(zhuǎn)譯損失”才是導(dǎo)致效果不佳的根本原因。

04
Sim2Real 遷移 & 未來展望

馬曉寧：感謝彭老師的深入剖析。順著這個(gè)話題，您提到高保真三維重建的模擬環(huán)境可以幫助后續(xù)的強(qiáng)化學(xué)習(xí)。這種高保真環(huán)境具體如何賦能導(dǎo)航策略的迭代？在從虛擬環(huán)境遷移到真實(shí)環(huán)境（Sim2Real）時(shí)，會(huì)面臨哪些挑戰(zhàn)？

彭思達(dá)：首先談?wù)勌搶?shí)遷移的問題。在過去，這確實(shí)是一個(gè)巨大的門檻。如果你用過傳統(tǒng)的 Habitat 模擬器，就會(huì)發(fā)現(xiàn)它的渲染質(zhì)量非常簡(jiǎn)陋，由于視覺信號(hào)太“假”，在模擬器里訓(xùn)練出的模型直接部署到真實(shí)環(huán)境幾乎跑不起來。研究者被迫加入大量的專家數(shù)據(jù)進(jìn)行開環(huán)訓(xùn)練來彌補(bǔ)這一差距。

但現(xiàn)在的技術(shù)范式發(fā)生了改變。三維高斯（3DGS）等技術(shù)的出現(xiàn)，讓三維掃描生成的模擬場(chǎng)景在視覺質(zhì)量上幾乎等同于真實(shí)環(huán)境的視頻漫游。在這種高保真的環(huán)境下訓(xùn)練模型，從視覺信號(hào)層面看，模擬與真實(shí)的鴻溝（Gap）已經(jīng)非常微小，幾乎到了肉眼難辨的程度。

至于模擬器對(duì)迭代的幫助，其意義在于效率的指數(shù)級(jí)提升。在真實(shí)環(huán)境中部署測(cè)試是串行過程，你一次只能用一個(gè)機(jī)器人跑一個(gè)場(chǎng)景，且需要漫長(zhǎng)的等待。而在仿真環(huán)境下，我們可以同時(shí)開啟 1000 個(gè)不同的環(huán)境進(jìn)行并行訓(xùn)練和測(cè)試。這種大規(guī)模并行的能力，是具身智能走向通用化的必然路徑。

馬曉寧：具身智能對(duì)計(jì)算資源的實(shí)時(shí)性和延時(shí)性要求極高。在三維感知和構(gòu)建模型時(shí)，我們?nèi)绾纹胶饽Ｐ偷膹?fù)雜度與邊緣側(cè)計(jì)算資源的限制？

彭思達(dá)：這里需要聲明一個(gè)概念：高保真的仿真環(huán)境主要是在“訓(xùn)練階段”使用的，它是事先在高性能服務(wù)器上建好的。當(dāng)導(dǎo)航智能體真正部署到機(jī)器人端進(jìn)行實(shí)時(shí)工作時(shí)，它并不需要在線去構(gòu)建這些復(fù)雜模型，而更多是利用訓(xùn)練好的策略進(jìn)行推理。因此，高精度渲染并不會(huì)直接拖慢實(shí)機(jī)運(yùn)行的延遲。

馬曉寧：明白。訓(xùn)練在云端或服務(wù)器進(jìn)行，執(zhí)行在邊緣端，這解耦了計(jì)算壓力。

馬曉寧：關(guān)于決策與行動(dòng)，最后一個(gè)繞不開的話題是安全性。在面臨未知、異常且多變的環(huán)境時(shí)，我們?nèi)绾未_保具身導(dǎo)航的安全性？

彭思達(dá)：在安全性上，我認(rèn)為具身導(dǎo)航可以完全參考自動(dòng)駕駛的經(jīng)驗(yàn)，通過大規(guī)模數(shù)據(jù)覆蓋和閉環(huán)測(cè)試來解決?？陀^來講，具身導(dǎo)航的安全性挑戰(zhàn)比自動(dòng)駕駛要簡(jiǎn)單得多。自動(dòng)駕駛是在高速運(yùn)動(dòng)中博弈，對(duì)實(shí)時(shí)性和容錯(cuò)率要求極高。而機(jī)器人導(dǎo)航是在相對(duì)慢速的環(huán)境下運(yùn)行，不撞到人是底線。只要避障策略足夠魯棒，安全性是不成問題的，甚至不需要像汽車那樣過度考慮乘坐的舒適性。

郝孝帥：我非常贊同。在惡劣天氣或極端異常環(huán)境下，自動(dòng)駕駛系統(tǒng)的安全性面臨巨大考驗(yàn)。但目前的具身導(dǎo)航在動(dòng)態(tài)避障方面已經(jīng)做得非常出色了。無論是輪式還是足式機(jī)器人，只要設(shè)定好 A 點(diǎn)到 B 點(diǎn)，即便路徑上突然出現(xiàn)行人，機(jī)器人也能迅速做出反應(yīng)并繞行。更重要的是，機(jī)器人的移動(dòng)速度很慢，每一步大約只有 10 到 15 厘米，這種低速運(yùn)行狀態(tài)本身就為系統(tǒng)響應(yīng)留下了充足的時(shí)間緩沖，安全性非常有保障。

馬曉寧：今天的討論非常精彩，兩位老師分享了許多硬核且具前瞻性的見解。最后，請(qǐng)兩位對(duì)未來 5 到 10 年具身智能導(dǎo)航的發(fā)展做一個(gè)簡(jiǎn)單展望。

郝孝帥：我認(rèn)為落地效果最好的首先會(huì)是工業(yè)機(jī)器人，其次是辦公場(chǎng)景下的服務(wù)機(jī)器人。從長(zhǎng)遠(yuǎn)來看，我非常期待具備情感理解和非語言意圖識(shí)別能力的居家機(jī)器人。當(dāng)我們的機(jī)器人能理解主人的手勢(shì)、情緒和真實(shí)想法，并能無縫融入各種生活場(chǎng)景進(jìn)行服務(wù)，那將是具身智能真正造福人類的時(shí)刻。

彭思達(dá)：我看好兩個(gè)方向。首先是導(dǎo)航技術(shù)將迅速增強(qiáng)現(xiàn)有的機(jī)器人品類。比如酒店服務(wù)機(jī)器人、園區(qū)清潔機(jī)器人、家用的掃地機(jī)器人，以前它們更多是按固定路線“死板”地運(yùn)行，效率較低。具備空間智能后的導(dǎo)航技術(shù)能讓這些機(jī)器人實(shí)現(xiàn)階段性的智力躍遷。

其次是陪伴型機(jī)器人。這類產(chǎn)品不需要追求 100% 的完美智能就能產(chǎn)生商業(yè)價(jià)值。比如一款能跟著小孩跑、能進(jìn)行簡(jiǎn)單互動(dòng)的機(jī)器人小狗，其對(duì)導(dǎo)航和感知的要求適中，但能帶來很好的用戶體驗(yàn)。隨著技術(shù)演進(jìn)，最終會(huì)向高階的養(yǎng)老陪伴、全能家政機(jī)器人進(jìn)化。

馬曉寧：感謝彭思達(dá)老師和郝孝帥老師。從高保真環(huán)境的強(qiáng)化學(xué)習(xí)，到場(chǎng)景圖與大模型的糾葛，再到對(duì)未來社會(huì)場(chǎng)景的描繪，今天的直播讓我們對(duì)具身導(dǎo)航有了全方位的認(rèn)識(shí)。感謝兩位嘉賓，也感謝各位觀眾的參與，我們下次再見！

彭思達(dá)、郝孝帥：謝謝大家，再見。

完整視頻觀看地址：https://youtu.be/vQxfw3ghuPo

未經(jīng)「AI科技評(píng)論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.