王耀南院士：大模型，如何成為機(jī)器人的“終極操控中樞”？

2025-12-18 16:32:59　來源: 科技導(dǎo)報

北京舉報

分享至

原文發(fā)表于《科技導(dǎo)報》2025 年第20 期《人工智能大模型推動具身智能無人系統(tǒng)發(fā)展》

在“十五五”規(guī)劃錨定的未來產(chǎn)業(yè)藍(lán)圖中，具身智能作為人工智能走向物理實踐的關(guān)鍵跨越，正成為驅(qū)動新型工業(yè)化、應(yīng)對社會挑戰(zhàn)的新質(zhì)生產(chǎn)力。

《科技導(dǎo)報》2025年第20期刊發(fā)了我國機(jī)器人技術(shù)與智能控制專家、中國工程院院士王耀南的文章《人工智能大模型推動具身智能無人系統(tǒng)發(fā)展》。本文認(rèn)為，人工智能大模型以其強(qiáng)大的學(xué)習(xí)與泛化能力，為具身智能無人系統(tǒng)注入核心動力，通過處理復(fù)雜多模態(tài)數(shù)據(jù)，顯著提升系統(tǒng)的感知、決策與控制智能化水平，賦能產(chǎn)業(yè)升級與科技自立自強(qiáng)。

王耀南（左三）指導(dǎo)學(xué)生

王耀南，現(xiàn)任湖南大學(xué)機(jī)器人視覺感知與控制技術(shù)國家工程研究中心主任，機(jī)器人技術(shù)與智能控制專家、中國圖象圖形學(xué)學(xué)會理事長、中國工程院院士，主要從事智能機(jī)器人感知與控制技術(shù)及工程應(yīng)用的研究。

人工智能大模型推動具身智能無人系統(tǒng)發(fā)展

王耀南

隨著人工智能技術(shù)的快速發(fā)展，具身智能無人系統(tǒng)逐漸成為研究熱點。人工智能大模型技術(shù)的發(fā)展為具身智能無人系統(tǒng)帶來了新的機(jī)遇。具身智能強(qiáng)調(diào)智能體通過與環(huán)境的交互來實現(xiàn)智能行為，而無人系統(tǒng)則擺脫了人類直接操控的限制，能夠自主完成任務(wù)。人工智能大模型的出現(xiàn)，為具身智能無人系統(tǒng)的發(fā)展注入了強(qiáng)大動力。大模型具有強(qiáng)大的學(xué)習(xí)能力和泛化能力，能夠處理復(fù)雜的多模態(tài)數(shù)據(jù)，為無人系統(tǒng)的感知、決策和控制提供更高效、更智能的解決方案。在當(dāng)今科技競爭日益激烈的背景下，研究人工智能大模型驅(qū)動的具身智能無人系統(tǒng)，對于提升國家的科技實力和推動產(chǎn)業(yè)升級具有重要意義。

具身智能無人系統(tǒng)的載體形態(tài)豐富，涵蓋無人機(jī)、無人地面車輛（UGV）、無人水面/水下航行器（USV/UUV）以及各種類型移動機(jī)器人。

在軍事應(yīng)用領(lǐng)域，察打一體無人機(jī)可執(zhí)行戰(zhàn)場偵察、精確打擊任務(wù)，有效提升作戰(zhàn)效能并降低人員傷亡風(fēng)險；無人運輸車輛能在生化污染、炮火覆蓋等危險環(huán)境中完成物資投送，保障后勤補給鏈路暢通。
在民用領(lǐng)域，無人配送車通過路徑規(guī)劃算法與環(huán)境感知模塊實現(xiàn)“門到門”貨物自動配送，大幅提升物流末端效率；農(nóng)業(yè)植保無人機(jī)結(jié)合多光譜成像技術(shù)與精準(zhǔn)噴灑系統(tǒng)，可完成農(nóng)田長勢監(jiān)測、病蟲害防治等作業(yè)，助力農(nóng)業(yè)生產(chǎn)向精準(zhǔn)化、集約化轉(zhuǎn)型；水下無人航行器則可搭載聲學(xué)探測、水質(zhì)分析設(shè)備，開展深海資源勘探、海洋生態(tài)環(huán)境監(jiān)測等任務(wù)。

這些應(yīng)用場景充分驗證了無人系統(tǒng)的價值潛力，而具身智能技術(shù)的融入，將進(jìn)一步突破其功能邊界，實現(xiàn)更復(fù)雜場景下的自主任務(wù)執(zhí)行。

具身智能，其核心思想是智能體需要通過身體與環(huán)境進(jìn)行交互來獲取知識和實現(xiàn)智能行為。早期研究主要集中于結(jié)構(gòu)化環(huán)境中的專用控制算法與運動規(guī)劃方法，實現(xiàn)諸如定點移動、物體抓取等基礎(chǔ)性任務(wù)。隨著深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等人工智能分支的發(fā)展，具身智能的應(yīng)用范圍逐步從工業(yè)機(jī)器人拓展到智能駕駛車輛、無人機(jī)等更為復(fù)雜的無人系統(tǒng)，實現(xiàn)了從“結(jié)構(gòu)化環(huán)境中的規(guī)則性任務(wù)”向“半結(jié)構(gòu)化環(huán)境中的多目標(biāo)任務(wù)”的重大跨越。近年來，以ChatGPT、DeepSeek、LLaMA等為代表的大模型技術(shù)爆發(fā)式發(fā)展，推動具身智能進(jìn)入一個全新時代?；谏疃葟?qiáng)化學(xué)習(xí)與環(huán)境交互自學(xué)習(xí)的智能體，能夠通過與環(huán)境的持續(xù)互動自主提煉任務(wù)策略，并借助視覺、語言、力觸等多模態(tài)感知系統(tǒng)，實現(xiàn)對動態(tài)環(huán)境的深度理解與快速自適應(yīng)，從而顯著提升在未知、非結(jié)構(gòu)化環(huán)境中的系統(tǒng)魯棒性與任務(wù)完成率。

通用基礎(chǔ)大模型是具身智能無人系統(tǒng)的“底層引擎”。通用基礎(chǔ)大模型是AI大模型體系的核心基座，其技術(shù)特征在于通過大規(guī)模無標(biāo)注數(shù)據(jù)預(yù)訓(xùn)練，構(gòu)建跨領(lǐng)域的語言理解、邏輯推理與知識存儲能力。該類模型以Transformer架構(gòu)為核心，通過千億至萬億級參數(shù)規(guī)模實現(xiàn)“知識圖譜+語言理解”的雙重能力，典型代表包括ChatGPT系列、LLaMA系列、DeepSeek及文心一言等。在技術(shù)范式上，通用基礎(chǔ)大模型采用“預(yù)訓(xùn)練-微調(diào)”模式：預(yù)訓(xùn)練階段通過海量文本數(shù)據(jù)學(xué)習(xí)人類語言規(guī)律與世界知識，形成通用語義理解與邏輯推理框架；微調(diào)階段則輸入少量任務(wù)相關(guān)標(biāo)注數(shù)據(jù)，快速適配文本生成、智能問答、代碼編寫等特定任務(wù)需求。在具身智能無人系統(tǒng)中，通用基礎(chǔ)大模型承擔(dān)“大腦中樞”職能：

例如，無人車決策系統(tǒng)可基于大模型的邏輯推理能力，解析交通法規(guī)文本、路況描述信息，生成符合人類認(rèn)知的駕駛決策邏輯；服務(wù)機(jī)器人可通過大模型理解復(fù)雜自然語言指令，完成任務(wù)拆解與執(zhí)行指令轉(zhuǎn)化。

多模態(tài)大模型是具身智能無人系統(tǒng)復(fù)雜環(huán)境跨模態(tài)信息交互的“融合橋梁”，其能夠統(tǒng)一處理文本、圖像、音頻、視頻以及各類傳感器（如激光雷達(dá)、毫米波雷達(dá)、慣性測量單元（IMU）等）產(chǎn)生的異構(gòu)數(shù)據(jù)，打破不同模態(tài)之間的語義隔閡。在模型結(jié)構(gòu)上，多模態(tài)大模型通常引入模態(tài)對齊模塊，例如跨注意力機(jī)制、特征映射網(wǎng)絡(luò)等，將不同模態(tài)的數(shù)據(jù)嵌入到統(tǒng)一的語義表征空間中，從而實現(xiàn)真正的跨模態(tài)理解與生成能力，例如圖像描述生成、語音指令理解、基于多傳感器融合的環(huán)境狀態(tài)判斷等。這一能力對無人系統(tǒng)在真實世界中的環(huán)境感知與語義建模具有至關(guān)重要的作用。

具身智能大模型是智能無人系統(tǒng)交互控制的“專用大腦”。具身智能大模型是專為“智能體與環(huán)境交互”設(shè)計的技術(shù)，其核心特征是將“環(huán)境感知-動作決策-反饋學(xué)習(xí)”融入模型架構(gòu)，實現(xiàn)“感知即決策、決策即控制”的端到端能力。與前2類大模型相比，具身智能大模型在訓(xùn)練數(shù)據(jù)上增加了“交互數(shù)據(jù)”（如機(jī)器人的運動軌跡數(shù)據(jù)、無人車的駕駛行為數(shù)據(jù)、人類與環(huán)境的交互數(shù)據(jù)），在架構(gòu)上增加了“動作預(yù)測模塊”和“反饋優(yōu)化模塊”，能夠直接輸出控制信號(如關(guān)節(jié)角度、電機(jī)轉(zhuǎn)速、行駛速度)，而非僅生成文本或圖像。具身智能大模型的關(guān)鍵技術(shù)突破在于“實時交互與動態(tài)適應(yīng)”：

例如，人形機(jī)器人在行走時遇到障礙物，模型可在50 ms內(nèi)完成“感知障礙物（視覺+觸覺）—調(diào)整步態(tài)（動作決策）—輸出關(guān)節(jié)控制參數(shù)（控制）”的全流程，且通過實時反饋（如腳底壓力傳感器數(shù)據(jù)）不斷優(yōu)化動作，避免摔倒，通過具身大模型，可在凹凸不平的地面行走、上下樓梯、搬運10 kg重物，動作流暢度接近人類。

近年來，人工智能大模型不斷發(fā)展，在具身智能無人系統(tǒng)中也發(fā)揮著越來越多的作用。

首先，在環(huán)境感知方面，大模型能夠融合并處理來自攝像頭、激光雷達(dá)、麥克風(fēng)陣列、IMU等多源異構(gòu)傳感器數(shù)據(jù)，通過其在大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練中獲得的強(qiáng)大表征學(xué)習(xí)能力，提取出更具判別性和泛化能力的特征表示，從而顯著提升系統(tǒng)在遮擋、光照變化、天氣干擾等復(fù)雜條件下的感知精度與魯棒性。
其次，在決策與規(guī)劃層面，依托其深厚的常識知識庫和強(qiáng)大的符號推理能力，大模型能夠基于多模態(tài)感知信息，結(jié)合任務(wù)目標(biāo)與上下文語境，快速生成多種可行的行為方案，并對各方案的成本、風(fēng)險與預(yù)期收益進(jìn)行綜合評估，從而輸出最優(yōu)決策序列，實現(xiàn)高效任務(wù)分解與運動規(guī)劃。
第三，在系統(tǒng)適應(yīng)與遷移學(xué)習(xí)方面，大模型憑借良好的泛化特性和少樣本學(xué)習(xí)能力，能夠幫助無人系統(tǒng)快速適應(yīng)新的任務(wù)環(huán)境與操作要求，僅需少量新場景數(shù)據(jù)即可完成模型微調(diào)，大幅提升了部署效率與應(yīng)用靈活性。

盡管大模型為具身智能無人系統(tǒng)帶來了革命性進(jìn)展，但是進(jìn)一步發(fā)展仍面臨諸多技術(shù)挑戰(zhàn)。

數(shù)據(jù)安全與隱私保護(hù)是首要問題，無人系統(tǒng)在運行過程中可能采集包括個人身份信息、精確定位數(shù)據(jù)、醫(yī)療記錄在內(nèi)的敏感信息，必須構(gòu)建覆蓋數(shù)據(jù)加密、訪問控制、匿名化處理和合規(guī)審計的全鏈路安全治理體系。
此外，模型的可解釋性與可靠性同樣是亟待突破的瓶頸，由于大模型固有的“黑盒”特性，其決策邏輯往往難以追溯和解釋，這在自動駕駛、手術(shù)機(jī)器人等高可信要求場景中可能帶來難以估量的風(fēng)險，因此需大力發(fā)展可解釋人工智能（XAI）技術(shù)，實現(xiàn)決策過程的可視化、可溯源與可驗證。
另一方面，大模型訓(xùn)練與推理所需的高性能計算資源與能源消耗，也限制了其在微型無人機(jī)、便攜機(jī)器人等終端設(shè)備中的部署。為應(yīng)對這一挑戰(zhàn)，“邊緣-云”協(xié)同計算架構(gòu)逐漸成為主流解決方案，通過將實時性要求極高的感知與控制任務(wù)部署于邊緣計算節(jié)點，將大規(guī)模數(shù)據(jù)預(yù)處理、模型訓(xùn)練與復(fù)雜推理任務(wù)卸載至云端，從而實現(xiàn)計算資源的高效分配與系統(tǒng)能效的優(yōu)化平衡。

展望未來，人工智能大模型仍將持續(xù)驅(qū)動具身智能無人系統(tǒng)邁向更高水平。

首先，多模態(tài)感知與端到端控制模型的泛化能力將得到進(jìn)一步加強(qiáng)，從而顯著提升系統(tǒng)在高度非結(jié)構(gòu)化、動態(tài)開放環(huán)境中的適應(yīng)性與生存能力。
其次，融合模型預(yù)測控制、強(qiáng)化學(xué)習(xí)與仿生控制機(jī)制的新型智能控制框架，將有效增強(qiáng)系統(tǒng)在復(fù)雜動態(tài)場景中的行為泛化能力和抗干擾能力。
第三，“虛實協(xié)同”訓(xùn)練范式將得到更廣泛應(yīng)用，通過高保真物理仿真環(huán)境與世界模型技術(shù)，智能體可在虛擬空間中完成大規(guī)模預(yù)訓(xùn)練和策略優(yōu)化，再通過真實世界數(shù)據(jù)進(jìn)行快速微調(diào)，從而大幅提升任務(wù)執(zhí)行效率并降低實體訓(xùn)練風(fēng)險。
最后，多智能體協(xié)同與分布式智能將成為重點發(fā)展方向，通過構(gòu)建標(biāo)準(zhǔn)化的智能體協(xié)作協(xié)議，并結(jié)合聯(lián)邦學(xué)習(xí)、同態(tài)加密等隱私計算技術(shù)，實現(xiàn)智能體間的高效通信、協(xié)同決策與安全協(xié)作，從而全面拓展具身智能無人系統(tǒng)在低空經(jīng)濟(jì)、智慧城市、智能制造、智慧農(nóng)業(yè)、太空探索、國防安全等重大場景中的應(yīng)用潛力。

文章來源：王耀南. 人工智能大模型推動具身智能無人系統(tǒng)發(fā)展[J]. 科技導(dǎo)報, 2025, 43(20): 1-2 .

內(nèi)容為【科技導(dǎo)報】公眾號原創(chuàng)，歡迎轉(zhuǎn)載
白名單回復(fù)后臺「轉(zhuǎn)載」

《科技導(dǎo)報》創(chuàng)刊于1980年，中國科協(xié)學(xué)術(shù)會刊，主要刊登科學(xué)前沿和技術(shù)熱點領(lǐng)域突破性的研究成果、權(quán)威性的科學(xué)評論、引領(lǐng)性的高端綜述，發(fā)表促進(jìn)經(jīng)濟(jì)社會發(fā)展、完善科技管理、優(yōu)化科研環(huán)境、培育科學(xué)文化、促進(jìn)科技創(chuàng)新和科技成果轉(zhuǎn)化的決策咨詢建議。常設(shè)欄目有院士卷首語、科技新聞、科技評論、專稿專題、綜述、論文、政策建議、科技人文等。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.