国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

王耀南院士:大模型,如何成為機(jī)器人的“終極操控中樞”?

0
分享至


原文發(fā)表于《科技導(dǎo)報》2025 年第20 期 《 人工智能大模型推動具身智能無人系統(tǒng)發(fā)展 》

在“十五五”規(guī)劃錨定的未來產(chǎn)業(yè)藍(lán)圖中,具身智能作為人工智能走向物理實踐的關(guān)鍵跨越,正成為驅(qū)動新型工業(yè)化、應(yīng)對社會挑戰(zhàn)的新質(zhì)生產(chǎn)力。

《科技導(dǎo)報》2025年第20期刊發(fā)了我國機(jī)器人技術(shù)與智能控制專家、中國工程院院士王耀南的文章《人工智能大模型推動具身智能無人系統(tǒng)發(fā)展》。本文認(rèn)為,人工智能大模型以其強(qiáng)大的學(xué)習(xí)與泛化能力,為具身智能無人系統(tǒng)注入核心動力,通過處理復(fù)雜多模態(tài)數(shù)據(jù),顯著提升系統(tǒng)的感知、決策與控制智能化水平,賦能產(chǎn)業(yè)升級與科技自立自強(qiáng)。


王耀南(左三)指導(dǎo)學(xué)生

王耀南,現(xiàn)任湖南大學(xué)機(jī)器人視覺感知與控制技術(shù)國家工程研究中心主任,機(jī)器人技術(shù)與智能控制專家、中國圖象圖形學(xué)學(xué)會理事長、中國工程院院士,主要從事智能機(jī)器人感知與控制技術(shù)及工程應(yīng)用的研究。

人工智能大模型推動具身智能無人系統(tǒng)發(fā)展

王耀南

隨著人工智能技術(shù)的快速發(fā)展,具身智能無人系統(tǒng)逐漸成為研究熱點。人工智能大模型技術(shù)的發(fā)展為具身智能無人系統(tǒng)帶來了新的機(jī)遇。具身智能強(qiáng)調(diào)智能體通過與環(huán)境的交互來實現(xiàn)智能行為,而無人系統(tǒng)則擺脫了人類直接操控的限制,能夠自主完成任務(wù)。人工智能大模型的出現(xiàn),為具身智能無人系統(tǒng)的發(fā)展注入了強(qiáng)大動力。大模型具有強(qiáng)大的學(xué)習(xí)能力和泛化能力,能夠處理復(fù)雜的多模態(tài)數(shù)據(jù),為無人系統(tǒng)的感知、決策和控制提供更高效、更智能的解決方案。在當(dāng)今科技競爭日益激烈的背景下,研究人工智能大模型驅(qū)動的具身智能無人系統(tǒng),對于提升國家的科技實力和推動產(chǎn)業(yè)升級具有重要意義。

具身智能無人系統(tǒng)的載體形態(tài)豐富,涵蓋無人機(jī)、無人地面車輛(UGV)、無人水面/水下航行器(USV/UUV)以及各種類型移動機(jī)器人。

  • 在軍事應(yīng)用領(lǐng)域,察打一體無人機(jī)可執(zhí)行戰(zhàn)場偵察、精確打擊任務(wù),有效提升作戰(zhàn)效能并降低人員傷亡風(fēng)險;無人運輸車輛能在生化污染、炮火覆蓋等危險環(huán)境中完成物資投送,保障后勤補給鏈路暢通。

  • 在民用領(lǐng)域,無人配送車通過路徑規(guī)劃算法與環(huán)境感知模塊實現(xiàn)“門到門”貨物自動配送,大幅提升物流末端效率;農(nóng)業(yè)植保無人機(jī)結(jié)合多光譜成像技術(shù)與精準(zhǔn)噴灑系統(tǒng),可完成農(nóng)田長勢監(jiān)測、病蟲害防治等作業(yè),助力農(nóng)業(yè)生產(chǎn)向精準(zhǔn)化、集約化轉(zhuǎn)型;水下無人航行器則可搭載聲學(xué)探測、水質(zhì)分析設(shè)備,開展深海資源勘探、海洋生態(tài)環(huán)境監(jiān)測等任務(wù)。

這些應(yīng)用場景充分驗證了無人系統(tǒng)的價值潛力,而具身智能技術(shù)的融入,將進(jìn)一步突破其功能邊界,實現(xiàn)更復(fù)雜場景下的自主任務(wù)執(zhí)行。

具身智能,其核心思想是智能體需要通過身體與環(huán)境進(jìn)行交互來獲取知識和實現(xiàn)智能行為。早期研究主要集中于結(jié)構(gòu)化環(huán)境中的專用控制算法與運動規(guī)劃方法,實現(xiàn)諸如定點移動、物體抓取等基礎(chǔ)性任務(wù)。隨著深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等人工智能分支的發(fā)展,具身智能的應(yīng)用范圍逐步從工業(yè)機(jī)器人拓展到智能駕駛車輛、無人機(jī)等更為復(fù)雜的無人系統(tǒng),實現(xiàn)了從“結(jié)構(gòu)化環(huán)境中的規(guī)則性任務(wù)”向“半結(jié)構(gòu)化環(huán)境中的多目標(biāo)任務(wù)”的重大跨越。近年來,以ChatGPT、DeepSeek、LLaMA等為代表的大模型技術(shù)爆發(fā)式發(fā)展,推動具身智能進(jìn)入一個全新時代?;谏疃葟?qiáng)化學(xué)習(xí)與環(huán)境交互自學(xué)習(xí)的智能體,能夠通過與環(huán)境的持續(xù)互動自主提煉任務(wù)策略,并借助視覺、語言、力觸等多模態(tài)感知系統(tǒng),實現(xiàn)對動態(tài)環(huán)境的深度理解與快速自適應(yīng),從而顯著提升在未知、非結(jié)構(gòu)化環(huán)境中的系統(tǒng)魯棒性與任務(wù)完成率。

通用基礎(chǔ)大模型是具身智能無人系統(tǒng)的“底層引擎”。通用基礎(chǔ)大模型是AI大模型體系的核心基座,其技術(shù)特征在于通過大規(guī)模無標(biāo)注數(shù)據(jù)預(yù)訓(xùn)練,構(gòu)建跨領(lǐng)域的語言理解、邏輯推理與知識存儲能力。該類模型以Transformer架構(gòu)為核心,通過千億至萬億級參數(shù)規(guī)模實現(xiàn)“知識圖譜+語言理解”的雙重能力,典型代表包括ChatGPT系列、LLaMA系列、DeepSeek及文心一言等。在技術(shù)范式上,通用基礎(chǔ)大模型采用“預(yù)訓(xùn)練-微調(diào)”模式:預(yù)訓(xùn)練階段通過海量文本數(shù)據(jù)學(xué)習(xí)人類語言規(guī)律與世界知識,形成通用語義理解與邏輯推理框架;微調(diào)階段則輸入少量任務(wù)相關(guān)標(biāo)注數(shù)據(jù),快速適配文本生成、智能問答、代碼編寫等特定任務(wù)需求。在具身智能無人系統(tǒng)中,通用基礎(chǔ)大模型承擔(dān)“大腦中樞”職能:

例如,無人車決策系統(tǒng)可基于大模型的邏輯推理能力,解析交通法規(guī)文本、路況描述信息,生成符合人類認(rèn)知的駕駛決策邏輯;服務(wù)機(jī)器人可通過大模型理解復(fù)雜自然語言指令,完成任務(wù)拆解與執(zhí)行指令轉(zhuǎn)化。

多模態(tài)大模型是具身智能無人系統(tǒng)復(fù)雜環(huán)境跨模態(tài)信息交互的“融合橋梁”,其能夠統(tǒng)一處理文本、圖像、音頻、視頻以及各類傳感器(如激光雷達(dá)、毫米波雷達(dá)、慣性測量單元(IMU)等)產(chǎn)生的異構(gòu)數(shù)據(jù),打破不同模態(tài)之間的語義隔閡。在模型結(jié)構(gòu)上,多模態(tài)大模型通常引入模態(tài)對齊模塊,例如跨注意力機(jī)制、特征映射網(wǎng)絡(luò)等,將不同模態(tài)的數(shù)據(jù)嵌入到統(tǒng)一的語義表征空間中,從而實現(xiàn)真正的跨模態(tài)理解與生成能力,例如圖像描述生成、語音指令理解、基于多傳感器融合的環(huán)境狀態(tài)判斷等。這一能力對無人系統(tǒng)在真實世界中的環(huán)境感知與語義建模具有至關(guān)重要的作用。

具身智能大模型是智能無人系統(tǒng)交互控制的“專用大腦”。具身智能大模型是專為“智能體與環(huán)境交互”設(shè)計的技術(shù),其核心特征是將“環(huán)境感知-動作決策-反饋學(xué)習(xí)”融入模型架構(gòu),實現(xiàn)“感知即決策、決策即控制”的端到端能力。與前2類大模型相比,具身智能大模型在訓(xùn)練數(shù)據(jù)上增加了“交互數(shù)據(jù)”(如機(jī)器人的運動軌跡數(shù)據(jù)、無人車的駕駛行為數(shù)據(jù)、人類與環(huán)境的交互數(shù)據(jù)),在架構(gòu)上增加了“動作預(yù)測模塊”和“反饋優(yōu)化模塊”,能夠直接輸出控制信號(如關(guān)節(jié)角度、電機(jī)轉(zhuǎn)速、行駛速度),而非僅生成文本或圖像。具身智能大模型的關(guān)鍵技術(shù)突破在于“實時交互與動態(tài)適應(yīng)”:

例如,人形機(jī)器人在行走時遇到障礙物,模型可在50 ms內(nèi)完成“感知障礙物(視覺+觸覺)—調(diào)整步態(tài)(動作決策)—輸出關(guān)節(jié)控制參數(shù)(控制)”的全流程,且通過實時反饋(如腳底壓力傳感器數(shù)據(jù))不斷優(yōu)化動作,避免摔倒,通過具身大模型,可在凹凸不平的地面行走、上下樓梯、搬運10 kg重物,動作流暢度接近人類。

近年來,人工智能大模型不斷發(fā)展,在具身智能無人系統(tǒng)中也發(fā)揮著越來越多的作用。

  • 首先,在環(huán)境感知方面,大模型能夠融合并處理來自攝像頭、激光雷達(dá)、麥克風(fēng)陣列、IMU等多源異構(gòu)傳感器數(shù)據(jù),通過其在大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練中獲得的強(qiáng)大表征學(xué)習(xí)能力,提取出更具判別性和泛化能力的特征表示,從而顯著提升系統(tǒng)在遮擋、光照變化、天氣干擾等復(fù)雜條件下的感知精度與魯棒性。

  • 其次,在決策與規(guī)劃層面,依托其深厚的常識知識庫和強(qiáng)大的符號推理能力,大模型能夠基于多模態(tài)感知信息,結(jié)合任務(wù)目標(biāo)與上下文語境,快速生成多種可行的行為方案,并對各方案的成本、風(fēng)險與預(yù)期收益進(jìn)行綜合評估,從而輸出最優(yōu)決策序列,實現(xiàn)高效任務(wù)分解與運動規(guī)劃。

  • 第三,在系統(tǒng)適應(yīng)與遷移學(xué)習(xí)方面,大模型憑借良好的泛化特性和少樣本學(xué)習(xí)能力,能夠幫助無人系統(tǒng)快速適應(yīng)新的任務(wù)環(huán)境與操作要求,僅需少量新場景數(shù)據(jù)即可完成模型微調(diào),大幅提升了部署效率與應(yīng)用靈活性。

盡管大模型為具身智能無人系統(tǒng)帶來了革命性進(jìn)展,但是進(jìn)一步發(fā)展仍面臨諸多技術(shù)挑戰(zhàn)。

  • 數(shù)據(jù)安全與隱私保護(hù)是首要問題,無人系統(tǒng)在運行過程中可能采集包括個人身份信息、精確定位數(shù)據(jù)、醫(yī)療記錄在內(nèi)的敏感信息,必須構(gòu)建覆蓋數(shù)據(jù)加密、訪問控制、匿名化處理和合規(guī)審計的全鏈路安全治理體系。

  • 此外,模型的可解釋性與可靠性同樣是亟待突破的瓶頸,由于大模型固有的“黑盒”特性,其決策邏輯往往難以追溯和解釋,這在自動駕駛、手術(shù)機(jī)器人等高可信要求場景中可能帶來難以估量的風(fēng)險,因此需大力發(fā)展可解釋人工智能(XAI)技術(shù),實現(xiàn)決策過程的可視化、可溯源與可驗證。

  • 另一方面,大模型訓(xùn)練與推理所需的高性能計算資源與能源消耗,也限制了其在微型無人機(jī)、便攜機(jī)器人等終端設(shè)備中的部署。為應(yīng)對這一挑戰(zhàn),“邊緣-云”協(xié)同計算架構(gòu)逐漸成為主流解決方案,通過將實時性要求極高的感知與控制任務(wù)部署于邊緣計算節(jié)點,將大規(guī)模數(shù)據(jù)預(yù)處理、模型訓(xùn)練與復(fù)雜推理任務(wù)卸載至云端,從而實現(xiàn)計算資源的高效分配與系統(tǒng)能效的優(yōu)化平衡。

展望未來,人工智能大模型仍將持續(xù)驅(qū)動具身智能無人系統(tǒng)邁向更高水平。

  • 首先,多模態(tài)感知與端到端控制模型的泛化能力將得到進(jìn)一步加強(qiáng),從而顯著提升系統(tǒng)在高度非結(jié)構(gòu)化、動態(tài)開放環(huán)境中的適應(yīng)性與生存能力。

  • 其次,融合模型預(yù)測控制、強(qiáng)化學(xué)習(xí)與仿生控制機(jī)制的新型智能控制框架,將有效增強(qiáng)系統(tǒng)在復(fù)雜動態(tài)場景中的行為泛化能力和抗干擾能力。

  • 第三,“虛實協(xié)同”訓(xùn)練范式將得到更廣泛應(yīng)用,通過高保真物理仿真環(huán)境與世界模型技術(shù),智能體可在虛擬空間中完成大規(guī)模預(yù)訓(xùn)練和策略優(yōu)化,再通過真實世界數(shù)據(jù)進(jìn)行快速微調(diào),從而大幅提升任務(wù)執(zhí)行效率并降低實體訓(xùn)練風(fēng)險。

  • 最后,多智能體協(xié)同與分布式智能將成為重點發(fā)展方向,通過構(gòu)建標(biāo)準(zhǔn)化的智能體協(xié)作協(xié)議,并結(jié)合聯(lián)邦學(xué)習(xí)、同態(tài)加密等隱私計算技術(shù),實現(xiàn)智能體間的高效通信、協(xié)同決策與安全協(xié)作,從而全面拓展具身智能無人系統(tǒng)在低空經(jīng)濟(jì)、智慧城市、智能制造、智慧農(nóng)業(yè)、太空探索、國防安全等重大場景中的應(yīng)用潛力。

文章來 源 : 王耀南. 人工智能大模型推動具身智能無人系統(tǒng)發(fā)展[J]. 科技導(dǎo)報, 2025, 43(20): 1-2 .

內(nèi)容為【科技導(dǎo)報】公眾號原創(chuàng),歡迎轉(zhuǎn)載
白名單回復(fù)后臺「轉(zhuǎn)載」

《科技導(dǎo)報》創(chuàng)刊于1980年,中國科協(xié)學(xué)術(shù)會刊,主要刊登科學(xué)前沿和技術(shù)熱點領(lǐng)域突破性的研究成果、權(quán)威性的科學(xué)評論、引領(lǐng)性的高端綜述,發(fā)表促進(jìn)經(jīng)濟(jì)社會發(fā)展、完善科技管理、優(yōu)化科研環(huán)境、培育科學(xué)文化、促進(jìn)科技創(chuàng)新和科技成果轉(zhuǎn)化的決策咨詢建議。常設(shè)欄目有院士卷首語、科技新聞、科技評論、專稿專題、綜述、論文、政策建議、科技人文等。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

科技導(dǎo)報 incentive-icons
科技導(dǎo)報
中國科協(xié)學(xué)術(shù)會刊
5086文章數(shù) 8340關(guān)注度
往期回顧 全部

專題推薦

洞天福地 花海畢節(jié) 山水饋贈里的“詩與遠(yuǎn)方

無障礙瀏覽 進(jìn)入關(guān)懷版