国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

研究人員提出并行時(shí)序編碼器架構(gòu),提升人形機(jī)器人訓(xùn)練的穩(wěn)定性

0
分享至

當(dāng)前,人形機(jī)器人正處于由基礎(chǔ)可行性驗(yàn)證向早期應(yīng)用與智能化演進(jìn)的過渡階段。其已具備相對(duì)成熟的能力,包括雙足穩(wěn)定行走、跳躍、轉(zhuǎn)向、多關(guān)節(jié)協(xié)調(diào)控制,以及多模態(tài)感知集成等。這些能力的實(shí)現(xiàn),在很大程度上依賴于先驗(yàn)工程干預(yù)。在硬件層面,設(shè)計(jì)者通過增大足底支撐面積、降低重心、引入冗余結(jié)構(gòu)等手段提升本體的物理穩(wěn)定性;在軟件控制層面,則普遍采用以人類經(jīng)驗(yàn)為核心的控制方法,如 PID 控制、軌跡規(guī)劃、模型預(yù)測(cè)控制等,強(qiáng)化學(xué)習(xí)僅作為優(yōu)化模塊輔助使用。這些方法雖能實(shí)現(xiàn)高性能控制,但對(duì)特定任務(wù)和平臺(tái)高度依賴、泛化能力弱、難以適應(yīng)變化環(huán)境,且對(duì)專家知識(shí)依賴程度高、獲取成本大。

在人形機(jī)器人向智能化演進(jìn)的過程中,一個(gè)核心問題是如何逐步擺脫上述工程依賴,轉(zhuǎn)向更靈活、通用的“學(xué)習(xí)驅(qū)動(dòng)的智能控制”范式。其中,端到端智能控制成為關(guān)鍵研究方向之一,其目標(biāo)是使機(jī)器人能夠從原始感知輸入(如傳感器數(shù)據(jù))直接輸出控制命令(如關(guān)節(jié)力矩或速度),無需顯式建模或人工設(shè)定的控制邏輯。這種方式具有自動(dòng)學(xué)習(xí)復(fù)雜行為的潛力,可更自然地適應(yīng)任務(wù)變化,顯著減少先驗(yàn)知識(shí)對(duì)系統(tǒng)設(shè)計(jì)的限制。

在機(jī)器人領(lǐng)域,Gymnasium 是一個(gè)廣泛使用的強(qiáng)化學(xué)習(xí)環(huán)境工具庫(kù),它為開發(fā)者和研究者提供了標(biāo)準(zhǔn)化的虛擬環(huán)境。Gymnasium 中的 MuJoCo Humanoid 環(huán)境為研究端到端控制提供了理想測(cè)試平臺(tái)。該環(huán)境模擬一個(gè)雙足人形機(jī)器人在平坦地面上行走的任務(wù),是復(fù)雜連續(xù)控制問題中的經(jīng)典強(qiáng)化學(xué)習(xí)基準(zhǔn)。與現(xiàn)實(shí)機(jī)器人不同,仿真模型在結(jié)構(gòu)上有意簡(jiǎn)化,缺乏腳掌、助力機(jī)制和動(dòng)態(tài)平衡輔助裝置,重心較高,穩(wěn)定性較差,從而最大程度減少了硬件層面的工程干預(yù)。這種設(shè)計(jì)使該環(huán)境成為評(píng)估“純策略控制”能力的典型平臺(tái),有助于更直接反映策略本身的智能水平與適應(yīng)能力。

在此環(huán)境中訓(xùn)練出的策略,可通過獎(jiǎng)勵(lì)驅(qū)動(dòng)自動(dòng)學(xué)習(xí)出如髖關(guān)節(jié)協(xié)調(diào)擺動(dòng)以維持平衡、利用上肢輔助緩沖摔倒沖擊、上下肢協(xié)同提速行走等行為。這些能力并非由設(shè)計(jì)者預(yù)設(shè),而是策略在訓(xùn)練過程中自然涌現(xiàn),有效降低了對(duì)人工規(guī)則和模型的依賴,減少了算法層面的工程干預(yù)。

然而,現(xiàn)有端到端策略大多建立在完全可觀測(cè)環(huán)境的假設(shè)之上,即可獲取環(huán)境的完整狀態(tài)。在實(shí)際系統(tǒng)中,機(jī)器人通常處于部分可觀測(cè)狀態(tài),常面臨傳感器受限、觀測(cè)噪聲、信息缺失(如質(zhì)量分布、外力等)等問題。在此背景下,如何在信息不完全的條件下仍實(shí)現(xiàn)高效的控制策略,成為當(dāng)前研究的核心挑戰(zhàn)。

為應(yīng)對(duì)觀測(cè)不全的問題,一些方法引入了遞歸神經(jīng)網(wǎng)絡(luò)(如 RNN、LSTM)以捕捉歷史信息,以及彌補(bǔ)瞬時(shí)觀測(cè)的不足。然而,在高維、連續(xù)控制任務(wù)中,這類方法普遍面臨訓(xùn)練不穩(wěn)定、泛化能力差等難題。例如,在 MuJoCo Humanoid 環(huán)境中,目前尚缺乏在部分觀測(cè)條件下有效的強(qiáng)化學(xué)習(xí)方法。

因此,澳大利亞紐卡斯?fàn)柎髮W(xué)教授陳智勇和團(tuán)隊(duì)在近期一項(xiàng)研究中聚焦于以下問題:在不依賴完整狀態(tài)觀測(cè)的前提下,能否設(shè)計(jì)出一種穩(wěn)定、結(jié)構(gòu)簡(jiǎn)潔、具擴(kuò)展性的策略架構(gòu),以提升人形機(jī)器人在部分可觀測(cè)環(huán)境中的控制能力?研究人員希望通過構(gòu)建新的機(jī)制,使強(qiáng)化學(xué)習(xí)策略能夠從有限的觀測(cè)中提取關(guān)鍵動(dòng)態(tài)信息,從而完成復(fù)雜的運(yùn)動(dòng)控制任務(wù)。該方向的探索將有助于推動(dòng)人形機(jī)器人從依賴結(jié)構(gòu)和規(guī)則的工程化控制體系,邁向更具泛化性和自主性的智能控制系統(tǒng)。


圖 | 陳智勇(來源:陳智勇)

在部分可觀測(cè)環(huán)境中,智能體無法直接獲取完整的環(huán)境狀態(tài),通常需要依賴有限長(zhǎng)度的歷史觀測(cè)來重構(gòu)當(dāng)前狀態(tài)。在可觀性條件滿足時(shí),這種方式可將原本的部分可觀測(cè)馬爾可夫決策過程(POMDP,Partially Observable Markov Decision Process)轉(zhuǎn)化為完全可觀測(cè)的馬爾可夫決策過程(FOMDP,F(xiàn)ully Observable Markov Decision Process)。然而,由于歷史觀測(cè)之間存在大量冗余信息,直接拼接歷史輸入將顯著膨脹狀態(tài)空間維度,增加策略學(xué)習(xí)的復(fù)雜度與不穩(wěn)定性。因此,如何從冗余的歷史觀測(cè)中有效提取關(guān)鍵特征,成為實(shí)現(xiàn)高效策略學(xué)習(xí)的核心挑戰(zhàn)。

針對(duì)該問題,本研究提出了一種并行時(shí)序編碼器架構(gòu),結(jié)合多頭注意力機(jī)制(Multi-Head Attention),對(duì)歷史觀測(cè)序列進(jìn)行高效建模與信息聚合。該方法在不依賴遞歸結(jié)構(gòu)(如 RNN、LSTM)的前提下,能夠從有限歷史中恢復(fù)缺失的狀態(tài)信息,顯著提升策略訓(xùn)練的穩(wěn)定性與最終性能。多頭注意力機(jī)制作為現(xiàn)代深度學(xué)習(xí)的核心結(jié)構(gòu),已經(jīng)廣泛應(yīng)用于自然語(yǔ)言處理、計(jì)算機(jī)視覺、語(yǔ)音識(shí)別與強(qiáng)化學(xué)習(xí)等領(lǐng)域。其基本思想是從多個(gè)子空間維度并行關(guān)注輸入序列的不同部分,從而提取豐富的上下文信息與特征關(guān)聯(lián)。在本研究中,多頭注意力被用于從歷史觀測(cè)中自動(dòng)篩選與當(dāng)前決策最相關(guān)的信息、學(xué)習(xí)時(shí)間依賴性與關(guān)鍵感知特征。


(來源:https://arxiv.org/pdf/2507.18883)

研究人員在 MuJoCo Humanoid 環(huán)境中對(duì)該方法進(jìn)行了系統(tǒng)實(shí)證。該環(huán)境的狀態(tài)空間維度為 348,包含身體各部位的位置、速度、質(zhì)量、慣性參數(shù)、執(zhí)行器力以及外部作用力等信息。實(shí)驗(yàn)結(jié)果表明,即使僅使用原始觀測(cè)的三分之一至三分之二維度,所提出的方法仍可達(dá)到甚至超過完整狀態(tài)輸入下的強(qiáng)化學(xué)習(xí)基線性能(如 TD3)。尤其值得強(qiáng)調(diào)的是,在移除質(zhì)量、慣性與力信息,僅保留約三分之一狀態(tài)維度的設(shè)定下,策略仍能憑借位置與速度等部分觀測(cè)有效建構(gòu)控制模型、快速收斂,并最終超越完整觀測(cè)策略的性能。這也是首次在該環(huán)境的部分可觀測(cè)設(shè)定下,通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)穩(wěn)定有效控制的成功案例。

此外,研究人員進(jìn)一步評(píng)估了該策略在物理參數(shù)變化下的泛化能力。在測(cè)試中,研究人員對(duì)雙手、小腿、大腿、上臂、骨盆和軀干等部位的質(zhì)量進(jìn)行 ±50% 的獨(dú)立擾動(dòng)。結(jié)果顯示,訓(xùn)練策略在多種質(zhì)量配置下依然保持穩(wěn)定性能,展現(xiàn)出良好的魯棒性與適應(yīng)性,驗(yàn)證了其對(duì)物理參數(shù)變化的容忍度與廣泛適用性。

本研究在部分可觀測(cè)條件下提出了一種純學(xué)習(xí)驅(qū)動(dòng)的人形機(jī)器人控制方法,推動(dòng)機(jī)器人從“規(guī)則執(zhí)行”邁向“行為智能”,擺脫對(duì)工程干預(yù)與人類經(jīng)驗(yàn)的依賴,為類腦智能與具身智能方法體系的演進(jìn)提供了有益探索。在實(shí)踐層面,該方法有助于降低對(duì)專家知識(shí)的依賴,提升系統(tǒng)的通用性與自主性。未來,該方法可與大語(yǔ)言模型和多模態(tài)感知系統(tǒng)融合,構(gòu)建具備認(rèn)知、感知與行動(dòng)能力的類人自主體。本研究的最終目標(biāo)不僅在于實(shí)現(xiàn)穩(wěn)定的人形行走控制,更在于建立一種通用、穩(wěn)定、可擴(kuò)展的控制學(xué)習(xí)范式,以應(yīng)對(duì)具備復(fù)雜時(shí)序結(jié)構(gòu)的任務(wù)需求。

陳智勇告訴 DeepTech:“這些工作是我?guī)ьI(lǐng)博士生王吳皓完成的。他于 2023 年獲得瑞典林雪平大學(xué)的碩士學(xué)位,目前是紐卡斯?fàn)柎髮W(xué)二年級(jí)的博士生,展現(xiàn)出極強(qiáng)的學(xué)習(xí)能力和科研潛力。這些成果來源于我們?cè)谧詣?dòng)控制、強(qiáng)化學(xué)習(xí)和機(jī)器人技術(shù)這三個(gè)領(lǐng)域不斷交叉探索的過程,體現(xiàn)了輸出反饋、狀態(tài)估計(jì)和自適應(yīng)控制等經(jīng)典控制理念在強(qiáng)化學(xué)習(xí)框架下的融合與演化,并成功應(yīng)用于人形機(jī)器人平臺(tái)。”

本研究主要聚焦于算法層面,提出了一種在部分可觀測(cè)條件下實(shí)現(xiàn)穩(wěn)定人形機(jī)器人控制的純學(xué)習(xí)方法。下一步,研究人員將繼續(xù)拓展該算法框架,進(jìn)一步提升其性能與泛化能力,并在更具多樣性的人形機(jī)器人模型中進(jìn)行系統(tǒng)評(píng)估,逐步推廣至其他類型的高維連續(xù)控制環(huán)境。同時(shí),研究人員也計(jì)劃推動(dòng)該方法向現(xiàn)實(shí)系統(tǒng)遷移,探索其在真實(shí)人形機(jī)器人平臺(tái)上的部署與驗(yàn)證可行性。目前,現(xiàn)實(shí)人形機(jī)器人在關(guān)鍵控制環(huán)節(jié)仍高度依賴工程化干預(yù)、人類經(jīng)驗(yàn)和手動(dòng)調(diào)參。研究人員希望本研究能夠?yàn)槎说蕉藢W(xué)習(xí)控制在實(shí)際機(jī)器人系統(tǒng)中的落地應(yīng)用提供算法基礎(chǔ)與技術(shù)支持,進(jìn)而推動(dòng)人形機(jī)器人向更高自主性、更低人工依賴的方向演進(jìn)。

參考資料:

https://arxiv.org/pdf/2507.18883

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
泰軍機(jī)被擊落,柬埔寨電子戰(zhàn)部隊(duì)立大功?

泰軍機(jī)被擊落,柬埔寨電子戰(zhàn)部隊(duì)立大功?

烽火觀天下
2025-12-19 21:51:12
賀子珍回國(guó)后想再婚,詢問女兒意見,李敏喊出2個(gè)字,她大哭放棄

賀子珍回國(guó)后想再婚,詢問女兒意見,李敏喊出2個(gè)字,她大哭放棄

阿器談史
2025-12-18 10:41:18
泰軍炸掉詐騙園區(qū)、器官移植中心,洪森為何氣急敗壞?

泰軍炸掉詐騙園區(qū)、器官移植中心,洪森為何氣急敗壞?

胡嚴(yán)亂語(yǔ)
2025-12-16 20:33:51
伊朗是如何在國(guó)際上“撿漏”飛機(jī)的?

伊朗是如何在國(guó)際上“撿漏”飛機(jī)的?

航空筆記
2025-12-19 20:05:03
錢再多有什么用?58歲身家過億的江珊,每天為27歲女兒操碎了心

錢再多有什么用?58歲身家過億的江珊,每天為27歲女兒操碎了心

阿廢冷眼觀察所
2025-12-19 14:19:39
殺豬盤新套路:先讓你賺錢,再掏空你全部身家

殺豬盤新套路:先讓你賺錢,再掏空你全部身家

流蘇晚晴
2025-12-17 18:10:58
明日冬至,牢記:1不洗,2不送,3不穿,4要吃,迎祥納福交好運(yùn)

明日冬至,牢記:1不洗,2不送,3不穿,4要吃,迎祥納福交好運(yùn)

小茉莉美食記
2025-12-20 01:10:03
上海著名百貨商場(chǎng)官宣改名、啟動(dòng)不停業(yè)改造!屋頂觀景平臺(tái)目測(cè)要火

上海著名百貨商場(chǎng)官宣改名、啟動(dòng)不停業(yè)改造!屋頂觀景平臺(tái)目測(cè)要火

新民晚報(bào)
2025-12-19 19:28:59
親美的下場(chǎng),再現(xiàn)南北分裂危機(jī),或?qū)⒈瘎≈匮荩蟹竭€會(huì)出手嗎

親美的下場(chǎng),再現(xiàn)南北分裂危機(jī),或?qū)⒈瘎≈匮?,中方還會(huì)出手嗎

小俎娛樂
2025-12-20 03:56:09
杜蘭特真怒了!甩手跺腳不滿申京,死亡凝視烏度卡,沉默震耳欲聾

杜蘭特真怒了!甩手跺腳不滿申京,死亡凝視烏度卡,沉默震耳欲聾

嘴炮體壇
2025-12-19 17:37:59
傅作義拎著三斤黃金去面見毛澤東,主席說:“金子你拿回去,槍交出來!”

傅作義拎著三斤黃金去面見毛澤東,主席說:“金子你拿回去,槍交出來!”

老杉說歷史
2025-12-17 19:19:12
1994 年,曾獲一等功的女志愿軍因重病住院,醫(yī)藥費(fèi)耗盡了兒女的所有積蓄還欠了外債,無奈之下他們找到部隊(duì),急切地哀求:“救救俺娘吧”

1994 年,曾獲一等功的女志愿軍因重病住院,醫(yī)藥費(fèi)耗盡了兒女的所有積蓄還欠了外債,無奈之下他們找到部隊(duì),急切地哀求:“救救俺娘吧”

史海孤雁
2025-12-13 16:17:09
沒有商量余地,中國(guó)直接收回,17萬(wàn)日本人淚奔,高市闖禍了!

沒有商量余地,中國(guó)直接收回,17萬(wàn)日本人淚奔,高市闖禍了!

來科點(diǎn)譜
2025-12-20 09:02:35
世體:格瓦迪奧爾和巴斯托尼是巴薩補(bǔ)強(qiáng)中衛(wèi)的選擇

世體:格瓦迪奧爾和巴斯托尼是巴薩補(bǔ)強(qiáng)中衛(wèi)的選擇

懂球帝
2025-12-20 14:38:19
演員張澍:許亞軍為她放棄買第二套房子,何晴兒子對(duì)她稱呼太有愛

演員張澍:許亞軍為她放棄買第二套房子,何晴兒子對(duì)她稱呼太有愛

娛說瑜悅
2025-12-18 17:20:46
U15國(guó)足轟東亞杯首球!吳比樂突破造點(diǎn),潘朝偉點(diǎn)球破門

U15國(guó)足轟東亞杯首球!吳比樂突破造點(diǎn),潘朝偉點(diǎn)球破門

奧拜爾
2025-12-20 15:33:06
高志凱教授這次直接掀桌了,他直言道:非洲的白嫖時(shí)代必須結(jié)束!

高志凱教授這次直接掀桌了,他直言道:非洲的白嫖時(shí)代必須結(jié)束!

詩(shī)意世界
2025-12-19 11:12:21
清華大學(xué)最新研究:補(bǔ)充這種維生素,竟能重啟抗癌T細(xì)胞,顯著抑制腫瘤生長(zhǎng)

清華大學(xué)最新研究:補(bǔ)充這種維生素,竟能重啟抗癌T細(xì)胞,顯著抑制腫瘤生長(zhǎng)

醫(yī)諾維
2025-12-20 12:47:12
臺(tái)北傷人案嫌疑人疑有同伙,有網(wǎng)帖稱下一個(gè)襲擊目標(biāo)高雄車站

臺(tái)北傷人案嫌疑人疑有同伙,有網(wǎng)帖稱下一個(gè)襲擊目標(biāo)高雄車站

現(xiàn)代快報(bào)
2025-12-20 16:53:15
《老舅》二胖長(zhǎng)大變瘦變帥了,還娶華為二公主,可憐的他成了贏家

《老舅》二胖長(zhǎng)大變瘦變帥了,還娶華為二公主,可憐的他成了贏家

荒野老五
2025-12-19 15:35:23
2025-12-20 17:47:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16016文章數(shù) 514413關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來

頭條要聞

27歲海歸女兒被鄰居殺害兇手被判死緩 母親將申請(qǐng)抗訴

頭條要聞

27歲海歸女兒被鄰居殺害兇手被判死緩 母親將申請(qǐng)抗訴

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

戚薇女兒大變樣,10歲就進(jìn)入“尷尬期”

財(cái)經(jīng)要聞

求解“地方財(cái)政困難”

汽車要聞

嵐圖推進(jìn)L3量產(chǎn)測(cè)試 已完成11萬(wàn)公里實(shí)際道路驗(yàn)證

態(tài)度原創(chuàng)

親子
數(shù)碼
房產(chǎn)
時(shí)尚
游戲

親子要聞

順產(chǎn)失敗緊急開刀!TVB女星患腺肌瘤,胎兒臍帶纏頸一度心率不正

數(shù)碼要聞

華擎推出RX 9070 XT Taichi白色顯卡,自帶2英寸LCD小屏

房產(chǎn)要聞

廣州有態(tài)度,一座國(guó)際化社區(qū)給出的城市答案

今年冬天流行的“露襪”穿法,時(shí)髦又減齡!

《遺產(chǎn):鋼鐵與巫術(shù)》改名1月正式推出 PvPvE撤退

無障礙瀏覽 進(jìn)入關(guān)懷版