智源新具身智能大腦來了！拿下多個SOTA，讓機器人看懂3D世界，做事更靠譜

2026-01-28 10:27:22　來源: 機器人前瞻

北京舉報

分享至

機器人前瞻（公眾號：robot_pro）
作者程茜
編輯漠影

機器人前瞻1月27日報道，昨日晚間，智源研究院正式發(fā)布新一代具身智能大腦基礎(chǔ)模型RoboBrain 2.5，該模型在空間推理與時序價值估計的多項基準測試中取得SOTA。這一模型的兩大升級點為，空間定位更精準，以及執(zhí)行過程實時反饋以強化操作穩(wěn)定性。

對應(yīng)到技術(shù)細節(jié)就是精確3D空間推理（Precise 3D Spatial Reasoning）與稠密時序價值預(yù)測（Dense Temporal Value Estimation）。

可以看到在下面的空間關(guān)系推理案例中，搭載RoboBrain 2.5模型的機械臂準確判斷了離相機最近的盤子、左邊的蘋果是哪個，然后對運動路徑進行規(guī)劃完成操作。

具體來看，RoboBrain 2.5在空間感知和推理能力，以及稠密時序價值方面分別實現(xiàn)了三大升級：

1、空間維度升級：從預(yù)測2D圖像上的坐標(biāo)點升級為預(yù)測3D空間中帶有深度信息的坐標(biāo)點。

2、度量精度升級：從理解相對空間關(guān)系到測量絕對3D空間度量信息，模型能夠精確理解“懸停在上方1～5厘米處等物理約束指令；

3、操作規(guī)劃升級：從預(yù)測拾取和放置的單個目標(biāo)點升級為預(yù)測描述完整操作過程的系列關(guān)鍵點，具備帶有3D絕對度量的空間規(guī)劃能力。

4、密集進度預(yù)測：能夠在不同任務(wù)、視角和形態(tài)之間進行多粒度任務(wù)進度預(yù)測。

5、執(zhí)行狀態(tài)估計：理解任務(wù)目標(biāo)，并在執(zhí)行過程中估計各種狀態(tài)（例如，成功、失敗、錯誤發(fā)生）。

6、賦能VLA強化學(xué)習(xí)：為VLA強化學(xué)習(xí)提供實時、密集的反饋信號和獎勵。僅通過一次演示，在復(fù)雜、細粒度的操作中即可實現(xiàn)95%以上的任務(wù)成功率。

值得一提的是，RoboBrain 2.5已經(jīng)在摩爾線程等多種AI芯片集群上，完成了完整的端到端訓(xùn)練與對齊驗證。智源研究院在Hugging Face上發(fā)布了RoboBrain 2.5-8B檢查點：RoboBrain 2.5-8B-NV和RoboBrain 2.5-8B-MT，這兩個變體具有相同的架構(gòu)和訓(xùn)練數(shù)據(jù)、性能相似，不同之處在于NV在NVIDIA GPU集群上訓(xùn)練，MT在摩爾線程GPU集群上訓(xùn)練。

GitHub地址：https://github.com/FlagOpen/RoboBrain2.5

Hugging Face地址：https://huggingface.co/collections/BAAI/robobrain25

一、雜亂房間準確規(guī)劃運動路徑，長時跟蹤參考信號不偏移

智源研究院放出了不少RoboBrain 2.5的實測演示。

在3D空間推理上，下面展示了RoboBrain 2.5在面向機器人空間軌跡推理的專用評測基準TraceSpatial-Bench的表現(xiàn)，其中黃色遮罩標(biāo)記了目標(biāo)物體，粉色3D框標(biāo)記了正確的末端區(qū)域?？梢钥闯觯琑oboBrain 2.5產(chǎn)生的空間軌跡比通用VLM更準確。

RoboBrain 2.5還可以生成更準確的3D空間軌跡，下面的機械臂遵循該模型生成的3D空間軌跡，成功完成了拿取、移動物體等一系列多樣的操作任務(wù)。

在雜亂場景，該模型也可以進行空間追蹤。

對于稠密時序價值方面的能力升級，研究人員將人類標(biāo)注的參考獎勵、VLAC基線和RoboBrain 2.5沿著相同軌跡進行繪制?？梢钥吹?，RoboBrain 2.5可以做到更忠實地跟蹤參考信號，對錯誤的插入、低位置和錯位進行嚴厲懲罰，并且只在成功完成任務(wù)附近分配高獎勵。

二、兩大技術(shù)升級，讓機器人在三維空間里精準定位

當(dāng)前通用模型有兩個局限性。在空間維度上，模型存在度量盲區(qū)，其雖能理解2D圖像中的目標(biāo)與關(guān)系，卻缺乏將其轉(zhuǎn)化為真實尺度下可執(zhí)行3D軌跡的能力；在時間維度上，多數(shù)模型仍將動作生成簡化為靜態(tài)序列預(yù)測，無法對操作過程中出現(xiàn)的打滑、偏移等動態(tài)變化做出實時評估與調(diào)整，致使長任務(wù)難以穩(wěn)定完成。

為了彌合這一差距，具身智能基礎(chǔ)模型需要將空間感知能力從“2D指點”升級為“精確3D規(guī)劃”，簡言之就是，之前的空間感知能力是在平面圖片上指點，需要升級為在真實三維空間里精準判斷位置、距離、規(guī)劃操作路徑。

基于此，智源研究院提出RoboBrain 2.5，引入兩項增強功能。

首先，研究人員引入了精確3D空間推理（Precise 3D Spatial Reasoning）框架。

機器人通常需要根據(jù)日益復(fù)雜且空間受限的指令執(zhí)行動作，如讓機器人“用噴壺從左到右給花朵澆水，在每朵花上方1～5厘米處懸?！?，但目前VLA模型難以勝任此類任務(wù)。

因此需要為其生成3D位置序列，來指導(dǎo)機器人生成實際動作軌跡，每個推理步驟需要兩個關(guān)鍵組成部分，一是3D空間參照，用于解析空間關(guān)系并精確定位軌跡生成過程中涉及的物體，如識別花朵及其從左到右的順序并確定它們的位置；二是3D空間測量，用于理解與所捕獲場景中軌跡相關(guān)的絕對真實世界度量量，如量化每朵花的實際高度以及其上方1～5厘米的高度。

接著需要進行3D任務(wù)制定，其將三維空間追蹤形式化為，通過視覺語言模型，根據(jù)RGB圖像等視覺輸入和文本指令，預(yù)測一個有序的三維點序列。然后讓其輸出“符合碰撞約束的可執(zhí)行關(guān)鍵點軌跡”，讓機器人具備更強的幾何可行性與動作連貫性。

第二大升級是稠密時序價值預(yù)測（Dense Temporal Value Estimation），可以提供實時、步進感知的進度評估作為時間值反饋，為機器人提供過程監(jiān)督，如當(dāng)前執(zhí)行在哪一步？任務(wù)在有效推進還是發(fā)生偏離、已經(jīng)失??？

為降低長軌跡執(zhí)行中的誤差累積、提升多視角魯棒性，RoboBrain 2.5從三個互補視角生成并融合進度估計信號：增量式（Incremental）精細捕捉局部動態(tài)，但易累積漂移；前向錨定（Forward-anchored）以初始狀態(tài)為全局參照，更穩(wěn)定；后向錨定（Backward-anchored）以目標(biāo)狀態(tài)為參照，對接近完成階段更敏感。

這三個環(huán)節(jié)的融合，可以讓模型得到更具抗漂移能力的價值信號，用于支持長時閉環(huán)執(zhí)行。

與此同時，RoboBrain 2.5還保留了2.0版本的三大核心能力，包括支持具有長時規(guī)劃與閉環(huán)反饋的交互推理、從復(fù)雜指令中進行精確點與 bbox 預(yù)測的空間感知、用于未來軌跡估計的時間感知，以及通過實時結(jié)構(gòu)化記憶構(gòu)建和更新進行場景推理。

三、在英偉達、摩爾線程平臺上訓(xùn)練，多個測試基準達到SOTA

從基準測試的評估結(jié)果來看，在多項空間推理與時序價值估計基準任務(wù)上，RoboBrain 2.5取得了新的SOTA表現(xiàn)。

2D空間推理基準測試的評估結(jié)果顯示，在NVIDIA GPU平臺和摩爾線程MTT GPU平臺上訓(xùn)練的RoboBrain-2.5模型變體均取得了75.82的平均分，相比通用基線和具身基線有提升。

▲RoboBrain 2.5各訓(xùn)練階段的詳細配置

與通用基線相比，RoboBrain-2.5的2D空間推理平均分高于Gemini-3-Pro-Preview、Qwen3-VL-8B-Inst、GPT-5.2。

在更強調(diào)可執(zhí)行性的3D任務(wù)上，RoboBrain 2.5在評估雜亂3D場景中基于度量的多步空間追蹤測試集TraceSpatial上，表現(xiàn)優(yōu)于Gemini-3-Pro-Preview、Qwen3-VL-8B-Inst、GPT-5.2。

此外評估操作進展的精細時間價值估計上，RoboBrain 2.5在多個數(shù)據(jù)測試中，對操作對錯的判斷能力更均衡、更一致，能讓模型更好地邊做邊學(xué)，還能實時發(fā)現(xiàn)并糾正操作中的錯誤。

在工程可擴展性方面，智源研究院基于其眾智FlagOS多芯片統(tǒng)一AI系統(tǒng)軟件棧，推出了面向具身智能的訓(xùn)推一體化多芯片框架FlagOS-Robo。

基于智源研究院推出的面向具身智能的訓(xùn)推一體化多芯片框架FlagOS-Robo，RoboBrain2.5在摩爾線程等多個AI芯片集群上，完成了完整的端到端訓(xùn)練與對齊驗證。

實驗結(jié)果表明，其訓(xùn)練損失值（loss）對齊，訓(xùn)練趨勢一致，最終loss差異為0.62%。

借助FlagOS-Robo，開發(fā)者可以將基于摩爾線程、華為昇騰等各類AI芯片平臺的訓(xùn)練成果，無縫遷移至天數(shù)智芯、英偉達等多種端側(cè)AI芯片平臺進行推理驗證。

四、超千萬高質(zhì)量樣本訓(xùn)練，雙階段漸進訓(xùn)練策略

在訓(xùn)練數(shù)據(jù)上，研究人員為RoboBrain 2.5的訓(xùn)練構(gòu)建了包含約1240萬個高質(zhì)量樣本的統(tǒng)一語料庫，并將其分為三個核心領(lǐng)域：用于魯棒語義感知的通用MLLM數(shù)據(jù)，涵蓋從二維感知到度量感知三維追蹤的空間推理數(shù)據(jù)，用于分層規(guī)劃和密集值估計的時間預(yù)測數(shù)據(jù)。

▲訓(xùn)練數(shù)據(jù)分布圖

在訓(xùn)練策略方面，與RoboBrain 2.0類似，RoboBrain 2.5通過漸進式的雙階段訓(xùn)練策略實現(xiàn)了具身認知能力提升。

訓(xùn)練流程分為兩個不同的階段：通用時空基礎(chǔ)階段建立廣泛的視覺語義、二維空間基礎(chǔ)和開環(huán)規(guī)劃能力；特定時空增強階段，在定量三維空間推理和密集時間值估計方面對模型進行微調(diào)，以確保精確的、度量感知的物理交互。

RoboBrain 2.5先通過大規(guī)模通用時空學(xué)習(xí)搭建“Generalist Brain（通用大腦）”，使其能夠理解多模態(tài)指令、將物體定位在二維空間中，并掌握高級規(guī)劃邏輯。

這一階段的作用是提供一個強魯棒、強泛化的初始化，讓模型先“看得懂、想得通”，為后續(xù)引入更嚴格的物理約束與精確監(jiān)督打下可遷移的通用底座。

第二階段是特定時空增強，重點在于精確的定量推理。

研究人員通過兩條強化路徑把語義推理落到真實動作層面：一方面引入面向度量的3D軌跡學(xué)習(xí)（Metric-Aware 3D Tracing），讓模型從定性空間關(guān)系邁向定量幾何約束，能夠?qū)W習(xí)絕對3D坐標(biāo)、深度軌跡以及可度量距離，從而輸出在真實尺度下可執(zhí)行的操作關(guān)鍵點與軌跡；另一方面升級時序建模為稠密價值估計（Dense Value Estimation），把原先的兩兩比較式時間價值學(xué)習(xí)推進為顯式的Hop/進度預(yù)測，使模型具備可直接用作價值函數(shù)（critic）的在線反饋能力，進而支持策略排序、過程監(jiān)控與錯誤恢復(fù)等閉環(huán)需求。

結(jié)語：四大升級重點，要讓具身智能具備可持續(xù)優(yōu)化能力

在未來的研究中，智源研究院計劃從以下四個主要方向擴展RoboBrain模型系列的功能和效率：

統(tǒng)一生成與理解范式：其目標(biāo)是將RoboBrain打造為融合時空理解與生成能力的統(tǒng)一架構(gòu)，整合圖像、視頻的下一階段預(yù)測能力，使其成為具身世界模型，支撐智能體動作預(yù)模擬，提升復(fù)雜環(huán)境下規(guī)劃的安全性與魯棒性。

在移動操作和人形機器人上的部署：其將廣泛驗證模型，并在各種真實世界平臺上部署模型。研究人員的重點是利用精確的3D空間推理來實現(xiàn)無需訓(xùn)練的操作泛化，同時利用密集時間值估計作為高保真獎勵信號，以在物理世界中驅(qū)動高效的強化學(xué)習(xí)。

可擴展模型系列和專用變體：為了適應(yīng)不同的計算約束和延遲要求，智源研究院計劃發(fā)布一系列具有不同參數(shù)規(guī)模的綜合模型，包括針對邊緣設(shè)備部署和高頻推理優(yōu)化的輕量級版本，以及將架構(gòu)解耦為不同的“指令”（快速執(zhí)行）和“思考”（慢速推理）版本，以平衡響應(yīng)速度和推理深度。

自演化數(shù)據(jù)引擎：其計劃構(gòu)建一個閉環(huán)數(shù)據(jù)引擎，通過利用密集值估計器自動過濾和標(biāo)注大規(guī)模未經(jīng)整理的視頻，使得該模型可以通過自監(jiān)督學(xué)習(xí)迭代改進自身，從而形成持續(xù)提升能力的飛輪效應(yīng)。

與此同時，RoboBrain2.5的技術(shù)突破也揭示了，具身智能規(guī)?；l(fā)展的核心，不僅在于強化推理能力，更關(guān)鍵是實現(xiàn)與物理世界的對齊，以及具備可持續(xù)的閉環(huán)優(yōu)化能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.