網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

機(jī)器人長出800個心眼？阿里達(dá)摩院開源具身新大腦，硅谷又坐不住了

2026-02-11 19:35:20　來源: 新智元

北京舉報

分享至

新智元報道

編輯：好困桃子

【新智元導(dǎo)讀】硅谷還在苦等真機(jī)數(shù)據(jù)，中國隊已先一步交卷。RynnBrain大腦橫空出世，通用具身智能時刻更近了。

2026年，具身智能的牌桌上早已是短兵相接。

幾乎每周，都有重磅炸彈被扔進(jìn)場內(nèi)：

波士頓動力全新Atlas令人驚艷的「360度轉(zhuǎn)頭殺」還在余音繞梁；
1X就祭出了1XWM「世界模型」，讓NEO在腦內(nèi)學(xué)會模擬現(xiàn)實，把視頻生成內(nèi)化為肌肉記憶；
而Figure更是通過下一代神經(jīng)網(wǎng)絡(luò)Helix 02讓Figure 03實現(xiàn)了「全身協(xié)同運動」，行走、操作與平衡從此無縫融合。

在這一堆「秀肌肉」的神仙打架中，到底誰才配得上「最強大腦」？

現(xiàn)實中，干活干一半被打斷，再回頭很容易就會忘記「剛才干哪了」。

比如，這個機(jī)器人正忙著給桌上的食物分類，半路突然殺出一個「請幫我拿個面包」的指令。

只見它立刻「掛起」手頭動作，優(yōu)先把面包遞給人類。

完事后，憑借「任務(wù)棧記憶」瞬間回神，無縫銜接，轉(zhuǎn)頭繼續(xù)處理剩下的水果。

更有意思的是，哪怕你當(dāng)著它的面把盤子移走，它也能實時調(diào)整路徑，堅持「物歸原位」。

如果遇到更棘手的情況呢？

讓機(jī)器人在一堆「硬菜」面前，找出低卡的那一個。

這里，不僅考驗了對常識的理解，還需要用到「中文OCR」能力。

機(jī)器人一眼掃過配料表和文字標(biāo)簽，大腦迅速計算，立馬就能精準(zhǔn)找出最合適的那一個。

難度繼續(xù)升級。

下面是一個典型的「逼死強迫癥」題目：三個面包兩個盤，怎么分？

有趣的是，機(jī)器人憑借著「空間規(guī)劃」與「長程規(guī)劃」的能力，給出了一個絕妙的解法——「疊羅漢」。

最后，就連機(jī)器人版「三仙歸洞」也來了！

把一瓶喝過的礦泉水，在它的面前瘋狂調(diào)換位置。

即便在如此眼花繚亂的變換中，機(jī)器人也能死死鎖住目標(biāo)。

這背后，離不開強大的「物體記憶」與「復(fù)雜視頻理解」能力。

具身智能之戰(zhàn)，直面物理世界

放眼硅谷，目前主流有三條技術(shù)路線在角力。

第一條，是VLA（視覺-語言-動作）端到端流派。

Figure、π、Covariant押注的這條路最為火熱，主張用一個模型從感知直通動作。

但這套邏輯有個硬傷：

它極其依賴昂貴的真機(jī)數(shù)據(jù)，一旦遇到?jīng)]見過的場景，泛化能力直接斷崖下跌。

第二條，是「世界模型」流派。

它主張從像素級模擬物理世界，讓機(jī)器人在虛擬環(huán)境中大量試錯。

在英偉達(dá)杰出科學(xué)家Jim Fan看來，2026年將是「大世界模型」（LWM）為機(jī)器人乃至多模態(tài)AI奠定基礎(chǔ)的真正元年。

而第三個流派，則選擇了另一種思路：

基于本身就具有泛化能力的VLM（視覺-語言模型），進(jìn)一步造出通向物理世界的「具身大腦」。

它不強求一個模型解決所有問題，而是采用了仿生學(xué)的「大小腦」分層架構(gòu)：

大腦：引入時空記憶和物理推理，負(fù)責(zé)「運籌帷幄」；
小腦：專注于具體的「沖鋒陷陣」。

這種架構(gòu)巧妙利用了VLM海量數(shù)據(jù)的泛化優(yōu)勢，同時通過「空間定位」讓思考過程落地，解決了以往模型只會在腦子里「空想」的幻覺問題。

開篇一些驚艷演示，正是來自這第三條路線的最新破局者——阿里達(dá)摩院剛剛亮出的RynnBrain。

它讓機(jī)器人首次擁有了時空記憶和物理空間推理能力。

實測數(shù)據(jù)顯示，得益于這種分層架構(gòu)的優(yōu)勢：

RynnBrain在16項具身評測基準(zhǔn)中，全面超越了Gemini Robotics ER 1.5、Mimo-Embodied、Cosmos Reason 2等前沿模型，部分核心能力提升幅度超30%。

三條路線并非互斥，而是從不同維度逼近真相。

在這場通往通用機(jī)器人的馬拉松里，最優(yōu)解雖未落定，但阿里達(dá)摩院已在無人區(qū)邁出了關(guān)鍵一步。

核心技術(shù)解密

答案沒有捷徑。

要造「大腦」，得先解決一個更基礎(chǔ)、卻也更棘手的問題：如何讓機(jī)器真正「看懂」物理世界？

前傳：為大腦裝上「火眼金睛」

現(xiàn)有的大模型雖然能用詩意的語言描述圖像，卻對物理世界中物體的材質(zhì)（是軟是硬？）、功能（能坐還是能開？）、真實尺度（多高多寬？）完全「摸不透」。

為此，達(dá)摩院與浙大團(tuán)隊打造了一雙極致的「眼睛」——RynnEC。

RynnEC在基礎(chǔ)VLM之上，創(chuàng)新性地引入了專門的區(qū)域編碼器（Region Encoder）和基于SAM2的掩碼解碼器（Mask Decoder）。

這種設(shè)計讓模型不再局限于籠統(tǒng)地「看圖說話」，而是具備了區(qū)域級別的視頻交互能力，能夠精準(zhǔn)鎖定局部物體。

為了訓(xùn)練這雙「眼睛」，團(tuán)隊設(shè)計了一套如同人類認(rèn)知課程般的四階段訓(xùn)練范式，從最基礎(chǔ)的掩碼對齊開始，逐步注入顏色、材質(zhì)等物體屬性知識，再進(jìn)階到距離、方位等空間推理，最后通過指代分割防止遺忘。

經(jīng)過這套嚴(yán)苛課程的「特訓(xùn)」，RynnEC不僅能回答關(guān)于物體屬性的復(fù)雜問題，還能在視頻流中實時生成分割掩碼，真正理解了物理世界的幾何與語義。

RynnBrain正是繼承了RynnEC這雙「火眼金睛」的數(shù)據(jù)和能力，并在此基礎(chǔ)上長出了負(fù)責(zé)邏輯推理和時空規(guī)劃的「大腦」。

以小博大：高效的MoE架構(gòu)

在擁有了極致的感知后，RynnBrain在模型架構(gòu)上選擇了「效率至上」。

它基于Qwen3-VL底座，使用自研RynnScale架構(gòu)，讓Dense模型和MOE模型訓(xùn)練加速兩倍。

輸入端支持任意分辨率圖片、多視角圖像和視頻；
輸出端則統(tǒng)一了區(qū)域、軌跡、點集、夾爪位姿和文本等多種具身相關(guān)模態(tài)。

尤其是，MoE架構(gòu)的RynnBrain，僅用3B推理激活參數(shù)，性能全面超越Pelican-VL（72B）巨型模型。

這種設(shè)計讓機(jī)器人既擁有大模型的智商，又具備端側(cè)部署所需的快速響應(yīng)能力。

攻克頑疾：解決物理幻覺與健忘

針對傳統(tǒng)大模型在物理世界中「看不準(zhǔn)」和「記不住」的痛點，RynnBrain引入了兩項關(guān)鍵技術(shù)：

? 全局時空回溯

具身智能領(lǐng)域中，很多機(jī)器人是「魚的記憶」，看一眼忘一眼。

舉個栗子，讓機(jī)器人去廚房拿可樂，結(jié)果剛轉(zhuǎn)個身，就忘了廚房門在哪，或者忘了剛才看見的可樂在桌子左邊還是右邊。

為此，RynnBrain引入了「全局時空記憶」。

這種能力讓機(jī)器人能夠在完整的歷史記憶中建立起涵蓋空間、位置、事件、軌跡等多維度的三維認(rèn)知表征，而不僅僅是簡單地批處理歷史圖像。

通過這種深度的時空建模，模型能夠在當(dāng)前視野受限的情況下，精準(zhǔn)定位歷史畫面中出現(xiàn)過的物體或目標(biāo)區(qū)域。

甚至在復(fù)雜的動態(tài)環(huán)境中，它還能基于歷史信息預(yù)測運動軌跡，賦予了機(jī)器人一種類似「心眼」的能力，即便轉(zhuǎn)過身去，依然能在腦海中清晰地構(gòu)建出周圍環(huán)境的完整地圖，從而實現(xiàn)可靠的全局回溯。

? 文本與空間交錯推理

大模型最愛「一本正經(jīng)地胡說八道」。在物理世界，這種幻覺是致命的。

RynnBrain拋棄了純文本推理范式，采用了一種「文本與空間定位交錯」的策略。

簡單說就是，「邊說邊指」。

模型在輸出推理文本的過程中，必須將提到的物體或區(qū)域與視頻流中的具體像素位置進(jìn)行強制綁定（Grounding）。

如果模型無法在物理空間中指出它在談?wù)撌裁矗筒粫上鄳?yīng)的文本。

這種「言必有據(jù)」的機(jī)制充當(dāng)了一個嚴(yán)厲的考官，迫使推理過程緊密扎根于物理環(huán)境，從而極大地抑制了純文本模型中常見的物理幻覺問題，確保了每一個指令都是可執(zhí)行、可驗證的。

訓(xùn)練策略：全真數(shù)據(jù)的「暴力美學(xué)」

在訓(xùn)練數(shù)據(jù)上，達(dá)摩院做了一個反直覺的決定：全部使用真實數(shù)據(jù)。

為此，RynnBrain構(gòu)建了龐大的數(shù)據(jù)工程，在預(yù)訓(xùn)練階段，采用了2000萬高質(zhì)量數(shù)據(jù)對。

具體數(shù)據(jù)包括以下四大方面：

通用多模態(tài)數(shù)據(jù)：復(fù)用自研Video-Llama 3數(shù)據(jù)，并融合LLaVA-OV-SI、LLaVA-Video等多個開源視頻問答數(shù)據(jù)。

具身認(rèn)知數(shù)據(jù)：復(fù)用自研RynnEC訓(xùn)練數(shù)據(jù)，并引入Sensenova-SI、VSI-590k、Molmo2提高模型的空間理解和動態(tài)計數(shù)能力，以及自生成100萬自我為中心的OCR問答數(shù)據(jù)。

具身定位數(shù)據(jù)：五大定位任務(wù)分別標(biāo)注大量視頻和圖像數(shù)據(jù)，分別為：物體定位、區(qū)域定位、操作點定位、軌跡定位和夾爪位姿定位。

規(guī)劃數(shù)據(jù)：導(dǎo)航和操作兩類數(shù)據(jù)，前者使用R2R和RxR數(shù)據(jù)和ScaleVLN的開源數(shù)據(jù)，后者數(shù)據(jù)來自O(shè)penX-Embodiment和AGIBot。

視覺數(shù)據(jù)全是真實的，但標(biāo)簽怎么辦？

在這里，達(dá)摩院采用了「AI生成+人工清洗」的策略——

利用Gemini 2.5 Pro生成初步推理鏈，GPT-4o-mini進(jìn)行實體分類，最后由人工對關(guān)鍵物體和區(qū)域進(jìn)行畫框精標(biāo)。

值得注意的是，所有定位結(jié)果都會以結(jié)構(gòu)化格式 : ...; (coordinates) 融入推理文本，從而實現(xiàn)語言與空間的對齊。

這種方法既保證了視覺的「全真」，又保證了文本邏輯的「高智商」。

后訓(xùn)練：能力的「無限擴(kuò)展」

作為基礎(chǔ)底座，在后訓(xùn)練階段，RynnBrain展現(xiàn)了極強的泛化與下游任務(wù)適配能力。

在導(dǎo)航后訓(xùn)練中，團(tuán)隊基于導(dǎo)航SOTA模型StreamVLN的訓(xùn)練數(shù)據(jù)，微調(diào)了RynnBrain模型。

在架構(gòu)完全不變的情況下，RynnBrain-Nav導(dǎo)航成功率比原來SOTA提升了2%-3%。

相較于Qwen3-VL，在相同的數(shù)據(jù)下微調(diào)，RynnBrain作為基礎(chǔ)模型可以讓導(dǎo)航能力額外提升5%。

這組數(shù)據(jù)有力證明了，RynnBrain在具身相關(guān)任務(wù)中預(yù)訓(xùn)練的作用巨大，拉高了后續(xù)微調(diào)模型的上限。

另外，在操作規(guī)劃任務(wù)中，僅用幾百條數(shù)據(jù)微調(diào)，RynnBrain-Plan-30B(A3B)便在域內(nèi)和域外的任務(wù)上全面超越Gemini 3 Pro。

要知道，規(guī)劃任務(wù)通常要求模型，具備極強的預(yù)測能力和場景解析力。

這恰恰充分體現(xiàn)了，論文中「文本與定位交錯」規(guī)劃方式，更適用于復(fù)雜多變的物理世界。

達(dá)摩院的下一步：從大腦到OS

具身智能的賽道上，從不缺重量級玩家。但真正的變量，往往來自沉默的深耕者。

在外界看來，達(dá)摩院似乎是一位新晉選手。

但實際上，早在2023年，這支團(tuán)隊便已在具身智能的深水區(qū)低調(diào)潛行，并構(gòu)建起一套完整的技術(shù)版圖。

達(dá)摩院的野心，遠(yuǎn)不止于模型。

去年8月，達(dá)摩院首度亮劍，開源了具身智能「三大件」：

自研VLA模型 RynnVLA-001-7B 、世界理解模型 RynnEC ，以及機(jī)器人上下文協(xié)議 RynnRCP 。

其中，RynnRCP協(xié)議的戰(zhàn)略意義尤為關(guān)鍵。

它之于具身智能，恰如MCP之于AI智能體——在異構(gòu)的數(shù)據(jù)、模型與機(jī)器人本體之間，構(gòu)筑了一座無縫連接的橋梁。

目前，RynnRCP已成功適配Pi0、GR00T N1.5等熱門模型及SO-100、SO-101等多款機(jī)械臂，生態(tài)朋友圈正在極速擴(kuò)張。

從物理AI到機(jī)器人OS

放眼全球，從科技巨頭到獨角獸，都在涌入「物理AI」這一新戰(zhàn)場。

老黃更是斷言，AI與機(jī)器人的結(jié)合正在醞釀數(shù)萬億美金的機(jī)遇，是無可爭議的下一個前沿。

在這一共識下，達(dá)摩院的路徑異常清晰：先造大腦，再造OS。

一個能感知、推理、決策的具身大腦，是機(jī)器走向自主化的前提；而對硬件的精密控制、平臺級的架構(gòu)支撐、上下游的生態(tài)整合，則是讓大腦落地的軀干。

但這只是鋪墊，達(dá)摩院更長遠(yuǎn)的目標(biāo)，是打造一個通用的「機(jī)器人OS」。

正如PC時代的Windows、移動時代的Android，具身智能亟需一個統(tǒng)一的底層系統(tǒng)，來承載算法與硬件的復(fù)雜交互。

從昔日的「火眼金睛」，到如今的「具身大腦」，再到未來的「機(jī)器人OS」。

屬于達(dá)摩院的征途，才剛剛拉開序幕。

One More Thing

這一次，達(dá)摩院繼續(xù)秉持極致開源的理念，帶來了重磅更新：

全系列模型開源

包含2B、8B、30B三種參數(shù)規(guī)模的RynnBrain基礎(chǔ)模型，以及針對特定場景的后訓(xùn)練專有模型RynnBrain-Nav（導(dǎo)航）與RynnBrain-Plan-30B（規(guī)劃）等共計7個。

全新評測基準(zhǔn)RynnBrain-Bench

針對具身智能領(lǐng)域在「時空細(xì)粒度」任務(wù)上的空白，RynnBrain-Bench基準(zhǔn)涵蓋物體認(rèn)知、空間認(rèn)知、物體定位、具身點預(yù)測四大關(guān)鍵維度，重點考察模型對記憶視頻序列的細(xì)粒度理解及精準(zhǔn)時空定位能力。

全棧代碼開源

完整的推理與訓(xùn)練代碼，即刻可用。

GitHub:

https://github.com/alibaba-damo-academy/RynnBrain

Hugging Face:

https://huggingface.co/collections/Alibaba-DAMO-Academy/rynnbrain

項目主頁：

https://alibaba-damo-academy.github.io/RynnBrain.github.io/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.