国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

機(jī)器人長出800個心眼?阿里達(dá)摩院開源具身新大腦,硅谷又坐不住了

0
分享至


新智元報道

編輯:好困 桃子

【新智元導(dǎo)讀】硅谷還在苦等真機(jī)數(shù)據(jù),中國隊已先一步交卷。RynnBrain大腦橫空出世,通用具身智能時刻更近了。

2026年,具身智能的牌桌上早已是短兵相接。

幾乎每周,都有重磅炸彈被扔進(jìn)場內(nèi):

  • 波士頓動力全新Atlas令人驚艷的「360度轉(zhuǎn)頭殺」還在余音繞梁;

  • 1X就祭出了1XWM「世界模型」,讓NEO在腦內(nèi)學(xué)會模擬現(xiàn)實,把視頻生成內(nèi)化為肌肉記憶;

  • 而Figure更是通過下一代神經(jīng)網(wǎng)絡(luò)Helix 02讓Figure 03實現(xiàn)了「全身協(xié)同運動」,行走、操作與平衡從此無縫融合。




在這一堆「秀肌肉」的神仙打架中,到底誰才配得上「最強大腦」?

現(xiàn)實中,干活干一半被打斷,再回頭很容易就會忘記「剛才干哪了」。

比如,這個機(jī)器人正忙著給桌上的食物分類,半路突然殺出一個「請幫我拿個面包」的指令。


只見它立刻「掛起」手頭動作,優(yōu)先把面包遞給人類。


完事后,憑借「任務(wù)棧記憶」瞬間回神,無縫銜接,轉(zhuǎn)頭繼續(xù)處理剩下的水果。


更有意思的是,哪怕你當(dāng)著它的面把盤子移走,它也能實時調(diào)整路徑,堅持「物歸原位」。


如果遇到更棘手的情況呢?

讓機(jī)器人在一堆「硬菜」面前,找出低卡的那一個。

這里,不僅考驗了對常識的理解,還需要用到「中文OCR」能力。

機(jī)器人一眼掃過配料表和文字標(biāo)簽,大腦迅速計算,立馬就能精準(zhǔn)找出最合適的那一個。


難度繼續(xù)升級。

下面是一個典型的「逼死強迫癥」題目:三個面包兩個盤,怎么分?

有趣的是,機(jī)器人憑借著「空間規(guī)劃」與「長程規(guī)劃」的能力,給出了一個絕妙的解法——「疊羅漢」。


最后,就連機(jī)器人版「三仙歸洞」也來了!

把一瓶喝過的礦泉水,在它的面前瘋狂調(diào)換位置。

即便在如此眼花繚亂的變換中,機(jī)器人也能死死鎖住目標(biāo)。

這背后,離不開強大的「物體記憶」與「復(fù)雜視頻理解」能力。


具身智能之戰(zhàn),直面物理世界

放眼硅谷,目前主流有三條技術(shù)路線在角力。

第一條,是VLA(視覺-語言-動作)端到端流派。

Figure、π、Covariant押注的這條路最為火熱,主張用一個模型從感知直通動作。

但這套邏輯有個硬傷:

它極其依賴昂貴的真機(jī)數(shù)據(jù),一旦遇到?jīng)]見過的場景,泛化能力直接斷崖下跌。



第二條,是「世界模型」流派。

它主張從像素級模擬物理世界,讓機(jī)器人在虛擬環(huán)境中大量試錯。

在英偉達(dá)杰出科學(xué)家Jim Fan看來,2026年將是「大世界模型」(LWM)為機(jī)器人乃至多模態(tài)AI奠定基礎(chǔ)的真正元年。


第三個流派,則選擇了另一種思路:

基于本身就具有泛化能力的VLM(視覺-語言模型),進(jìn)一步造出通向物理世界的「具身大腦」。

它不強求一個模型解決所有問題,而是采用了仿生學(xué)的「大小腦」分層架構(gòu):

  • 大腦:引入時空記憶和物理推理,負(fù)責(zé)「運籌帷幄」;

  • 小腦:專注于具體的「沖鋒陷陣」。

這種架構(gòu)巧妙利用了VLM海量數(shù)據(jù)的泛化優(yōu)勢,同時通過「空間定位」讓思考過程落地,解決了以往模型只會在腦子里「空想」的幻覺問題。

開篇一些驚艷演示,正是來自這第三條路線的最新破局者——阿里達(dá)摩院剛剛亮出的RynnBrain。

它讓機(jī)器人首次擁有了時空記憶物理空間推理能力。


實測數(shù)據(jù)顯示,得益于這種分層架構(gòu)的優(yōu)勢:

  • RynnBrain在16項具身評測基準(zhǔn)中,全面超越了Gemini Robotics ER 1.5、Mimo-Embodied、Cosmos Reason 2等前沿模型,部分核心能力提升幅度超30%。


三條路線并非互斥,而是從不同維度逼近真相。

在這場通往通用機(jī)器人的馬拉松里,最優(yōu)解雖未落定,但阿里達(dá)摩院已在無人區(qū)邁出了關(guān)鍵一步。

核心技術(shù)解密

答案沒有捷徑。

要造「大腦」,得先解決一個更基礎(chǔ)、卻也更棘手的問題:如何讓機(jī)器真正「看懂」物理世界?

前傳:為大腦裝上「火眼金睛」

現(xiàn)有的大模型雖然能用詩意的語言描述圖像,卻對物理世界中物體的材質(zhì)(是軟是硬?)、功能(能坐還是能開?)、真實尺度(多高多寬?)完全「摸不透」。

為此,達(dá)摩院與浙大團(tuán)隊打造了一雙極致的「眼睛」——RynnEC。

RynnEC在基礎(chǔ)VLM之上,創(chuàng)新性地引入了專門的區(qū)域編碼器(Region Encoder)和基于SAM2的掩碼解碼器(Mask Decoder)。


這種設(shè)計讓模型不再局限于籠統(tǒng)地「看圖說話」,而是具備了區(qū)域級別的視頻交互能力,能夠精準(zhǔn)鎖定局部物體。

為了訓(xùn)練這雙「眼睛」,團(tuán)隊設(shè)計了一套如同人類認(rèn)知課程般的四階段訓(xùn)練范式,從最基礎(chǔ)的掩碼對齊開始,逐步注入顏色、材質(zhì)等物體屬性知識,再進(jìn)階到距離、方位等空間推理,最后通過指代分割防止遺忘。

經(jīng)過這套嚴(yán)苛課程的「特訓(xùn)」,RynnEC不僅能回答關(guān)于物體屬性的復(fù)雜問題,還能在視頻流中實時生成分割掩碼,真正理解了物理世界的幾何與語義。

RynnBrain正是繼承了RynnEC這雙「火眼金睛」的數(shù)據(jù)和能力,并在此基礎(chǔ)上長出了負(fù)責(zé)邏輯推理和時空規(guī)劃的「大腦」。

以小博大:高效的MoE架構(gòu)

在擁有了極致的感知后,RynnBrain在模型架構(gòu)上選擇了「效率至上」。

它基于Qwen3-VL底座,使用自研RynnScale架構(gòu),讓Dense模型和MOE模型訓(xùn)練加速兩倍。

  • 輸入端支持任意分辨率圖片、多視角圖像和視頻;

  • 輸出端則統(tǒng)一了區(qū)域、軌跡、點集、夾爪位姿和文本等多種具身相關(guān)模態(tài)。

尤其是,MoE架構(gòu)的RynnBrain,僅用3B推理激活參數(shù),性能全面超越Pelican-VL(72B)巨型模型。


這種設(shè)計讓機(jī)器人既擁有大模型的智商,又具備端側(cè)部署所需的快速響應(yīng)能力。

攻克頑疾:解決物理幻覺與健忘

針對傳統(tǒng)大模型在物理世界中「看不準(zhǔn)」和「記不住」的痛點,RynnBrain引入了兩項關(guān)鍵技術(shù):

? 全局時空回溯

具身智能領(lǐng)域中,很多機(jī)器人是「魚的記憶」,看一眼忘一眼。

舉個栗子,讓機(jī)器人去廚房拿可樂,結(jié)果剛轉(zhuǎn)個身,就忘了廚房門在哪,或者忘了剛才看見的可樂在桌子左邊還是右邊。

為此,RynnBrain引入了「全局時空記憶」。

這種能力讓機(jī)器人能夠在完整的歷史記憶中建立起涵蓋空間、位置、事件、軌跡等多維度的三維認(rèn)知表征,而不僅僅是簡單地批處理歷史圖像。

通過這種深度的時空建模,模型能夠在當(dāng)前視野受限的情況下,精準(zhǔn)定位歷史畫面中出現(xiàn)過的物體或目標(biāo)區(qū)域。

甚至在復(fù)雜的動態(tài)環(huán)境中,它還能基于歷史信息預(yù)測運動軌跡,賦予了機(jī)器人一種類似「心眼」的能力,即便轉(zhuǎn)過身去,依然能在腦海中清晰地構(gòu)建出周圍環(huán)境的完整地圖,從而實現(xiàn)可靠的全局回溯。

? 文本與空間交錯推理

大模型最愛「一本正經(jīng)地胡說八道」。在物理世界,這種幻覺是致命的。

RynnBrain拋棄了純文本推理范式,采用了一種「文本與空間定位交錯」的策略。

簡單說就是,「邊說邊指」。

模型在輸出推理文本的過程中,必須將提到的物體或區(qū)域與視頻流中的具體像素位置進(jìn)行強制綁定(Grounding)。

如果模型無法在物理空間中指出它在談?wù)撌裁矗筒粫上鄳?yīng)的文本。

這種「言必有據(jù)」的機(jī)制充當(dāng)了一個嚴(yán)厲的考官,迫使推理過程緊密扎根于物理環(huán)境,從而極大地抑制了純文本模型中常見的物理幻覺問題,確保了每一個指令都是可執(zhí)行、可驗證的。

訓(xùn)練策略:全真數(shù)據(jù)的「暴力美學(xué)」

在訓(xùn)練數(shù)據(jù)上,達(dá)摩院做了一個反直覺的決定:全部使用真實數(shù)據(jù)。

為此,RynnBrain構(gòu)建了龐大的數(shù)據(jù)工程,在預(yù)訓(xùn)練階段,采用了2000萬高質(zhì)量數(shù)據(jù)對。

具體數(shù)據(jù)包括以下四大方面:

  • 通用多模態(tài)數(shù)據(jù):復(fù)用自研Video-Llama 3數(shù)據(jù),并融合LLaVA-OV-SI、LLaVA-Video等多個開源視頻問答數(shù)據(jù)。

  • 具身認(rèn)知數(shù)據(jù):復(fù)用自研RynnEC訓(xùn)練數(shù)據(jù),并引入Sensenova-SI、VSI-590k、Molmo2提高模型的空間理解和動態(tài)計數(shù)能力,以及自生成100萬自我為中心的OCR問答數(shù)據(jù)。

  • 具身定位數(shù)據(jù):五大定位任務(wù)分別標(biāo)注大量視頻和圖像數(shù)據(jù),分別為:物體定位、區(qū)域定位、操作點定位、軌跡定位和夾爪位姿定位。

  • 規(guī)劃數(shù)據(jù):導(dǎo)航和操作兩類數(shù)據(jù),前者使用R2R和RxR數(shù)據(jù)和ScaleVLN的開源數(shù)據(jù),后者數(shù)據(jù)來自O(shè)penX-Embodiment和AGIBot。

視覺數(shù)據(jù)全是真實的,但標(biāo)簽怎么辦?

在這里,達(dá)摩院采用了「AI生成+人工清洗」的策略——

利用Gemini 2.5 Pro生成初步推理鏈,GPT-4o-mini進(jìn)行實體分類,最后由人工對關(guān)鍵物體和區(qū)域進(jìn)行畫框精標(biāo)。

值得注意的是,所有定位結(jié)果都會以結(jié)構(gòu)化格式 : ...; (coordinates) 融入推理文本,從而實現(xiàn)語言與空間的對齊。

這種方法既保證了視覺的「全真」,又保證了文本邏輯的「高智商」。

后訓(xùn)練:能力的「無限擴(kuò)展」

作為基礎(chǔ)底座,在后訓(xùn)練階段,RynnBrain展現(xiàn)了極強的泛化與下游任務(wù)適配能力。

在導(dǎo)航后訓(xùn)練中,團(tuán)隊基于導(dǎo)航SOTA模型StreamVLN的訓(xùn)練數(shù)據(jù),微調(diào)了RynnBrain模型。

在架構(gòu)完全不變的情況下,RynnBrain-Nav導(dǎo)航成功率比原來SOTA提升了2%-3%。

相較于Qwen3-VL,在相同的數(shù)據(jù)下微調(diào),RynnBrain作為基礎(chǔ)模型可以讓導(dǎo)航能力額外提升5%。

這組數(shù)據(jù)有力證明了,RynnBrain在具身相關(guān)任務(wù)中預(yù)訓(xùn)練的作用巨大,拉高了后續(xù)微調(diào)模型的上限。


另外,在操作規(guī)劃任務(wù)中,僅用幾百條數(shù)據(jù)微調(diào),RynnBrain-Plan-30B(A3B)便在域內(nèi)和域外的任務(wù)上全面超越Gemini 3 Pro。

要知道,規(guī)劃任務(wù)通常要求模型,具備極強的預(yù)測能力和場景解析力。

這恰恰充分體現(xiàn)了,論文中「文本與定位交錯」規(guī)劃方式,更適用于復(fù)雜多變的物理世界。


達(dá)摩院的下一步:從大腦到OS

具身智能的賽道上,從不缺重量級玩家。但真正的變量,往往來自沉默的深耕者。

在外界看來,達(dá)摩院似乎是一位新晉選手。

但實際上,早在2023年,這支團(tuán)隊便已在具身智能的深水區(qū)低調(diào)潛行,并構(gòu)建起一套完整的技術(shù)版圖。

達(dá)摩院的野心,遠(yuǎn)不止于模型。

去年8月,達(dá)摩院首度亮劍,開源了具身智能「三大件」:

自研VLA模型 RynnVLA-001-7B 、世界理解模型 RynnEC ,以及機(jī)器人上下文協(xié)議 RynnRCP 。


其中,RynnRCP協(xié)議的戰(zhàn)略意義尤為關(guān)鍵。

它之于具身智能,恰如MCP之于AI智能體——在異構(gòu)的數(shù)據(jù)、模型與機(jī)器人本體之間,構(gòu)筑了一座無縫連接的橋梁。

目前,RynnRCP已成功適配Pi0、GR00T N1.5等熱門模型及SO-100、SO-101等多款機(jī)械臂,生態(tài)朋友圈正在極速擴(kuò)張。

從物理AI到機(jī)器人OS

放眼全球,從科技巨頭到獨角獸,都在涌入「物理AI」這一新戰(zhàn)場。

老黃更是斷言,AI與機(jī)器人的結(jié)合正在醞釀數(shù)萬億美金的機(jī)遇,是無可爭議的下一個前沿。


在這一共識下,達(dá)摩院的路徑異常清晰:先造大腦,再造OS。

一個能感知、推理、決策的具身大腦,是機(jī)器走向自主化的前提;而對硬件的精密控制、平臺級的架構(gòu)支撐、上下游的生態(tài)整合,則是讓大腦落地的軀干。

但這只是鋪墊,達(dá)摩院更長遠(yuǎn)的目標(biāo),是打造一個通用的「機(jī)器人OS」。

正如PC時代的Windows、移動時代的Android,具身智能亟需一個統(tǒng)一的底層系統(tǒng),來承載算法與硬件的復(fù)雜交互。

從昔日的「火眼金睛」,到如今的「具身大腦」,再到未來的「機(jī)器人OS」。

屬于達(dá)摩院的征途,才剛剛拉開序幕。

One More Thing

這一次,達(dá)摩院繼續(xù)秉持極致開源的理念,帶來了重磅更新:

  • 全系列模型開源

包含2B、8B、30B三種參數(shù)規(guī)模的RynnBrain基礎(chǔ)模型,以及針對特定場景的后訓(xùn)練專有模型RynnBrain-Nav(導(dǎo)航)與RynnBrain-Plan-30B(規(guī)劃)等共計7個。

  • 全新評測基準(zhǔn)RynnBrain-Bench

針對具身智能領(lǐng)域在「時空細(xì)粒度」任務(wù)上的空白,RynnBrain-Bench基準(zhǔn)涵蓋物體認(rèn)知、空間認(rèn)知、物體定位、具身點預(yù)測四大關(guān)鍵維度,重點考察模型對記憶視頻序列的細(xì)粒度理解及精準(zhǔn)時空定位能力。


  • 全棧代碼開源

完整的推理與訓(xùn)練代碼,即刻可用。

GitHub:

https://github.com/alibaba-damo-academy/RynnBrain

Hugging Face:

https://huggingface.co/collections/Alibaba-DAMO-Academy/rynnbrain

項目主頁:

https://alibaba-damo-academy.github.io/RynnBrain.github.io/


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
長春市九臺區(qū)政協(xié)原黨組書記、主席于海山接受紀(jì)律審查和監(jiān)察調(diào)查

長春市九臺區(qū)政協(xié)原黨組書記、主席于海山接受紀(jì)律審查和監(jiān)察調(diào)查

極目新聞
2026-02-25 17:18:01
海港衛(wèi)冕無望了,開賽在即,球隊卻接連遭遇3大致命壞消息

海港衛(wèi)冕無望了,開賽在即,球隊卻接連遭遇3大致命壞消息

體壇風(fēng)之子
2026-02-25 07:00:08
彭博社消息,Unity考慮出售中國業(yè)務(wù),估值或超10億美元

彭博社消息,Unity考慮出售中國業(yè)務(wù),估值或超10億美元

游戲干線
2026-02-25 22:04:54
著名專家預(yù)言:試管嬰兒壽命僅40年,那首例試管嬰兒如今怎樣了?

著名專家預(yù)言:試管嬰兒壽命僅40年,那首例試管嬰兒如今怎樣了?

云舟史策
2026-02-20 19:17:08
你永遠(yuǎn)想不到醫(yī)院的八卦能有多炸裂?一件提神醒腦,兩件直接撂倒

你永遠(yuǎn)想不到醫(yī)院的八卦能有多炸裂?一件提神醒腦,兩件直接撂倒

另子維愛讀史
2026-01-22 18:21:09
伊朗退了,敘利亞退了,巴勒斯坦退了,黎巴嫩退了,塞爾維亞退了

伊朗退了,敘利亞退了,巴勒斯坦退了,黎巴嫩退了,塞爾維亞退了

南權(quán)先生
2026-01-29 15:57:27
來不了中國了?苦等4天后,特朗普被“潑了冷水”,中方話里有話

來不了中國了?苦等4天后,特朗普被“潑了冷水”,中方話里有話

觀星賞月
2026-02-25 01:06:25
亡人在陰間最缺什么?孟婆告誡:別只燒紙,這三樣才是真正關(guān)鍵

亡人在陰間最缺什么?孟婆告誡:別只燒紙,這三樣才是真正關(guān)鍵

千秋文化
2025-11-21 09:35:38
女議員惡評谷愛凌:在美國出生+享受自由卻不尊重美國 還敢回到美國

女議員惡評谷愛凌:在美國出生+享受自由卻不尊重美國 還敢回到美國

TVB的四小花
2026-02-25 15:27:35
節(jié)奏不變 商務(wù)部開年出“重拳”!

節(jié)奏不變 商務(wù)部開年出“重拳”!

看看新聞Knews
2026-02-24 22:44:04
排超季后賽首輪賽果:天津女排主場憾負(fù)北京,蘇滬魯三隊橫掃對手

排超季后賽首輪賽果:天津女排主場憾負(fù)北京,蘇滬魯三隊橫掃對手

湘楚風(fēng)云
2026-02-26 01:30:57
貴州妹子在富士康干活,沒事用沒做完的蘋果手機(jī)拍照,拍完忘刪了

貴州妹子在富士康干活,沒事用沒做完的蘋果手機(jī)拍照,拍完忘刪了

百態(tài)人間
2026-02-12 15:29:08
登封中靈山失聯(lián)女子墜亡后續(xù),父親悲痛發(fā)聲,河南網(wǎng)友透露內(nèi)情

登封中靈山失聯(lián)女子墜亡后續(xù),父親悲痛發(fā)聲,河南網(wǎng)友透露內(nèi)情

離離言幾許
2026-02-25 18:44:49
伊朗爆發(fā)抗議游行 高層被斬首削弱控制,伊朗民眾走上街頭

伊朗爆發(fā)抗議游行 高層被斬首削弱控制,伊朗民眾走上街頭

火星人的想法
2025-12-31 06:00:03
除夕前一天,李書福的好搭檔病逝,享年61歲

除夕前一天,李書福的好搭檔病逝,享年61歲

龔進(jìn)輝
2026-02-25 15:07:57
記錄報:普雷斯蒂安尼怒噴歐足聯(lián)可能被追加禁賽+罰款

記錄報:普雷斯蒂安尼怒噴歐足聯(lián)可能被追加禁賽+罰款

懂球帝
2026-02-26 04:57:18
升級版的仙人跳,比戴綠帽子還憋屈

升級版的仙人跳,比戴綠帽子還憋屈

霹靂炮
2026-02-24 22:53:34
2026年的春運,長途大巴結(jié)結(jié)實實給了“智能時代”一記耳光

2026年的春運,長途大巴結(jié)結(jié)實實給了“智能時代”一記耳光

老特有話說
2026-02-09 23:34:10
學(xué)醫(yī)后才懂,腦出血最危險信號,不是頭痛,而是頻繁出現(xiàn)這 4 癥狀

學(xué)醫(yī)后才懂,腦出血最危險信號,不是頭痛,而是頻繁出現(xiàn)這 4 癥狀

王曉愛體彩
2026-02-25 19:13:16
16強賽踢槍手還是拜仁?霍夫曼:我選阿森納,會更有意思一些

16強賽踢槍手還是拜仁?霍夫曼:我選阿森納,會更有意思一些

懂球帝
2026-02-25 16:02:12
2026-02-26 06:32:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14589文章數(shù) 66642關(guān)注度
往期回顧 全部

科技要聞

“機(jī)器人只跳舞,沒什么用”

頭條要聞

醫(yī)生被指未完成創(chuàng)收指標(biāo)被待崗 官方通報

頭條要聞

醫(yī)生被指未完成創(chuàng)收指標(biāo)被待崗 官方通報

體育要聞

勇士爆冷惜敗鵜鶘 梅爾頓28分賽季新高

娛樂要聞

黃曉明新戀情!與小22歲美女同游新加坡

財經(jīng)要聞

上海樓市放大招,地產(chǎn)預(yù)期別太大

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

手機(jī)
本地
游戲
數(shù)碼
軍事航空

手機(jī)要聞

美國配件商發(fā)布iPhone長焦增距鏡:iPhone 17 Pro系列支持24倍變焦

本地新聞

津南好·四時總相宜

《如龍極3》中文配音訪談:中文配音與本地化并非易事

數(shù)碼要聞

三星發(fā)布 Galaxy Buds 4 與 Buds 4 Pro 耳機(jī)產(chǎn)品

軍事要聞

俄烏沖突四周年:和平談判希望渺茫

無障礙瀏覽 進(jìn)入關(guān)懷版