国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

邱錫鵬團(tuán)隊(duì)新作:讓機(jī)器人學(xué)會(huì)「察言觀色」

0
分享至



跳出VLA框架限制,具身全模態(tài)模型來(lái)了。

作者丨齊鋮湧

編輯丨馬曉寧

人類究竟需要什么樣的具身智能?

先來(lái)回答一道閱讀理解題:

在一個(gè)家庭場(chǎng)景中,作為一個(gè)非常聰慧的家庭機(jī)器人,你聽(tīng)到孩子和媽媽展開(kāi)了一段對(duì)話:

孩子:媽,我渴了

媽媽:冰箱里有橙汁和可樂(lè)

孩子不太情愿地說(shuō):呃,橙汁······(非常排斥的語(yǔ)氣)

這時(shí),孩子看向了你,作為機(jī)智的機(jī)器人,你應(yīng)該怎么做?

顯然,你聽(tīng)出了孩子不想喝酸酸的橙汁,如此機(jī)智聰慧的你,肯定會(huì)主動(dòng)問(wèn)孩子:那我給你拿一罐肥仔快樂(lè)水?


這個(gè)小劇場(chǎng),不是段子,而是出現(xiàn)在一篇嚴(yán)肅論文里的內(nèi)容。

最近,來(lái)自復(fù)旦大學(xué)、上海創(chuàng)智學(xué)院及新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)發(fā)布了一個(gè)全新的操作框架 RoboOmni ,讓機(jī)器人學(xué)會(huì)了“察言觀色”。


https://arxiv.org/pdf/2510.23763

RoboOmni: Proactive Robot Manipulation in Omni-modal Context

01
傳統(tǒng) VLA 帶來(lái)的具身局限:

極度依賴「顯式指令」

過(guò)去一段時(shí)間,多模態(tài)大語(yǔ)言模型(MLLMs)的發(fā)展,推動(dòng)了VLA(視覺(jué)-語(yǔ)言-動(dòng)作)模型的快速繁榮,也給機(jī)器人領(lǐng)域帶來(lái)了巨大的變化。

盡管 VLA(視覺(jué)-語(yǔ)言-動(dòng)作)范式愈發(fā)成熟,但依舊存在一個(gè)巨大的局限性:

“機(jī)器人的推理能力,極度依賴「顯式指令」”。

而在現(xiàn)實(shí)世界交互中,人類很少直接發(fā)出指令。有效的協(xié)作往往需要機(jī)器人主動(dòng)推斷人類的意圖。

比如,大部分機(jī)器人只能理解 “從冰箱里拿出可樂(lè)放到餐桌上” ,或者“打開(kāi)冰箱門,取出紅色罐狀物體,然后關(guān)上冰箱門,再將紅色罐狀物給我”這樣的指令。

但大部分現(xiàn)實(shí)場(chǎng)景中,人類卻經(jīng)常發(fā)出“隱式指令”,比如“呃,橙汁······(非常排斥的語(yǔ)氣)”。

于是,復(fù)旦大學(xué)、上海創(chuàng)智學(xué)院及新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)發(fā)布引入了跨模態(tài)情境指令,以此創(chuàng)造了一個(gè)新的場(chǎng)景:從口語(yǔ)對(duì)話、環(huán)境聲音和視覺(jué)提示中推導(dǎo)出來(lái)的場(chǎng)景,而不是顯式命令。

為了應(yīng)對(duì)這一新場(chǎng)景,研究團(tuán)隊(duì)提出了 RoboOmni,這是一個(gè)基于端到端全模態(tài) LLMs 的感知者-思考者-說(shuō)話者-執(zhí)行者框架,它統(tǒng)一了意圖識(shí)別、交互確認(rèn)和動(dòng)作執(zhí)行。

仿真和現(xiàn)實(shí)環(huán)境中的實(shí)驗(yàn)表明,RoboOmni 在成功率、推理速度、意圖識(shí)別和主動(dòng)輔助方面超越了基于文本和 ASR 的基線。

這樣的表現(xiàn),讓我們對(duì)真正的智能有了新的期待。

02
智能與否,在于機(jī)器人能否聽(tīng)出

“話里有話”

在這項(xiàng)研究里,團(tuán)隊(duì)提出了一個(gè)關(guān)鍵的問(wèn)題:

“機(jī)器人能否整合跨模態(tài)上下文,包括語(yǔ)音、環(huán)境音頻和視覺(jué)觀察,以主動(dòng)推斷和驗(yàn)證用戶意圖?

想要做出主動(dòng)推斷,機(jī)器人必須從音頻和視覺(jué)觀察中推斷隱含意圖,也就是“話里的話”。

但現(xiàn)有數(shù)據(jù)集缺乏這種模態(tài)組合(大多數(shù)缺乏音頻模態(tài))以及意圖推理所需的推斷指令。

為解決這一差距,團(tuán)隊(duì)引入了 OmniAction。RoboOmni 融合了聽(tīng)覺(jué)和視覺(jué)信號(hào),以實(shí)現(xiàn)魯棒的意圖識(shí)別,同時(shí)支持直接語(yǔ)音交互。

并且,為了解決機(jī)器人操作中主動(dòng)意圖識(shí)別缺乏訓(xùn)練數(shù)據(jù)的問(wèn)題,團(tuán)隊(duì)構(gòu)建了 OmniAction 大規(guī)模情境指令數(shù)據(jù)集,包含 140k多模態(tài)樣本、5 千多名說(shuō)話人、2.4k事件聲音、640 個(gè)背景和六種情境指令類型。


OmniAction 數(shù)據(jù)集構(gòu)建流程概述及示例

在語(yǔ)料庫(kù)的基礎(chǔ)上,RoboOmni 融入了六種上下文指令類型。

包括身份線索(比如是孩子想喝東西,不是媽媽),非語(yǔ)言線索,重疊語(yǔ)音,情感線索(比如“呃,橙汁太酸了”暗示要求提供替代品)等等。

基于以上, RoboOmni 的開(kāi)發(fā)團(tuán)隊(duì),建立了一個(gè)用于操控的、端到端多模態(tài)框架。

這意味著,在文章開(kāi)始的案例中,從最開(kāi)始意圖識(shí)別(聽(tīng)媽媽和孩子對(duì)話)、交互確認(rèn)(是否需要可樂(lè))和動(dòng)作執(zhí)行(拿可樂(lè)),都包含在內(nèi),從而形成了“感知-思考-回應(yīng)-執(zhí)行”統(tǒng)一架構(gòu),在同一模型中完成語(yǔ)音理解、語(yǔ)音對(duì)話與動(dòng)作執(zhí)行。

03
機(jī)器人的高情商,

來(lái)自“跨模態(tài)上下文指令”

看到這里,大家一定關(guān)心的是 RoboOmni 的具體研究過(guò)程:

與先前方法不同,RoboOmni 不需要直接指令,而是跨模態(tài)上下文指令。

作為一種新的機(jī)器人操作環(huán)境,它的指令形式要求機(jī)器人從多模態(tài)上下文(視覺(jué)、環(huán)境聲音和語(yǔ)音)中主動(dòng)推斷用戶指令,而不是被動(dòng)等待明確的指令。

研究團(tuán)隊(duì)進(jìn)一步評(píng)估了 RoboOmni 在真實(shí)人類錄音的直接音頻指令下的魯棒性。

他們用了 OmniAction-LIBERO-Real 基準(zhǔn)測(cè)試,測(cè)試顯示 RoboOmni 實(shí)現(xiàn)了最高的平均性能(76.6%),超越了強(qiáng)大的基于文本的 VLA,包括π(73.8%)、OpenVLA(40.1%)和 NORA(17.4%)。


不難發(fā)現(xiàn),RoboOmni 直接處理語(yǔ)音,能夠避免了 ASR 管道錯(cuò)誤,效果不錯(cuò)。

在基線模型方面,當(dāng)前開(kāi)源的視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型主要設(shè)計(jì)用于文本指令,無(wú)法直接處理音頻輸入,因此研究團(tuán)隊(duì)構(gòu)建了兩種基線范式來(lái)驗(yàn)證端到端音頻處理必要性:

第一是真實(shí)文本提示,將預(yù)先標(biāo)注的語(yǔ)音指令轉(zhuǎn)錄直接輸入 VLA 模型;第二是語(yǔ)音-ASR-文本提示,其中語(yǔ)音指令首先使用 ASR 模型 Whisper large-v3轉(zhuǎn)錄為文本,然后輸入 VLA 模型。

過(guò)程中,將 RoboOmni 與兩種范式的四個(gè)代表 VLA 基線進(jìn)行比較,分別是OpenVLA、OpenVLA-OFT、π和 NORA。

在實(shí)現(xiàn)細(xì)節(jié)上,團(tuán)隊(duì)使用 224×224 的輸入圖像分辨率、16,000 Hz 的音頻采樣率和 6 的動(dòng)作分塊大小來(lái)訓(xùn)練模型。對(duì)于大規(guī)模預(yù)訓(xùn)練,RoboOmni 在 64 個(gè) A100 GPU 組成的集群上進(jìn)行了 10 天的優(yōu)化,總共對(duì)應(yīng) 15,360 個(gè) A100 小時(shí),比較扎實(shí)。

訓(xùn)練過(guò)程使用學(xué)習(xí)率為 5×10 的 10 個(gè) epoch,其中前 1k 步保留用于預(yù)熱。對(duì)于下游任務(wù)的監(jiān)督微調(diào)(SFT),團(tuán)隊(duì)采用學(xué)習(xí)率為 5×10,并使用 8 個(gè) A100 GPU 進(jìn)行 10-30k 步的訓(xùn)練。

同時(shí),為了驗(yàn)證 RoboOmni 的功能是否超越模擬環(huán)境,團(tuán)隊(duì)在WidowX 250S 上使用演示數(shù)據(jù)集對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào),研究團(tuán)隊(duì)找了10名志愿者,錄制了這份數(shù)據(jù)集。


RoboOmni 在真實(shí)世界的 WidowX 250S 機(jī)械臂上成功案例的演示:在多個(gè)干擾物中定位正確的物體并將其放入指定的花盆中

在試驗(yàn)過(guò)程中,RoboOmni 在三個(gè)維度的表現(xiàn)都很突出:

強(qiáng)大的意圖識(shí)別:根據(jù)音頻識(shí)別物體,并根據(jù)視覺(jué)場(chǎng)景確定容器是花盆;

有效的交互:在推斷出用戶的潛在意圖后主動(dòng)詢問(wèn)澄清問(wèn)題(例如,“我應(yīng)該……嗎?”),并在收到確認(rèn)后執(zhí)行操作;

可靠的執(zhí)行:成功執(zhí)行確認(rèn)的操作;

在模擬和現(xiàn)實(shí)世界場(chǎng)景中的評(píng)估中,RoboOmni 展現(xiàn)出新興的認(rèn)知智能,在成功率、推理速度以及更有效的主動(dòng)輔助和意圖識(shí)別方面優(yōu)于基線模型。


這使得 RoboOmni 能夠在真實(shí)機(jī)器人上運(yùn)行,并處理多樣化的語(yǔ)音指令(例如,情感、重疊提示)。

于是,就有了前面的場(chǎng)景中,機(jī)器人聽(tīng)到孩子和媽媽的對(duì)話,一通分析,判斷孩子不喜歡橙子,主動(dòng)問(wèn)孩子:那我給你拿個(gè)可樂(lè)?得到孩子肯定回答后,就吭哧吭哧去拿了。

什么是高情商,這才是高情商。

04
OmniAction-LIBERO是什么?

前面提到,研究團(tuán)隊(duì)在 RoboOmni 的探索過(guò)程中,除了大量的高質(zhì)量數(shù)據(jù)喂養(yǎng)和上下文指令類型外,還需要評(píng)估機(jī)器人理解的準(zhǔn)確性。

這就需要用到 OpenMoss 團(tuán)隊(duì)的另一個(gè)殺手锏: OmniAction-LIBERO。

這是一個(gè)針對(duì)主流 VLA 模型的系統(tǒng)性、全方面、細(xì)粒度的魯棒性分析框架,它的核心目的就是對(duì) VLA 模型進(jìn)行泛化性能測(cè)試。

OmniAction-LIBERO 的原理機(jī)制和論文鏈接如下:


LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models

https://arxiv.org/pdf/2510.13626v1

在OmniAction-LIBERO-TTS 基準(zhǔn)測(cè)試中,不同機(jī)器人操作模型在四種任務(wù)套件(空間、目標(biāo)、物體、長(zhǎng)時(shí)程)下,針對(duì)六種上下文指令類型的性能表現(xiàn):


加粗值表示最佳性能

RoboOmni 的框架,形成了一個(gè)感知者-思考者-說(shuō)話者-執(zhí)行者架構(gòu):

感知來(lái)自多模態(tài)輸入編碼,它負(fù)責(zé)將異構(gòu)輸入模態(tài)編碼到一個(gè)統(tǒng)一的嵌入空間中;思考來(lái)自全模態(tài)推理,思考者是中央推理引擎,基于 LLM 主干構(gòu)建。它處理感知器提供的統(tǒng)一多模態(tài)表;執(zhí)行器負(fù)責(zé)動(dòng)作生成,為了實(shí)現(xiàn)機(jī)器人控制在語(yǔ)言模型框架中的無(wú)縫集成;它將視覺(jué)、文本和音頻統(tǒng)一到一個(gè)共享的標(biāo)記空間中,以生成動(dòng)作和語(yǔ)音,且將語(yǔ)音、環(huán)境音頻、視覺(jué)和機(jī)器人動(dòng)作統(tǒng)一在一個(gè)自回歸模型中,形成一個(gè)閉環(huán)。


05
足夠復(fù)雜的情境,可能是AGI的突破口

RoboOmni 框架的形成,在這個(gè)團(tuán)隊(duì)過(guò)去的研究中,是有跡可循的。

今年上半年,新的訓(xùn)練路徑探索中,RoboOmni 團(tuán)隊(duì)的通訊作者復(fù)旦大學(xué)/上海創(chuàng)智學(xué)院邱錫鵬教授就曾在中提出過(guò)一個(gè)新思路 :

Context Scaling

與參數(shù)規(guī)模、后訓(xùn)練推理等路徑不一樣,Context Scaling 更看重如何讓 AI 真正理解并適應(yīng)復(fù)雜、多變、模糊的情境(Context)。

邱錫鵬教授非常推崇情境理解,并將它轉(zhuǎn)化為一個(gè)新的探索方向:

情境智能(Contextual Intelligence)

這次 RoboOmni 的發(fā)布,正是他們團(tuán)隊(duì)在情境智能方向探索的的一次成果匯報(bào)。

這也給很多科學(xué)家探索真正的智能,提供了一種思路。

人類之所以表現(xiàn)出智能,是因?yàn)槿四軌蚶斫馊蝿?wù)的模糊與復(fù)雜。

在語(yǔ)言交流中,人類能聽(tīng)懂朋友的“暗示”,能形成“只可意會(huì)不可言傳”的默契,這讓我們能夠高效合作與共贏;在勞動(dòng)中,我們能夠橫跨很多領(lǐng)域?qū)W習(xí),從蝙蝠的飛行智慧中領(lǐng)悟雷達(dá)的原理,從荷葉表面學(xué)會(huì)不粘鍋。

不難發(fā)現(xiàn),這些行為,都不是簡(jiǎn)單的狀態(tài) - 動(dòng)作 - 獎(jiǎng)勵(lì)循環(huán)而是在足夠豐富的情境中交互,才能涌現(xiàn)出的智能和突破。RoboOmni重新定義了機(jī)器人交互:從“執(zhí)行命令”到“主動(dòng)理解”,讓機(jī)器人洞察人意,從而開(kāi)啟了具身智能的“共情時(shí)代”。

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
泰軍宣布重創(chuàng)柬埔寨!繳獲大批中國(guó)造導(dǎo)彈!打到洪森父子投降?

泰軍宣布重創(chuàng)柬埔寨!繳獲大批中國(guó)造導(dǎo)彈!打到洪森父子投降?

深度報(bào)
2025-12-17 23:06:04
沒(méi)能動(dòng)用被凍結(jié)俄羅斯資產(chǎn):歐盟向?yàn)蹩颂m提供900億歐元貸款

沒(méi)能動(dòng)用被凍結(jié)俄羅斯資產(chǎn):歐盟向?yàn)蹩颂m提供900億歐元貸款

鷹眼Defence
2025-12-19 17:57:51
太瘋狂!PC廠商為何要漲價(jià)了:16G內(nèi)存條從380元漲到899元

太瘋狂!PC廠商為何要漲價(jià)了:16G內(nèi)存條從380元漲到899元

快科技
2025-12-18 09:00:04
民怨沸騰!臺(tái)媒:島內(nèi)超百萬(wàn)人聯(lián)署“彈劾賴清德”,參與人數(shù)多到一度癱瘓網(wǎng)站

民怨沸騰!臺(tái)媒:島內(nèi)超百萬(wàn)人聯(lián)署“彈劾賴清德”,參與人數(shù)多到一度癱瘓網(wǎng)站

環(huán)球網(wǎng)資訊
2025-12-19 09:18:07
一夜平賬28億,寒武紀(jì)拿股東的錢填虧損,只為給股東發(fā)錢

一夜平賬28億,寒武紀(jì)拿股東的錢填虧損,只為給股東發(fā)錢

芯事情報(bào)局
2025-12-19 07:30:03
夫妻常年分居,究竟有多危險(xiǎn)?響水金店付某婷事件戳破了多少家庭

夫妻常年分居,究竟有多危險(xiǎn)?響水金店付某婷事件戳破了多少家庭

沒(méi)有偏旁的常慶
2025-11-27 08:00:06
海南封關(guān)首日太瘋狂!1.5噸馬來(lái)西亞榴蓮1小時(shí)搶空,價(jià)格直降一半

海南封關(guān)首日太瘋狂!1.5噸馬來(lái)西亞榴蓮1小時(shí)搶空,價(jià)格直降一半

娛樂(lè)的硬糖吖
2025-12-19 04:21:18
你的辦公搭子,要漲價(jià)了

你的辦公搭子,要漲價(jià)了

中國(guó)新聞周刊
2025-12-19 13:33:38
向太曝馬伊琍已再婚:當(dāng)年文章過(guò)不了心理那關(guān)

向太曝馬伊琍已再婚:當(dāng)年文章過(guò)不了心理那關(guān)

娛樂(lè)看阿敞
2025-12-12 15:50:00
中國(guó)U152-0韓國(guó),東亞杯首輪比賽結(jié)果

中國(guó)U152-0韓國(guó),東亞杯首輪比賽結(jié)果

李絙在北漂
2025-12-19 11:36:16
最后關(guān)頭,高市政府通告中國(guó),希望送回大熊貓,中方誤判了日本?

最后關(guān)頭,高市政府通告中國(guó),希望送回大熊貓,中方誤判了日本?

何氽簡(jiǎn)史
2025-12-19 17:50:23
封關(guān)后,海南炸鍋了。有房子的外地人、當(dāng)?shù)赝林紭?lè)開(kāi)了花!

封關(guān)后,海南炸鍋了。有房子的外地人、當(dāng)?shù)赝林紭?lè)開(kāi)了花!

石辰搞笑日常
2025-12-03 08:50:12
中美之爭(zhēng)落幕?現(xiàn)實(shí)比想象殘酷:美國(guó)不是輸了,是牌桌都下不去了

中美之爭(zhēng)落幕?現(xiàn)實(shí)比想象殘酷:美國(guó)不是輸了,是牌桌都下不去了

娛樂(lè)帝皇丸
2025-12-18 14:53:59
羅永浩吐槽電信寬帶:獨(dú)享千兆不足百兆,不解決要發(fā)瘋了

羅永浩吐槽電信寬帶:獨(dú)享千兆不足百兆,不解決要發(fā)瘋了

三言科技
2025-12-19 09:21:04
25分逆轉(zhuǎn)!鵜鶘送火箭連敗,杜蘭特32+7申京28+11+8

25分逆轉(zhuǎn)!鵜鶘送火箭連敗,杜蘭特32+7申京28+11+8

湖人崛起
2025-12-19 11:51:48
財(cái)政部:自2026年1月1日起,山西省、青海省實(shí)施境外旅客購(gòu)物離境退稅政策

財(cái)政部:自2026年1月1日起,山西省、青海省實(shí)施境外旅客購(gòu)物離境退稅政策

界面新聞
2025-12-19 16:33:27
退休金多少才能養(yǎng)活自己?3位老人同時(shí)說(shuō)出這個(gè)數(shù),你達(dá)標(biāo)了嗎?

退休金多少才能養(yǎng)活自己?3位老人同時(shí)說(shuō)出這個(gè)數(shù),你達(dá)標(biāo)了嗎?

蟬吟槐蕊
2025-12-19 11:20:22
翁帆新消息傳來(lái),太令人驚喜了

翁帆新消息傳來(lái),太令人驚喜了

深度報(bào)
2025-12-18 22:35:44
10人逃單后續(xù):堂哥張先生作為組局人最終付款卻面子里子全無(wú)

10人逃單后續(xù):堂哥張先生作為組局人最終付款卻面子里子全無(wú)

沒(méi)有偏旁的常慶
2025-12-19 06:30:04
故事:天涯神帖被還原,據(jù)說(shuō)這是馬航出事最接近的真相

故事:天涯神帖被還原,據(jù)說(shuō)這是馬航出事最接近的真相

飛云如水
2024-11-03 22:02:02
2025-12-19 18:55:00
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7014文章數(shù) 20715關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來(lái)

頭條要聞

普京:俄羅斯目前沒(méi)有看到烏克蘭討論領(lǐng)土問(wèn)題的意愿

頭條要聞

普京:俄羅斯目前沒(méi)有看到烏克蘭討論領(lǐng)土問(wèn)題的意愿

體育要聞

“惡龍”埃托奧,正在毀滅喀麥隆足球

娛樂(lè)要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無(wú)期

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

教育
房產(chǎn)
手機(jī)
時(shí)尚
軍事航空

教育要聞

防范“笑氣”濫用危害 守護(hù)無(wú)毒青春

房產(chǎn)要聞

廣州有態(tài)度,一座國(guó)際化社區(qū)給出的城市答案

手機(jī)要聞

榮耀WIN官宣搭載第五代驍龍8至尊版:跑分破440萬(wàn)屠榜

女友BELLA+封面 | Jimmy&Ohm:人生拼圖

軍事要聞

媒體:美方官宣史上對(duì)臺(tái)單筆最大軍售 野心藏不住了

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版