国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

上交00后和團(tuán)隊(duì)造出機(jī)器人眼球,讓機(jī)器人也有主動(dòng)視覺(jué)系統(tǒng)

0
分享至

近日,上海交通大學(xué)楊佳澍和所在團(tuán)隊(duì)開發(fā)出一款名為 EyeVLA 的機(jī)器人眼球系統(tǒng),讓機(jī)器人擁有了真正的主動(dòng)視覺(jué)。

假設(shè)你想讓掃地機(jī)器人看看沙發(fā)下有沒(méi)有玩具車,有了 EyeVLA 機(jī)器人就可以靈活地調(diào)整視角和焦距,不需要湊進(jìn)去看,這種能力讓機(jī)器人在許多實(shí)際任務(wù)中變得更加有用,比如可以在倉(cāng)庫(kù)里不需要移動(dòng)位置找貨、在工廠里檢查零件,甚至幫助老人在雜亂的環(huán)境中找到需要的藥品。


(來(lái)源:https://arxiv.org/abs/2511.15279)

在一個(gè)測(cè)試?yán)铮瑮罴唁热俗寵C(jī)器人辨認(rèn)一下放在盒子里的筆的品牌。普通的固定攝像頭根本無(wú)法拍攝到筆身的細(xì)節(jié),而 EyeVLA 通過(guò)自動(dòng)轉(zhuǎn)動(dòng)和放大,讓筆身上的小字清晰可見,最終準(zhǔn)確識(shí)別出了品牌。

類似的應(yīng)用場(chǎng)景還有很多,比如可以幫你找鑰匙和檢查窗戶是否關(guān)好,可以在工業(yè)流水線上識(shí)別細(xì)小的零件缺陷,可以協(xié)助藥師在藥店快速尋找目標(biāo)藥品等。


圖 | 楊佳澍(來(lái)源:楊佳澍)

無(wú)需人工引導(dǎo)或控制,只需給定指令即可自主完成觀察

EyeVLA 搭載了一個(gè)精巧的系統(tǒng),讓機(jī)器人可以根據(jù)語(yǔ)言指令自主調(diào)整視角,這個(gè)系統(tǒng)主要由三部分組成:一個(gè)可以水平旋轉(zhuǎn)、垂直俯仰的 2 維云臺(tái),一個(gè)可以變焦的攝像頭,以及一個(gè)智能大腦,這個(gè)大腦是一個(gè)經(jīng)過(guò)特殊訓(xùn)練的多模態(tài)大模型,能夠同時(shí)理解圖像、語(yǔ)言并生成具體動(dòng)作。

機(jī)器人的每個(gè)動(dòng)作,比如向左轉(zhuǎn) 5 度、向上抬 3 度、放大 1.2 倍,都需要被轉(zhuǎn)換成計(jì)算機(jī)能夠理解的格式。楊佳澍等人設(shè)計(jì)了一種高效的動(dòng)作編碼方式,把連續(xù)的動(dòng)作數(shù)值分層編碼為基本的動(dòng)作詞,就像我們使用字母拼成單詞一樣。這樣做的好處是,機(jī)器人可以使用更少的信息來(lái)表達(dá)更加精確的動(dòng)作,同時(shí)有更強(qiáng)的語(yǔ)義性,便于模型學(xué)習(xí)。

當(dāng)你對(duì)機(jī)器人說(shuō)請(qǐng)看清楚那個(gè)藍(lán)色盒子的標(biāo)簽時(shí),EyeVLA 會(huì)首先分析這句話的含義,再結(jié)合當(dāng)前攝像頭拍到的畫面,判斷該如何調(diào)整視角。它會(huì)自動(dòng)計(jì)算出需要轉(zhuǎn)動(dòng)多少角度、放大多少倍,才能讓標(biāo)簽清晰地出現(xiàn)在畫面中心。這個(gè)過(guò)程是實(shí)時(shí)、連續(xù)和閉環(huán)的,就像我們使用時(shí)鼠標(biāo)拖動(dòng)電子地圖以及放大查看細(xì)節(jié)一樣自然。

相關(guān)論文的第一作者楊佳澍告訴 DeepTech:“盡管近期有其他團(tuán)隊(duì)使用云臺(tái)電機(jī)進(jìn)行感知探索,但我們的系統(tǒng)在擴(kuò)展性、可靠性及開放場(chǎng)景下的完全自主性方面具有明顯優(yōu)勢(shì)。我們是首個(gè)在完全開放場(chǎng)景下基于變焦相機(jī)實(shí)現(xiàn)語(yǔ)言指令驅(qū)動(dòng)視覺(jué)感知的系統(tǒng),無(wú)需人工引導(dǎo)或控制,只需給定指令即可自主完成觀察!


(來(lái)源:https://arxiv.org/abs/2511.15279)

小到找鑰匙、大到醫(yī)療輔助均可使用

手動(dòng)收集真機(jī)數(shù)據(jù)往往成本高昂,為了降低成本讓機(jī)器人學(xué)會(huì)這套視覺(jué)動(dòng)作,楊佳澍等人使用了包含兩個(gè)階段的訓(xùn)練方法。

第一個(gè)階段是模仿學(xué)習(xí),他們先是收集了少量真人操作機(jī)器的數(shù)據(jù),記錄下真人在不同指令下是如何調(diào)整視角的。接著,利用這些數(shù)據(jù)批量合成了模擬數(shù)據(jù),讓模型在虛擬數(shù)據(jù)中進(jìn)行對(duì)齊,初步建立起語(yǔ)言、視覺(jué)、動(dòng)作之間的關(guān)聯(lián)。

第二個(gè)階段是強(qiáng)化學(xué)習(xí)。這時(shí),模型開始在真實(shí)數(shù)據(jù)中試錯(cuò)。每當(dāng)做出一個(gè)動(dòng)作,系統(tǒng)就會(huì)根據(jù)它是否看得清楚來(lái)給出獎(jiǎng)勵(lì)或懲罰。這樣一來(lái),就能在復(fù)雜場(chǎng)景中讓機(jī)器人逐漸學(xué)會(huì)做出更魯邦的視角調(diào)整。

當(dāng)前,我們大都習(xí)慣了使用手機(jī)拍照:手機(jī)會(huì)自動(dòng)對(duì)焦和調(diào)整亮度,拍攝出來(lái)清晰的照片。但是,傳統(tǒng)的機(jī)器人視覺(jué)系統(tǒng)更像是一臺(tái)固定在三腳架上的老式相機(jī),它只能從一個(gè)角度、一個(gè)距離拍攝,既不能轉(zhuǎn)動(dòng)、也不能拉近拉遠(yuǎn)。

這就導(dǎo)致如果機(jī)器人要觀察的目標(biāo)很小、或者離得很遠(yuǎn),它就很難看清楚。比如,想讓機(jī)器人看看書架第二層那本書的書名,如果書名字體很小,普通的機(jī)器人攝像頭可能只能拍攝出來(lái)一團(tuán)模糊的像素,根本認(rèn)不出來(lái)是什么字。

而該團(tuán)隊(duì)意識(shí)到,要讓機(jī)器人真正地看懂世界,就不能讓它被動(dòng)地接收?qǐng)D像,而是讓它主動(dòng)地獲取詳細(xì)的信息,就像人類會(huì)轉(zhuǎn)頭、走近、瞇起眼睛或瞪大眼睛觀察事物一樣。這就是主動(dòng)視覺(jué)的核心思想,機(jī)器人也應(yīng)該學(xué)會(huì)怎么去看,而不僅僅是看到了什么。


(來(lái)源:https://arxiv.org/abs/2511.15279)

楊佳澍表示:“現(xiàn)有機(jī)器人往往在機(jī)械臂前端或者固定支架上安裝固定攝像頭,但由于機(jī)械臂體積和活動(dòng)范圍等限制,無(wú)法深入狹窄或危險(xiǎn)區(qū)域觀察目標(biāo)細(xì)節(jié)(如文字、紋理)。我們的方法通過(guò)純光學(xué)變焦調(diào)整,可在機(jī)械臂無(wú)法觸及的場(chǎng)景中實(shí)現(xiàn)視覺(jué)感知,避免進(jìn)入雜亂或危險(xiǎn)環(huán)境,拓寬了機(jī)器人視覺(jué)的應(yīng)用范圍。”

參考資料:

相關(guān)論文 https://arxiv.org/abs/2511.15279

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
女首相掀桌了!

女首相掀桌了!

新動(dòng)察
2026-01-13 15:29:51
一部灣灣電影,扯下內(nèi)娛最后的遮羞布!

一部灣灣電影,扯下內(nèi)娛最后的遮羞布!

編劇藍(lán)羽生
2026-01-13 15:46:04
李在明與高市早苗會(huì)談,提到中國(guó)

李在明與高市早苗會(huì)談,提到中國(guó)

極目新聞
2026-01-13 18:09:28
郭有才在央視講《道德經(jīng)》,這真不是個(gè)笑話

郭有才在央視講《道德經(jīng)》,這真不是個(gè)笑話

關(guān)爾東
2026-01-12 16:28:55
蔣超良四弟、五弟全涉案,被免湖北省委書記后,“邊上一下安靜了,沒(méi)有人了”

蔣超良四弟、五弟全涉案,被免湖北省委書記后,“邊上一下安靜了,沒(méi)有人了”

新京報(bào)政事兒
2026-01-13 20:42:52
特斯拉授予高級(jí)副總裁朱曉彤超52萬(wàn)股股票期權(quán):行權(quán)價(jià)435.8美元,完全歸屬要等五年后

特斯拉授予高級(jí)副總裁朱曉彤超52萬(wàn)股股票期權(quán):行權(quán)價(jià)435.8美元,完全歸屬要等五年后

新浪財(cái)經(jīng)
2026-01-13 21:28:27
一中國(guó)女子遭捆綁后被搶劫。另2起涉中國(guó)人綁架案:共10名中國(guó)籍人員獲救,8名中國(guó)嫌疑犯落網(wǎng)。

一中國(guó)女子遭捆綁后被搶劫。另2起涉中國(guó)人綁架案:共10名中國(guó)籍人員獲救,8名中國(guó)嫌疑犯落網(wǎng)。

貼小君
2026-01-13 00:13:28
多個(gè)省會(huì)城市政府主要領(lǐng)導(dǎo)調(diào)整

多個(gè)省會(huì)城市政府主要領(lǐng)導(dǎo)調(diào)整

上觀新聞
2026-01-13 17:55:07
數(shù)百萬(wàn)元現(xiàn)金用編織袋裝入醫(yī)院院長(zhǎng)后備箱!官方披露一商業(yè)賄賂案

數(shù)百萬(wàn)元現(xiàn)金用編織袋裝入醫(yī)院院長(zhǎng)后備箱!官方披露一商業(yè)賄賂案

新京報(bào)
2026-01-13 14:06:09
不折騰:一種深刻的穩(wěn)態(tài)

不折騰:一種深刻的穩(wěn)態(tài)

疾跑的小蝸牛
2026-01-13 21:39:10
伊朗政府承認(rèn)死了2000人,但反對(duì)派稱:真正的數(shù)字是1.2萬(wàn)人

伊朗政府承認(rèn)死了2000人,但反對(duì)派稱:真正的數(shù)字是1.2萬(wàn)人

桂系007
2026-01-13 22:19:45
沉默5天后,高市早苗開腔了,對(duì)中國(guó)說(shuō)了一句,不敢對(duì)美國(guó)說(shuō)的話

沉默5天后,高市早苗開腔了,對(duì)中國(guó)說(shuō)了一句,不敢對(duì)美國(guó)說(shuō)的話

策略述
2026-01-13 18:37:41
A股,一個(gè)“重磅利空”信號(hào)傳來(lái),明天,或?qū)⒂瓉?lái)大變盤!

A股,一個(gè)“重磅利空”信號(hào)傳來(lái),明天,或?qū)⒂瓉?lái)大變盤!

另子維愛(ài)讀史
2026-01-13 19:40:36
情況有變,美國(guó)最新投票結(jié)果公布,特朗普公開承認(rèn),自己或?qū)⑾屡_(tái)

情況有變,美國(guó)最新投票結(jié)果公布,特朗普公開承認(rèn),自己或?qū)⑾屡_(tái)

博覽歷史
2026-01-13 08:49:29
京滬最快高鐵G25來(lái)了,中途只?磕暇┠险

京滬最快高鐵G25來(lái)了,中途只停靠南京南站

現(xiàn)代快報(bào)
2026-01-13 13:37:03
吉利官宣退出伊朗市場(chǎng)

吉利官宣退出伊朗市場(chǎng)

齊魯壹點(diǎn)
2026-01-13 22:00:10
新冠病毒3大結(jié)局已經(jīng)不可避免,60歲以上的老年人尤其要注意

新冠病毒3大結(jié)局已經(jīng)不可避免,60歲以上的老年人尤其要注意

醫(yī)護(hù)健康科普
2025-08-31 17:07:58
伴郎破壞婚禮后續(xù):正臉被扒已社死,目的曝光,新娘發(fā)長(zhǎng)文表態(tài)

伴郎破壞婚禮后續(xù):正臉被扒已社死,目的曝光,新娘發(fā)長(zhǎng)文表態(tài)

史行途
2026-01-13 13:35:16
定了!國(guó)務(wù)院批準(zhǔn),兩大央企實(shí)施合并重組!

定了!國(guó)務(wù)院批準(zhǔn),兩大央企實(shí)施合并重組!

通信頭條
2026-01-13 19:47:29
知乎750萬(wàn)瀏覽:為什么不能對(duì)認(rèn)知低的人太好?

知乎750萬(wàn)瀏覽:為什么不能對(duì)認(rèn)知低的人太好?

精讀君
2026-01-13 10:00:11
2026-01-14 04:04:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16120文章數(shù) 514483關(guān)注度
往期回顧 全部

科技要聞

每年10億美元!谷歌大模型注入Siri

頭條要聞

特朗普:已取消所有與伊朗官員的會(huì)談

頭條要聞

特朗普:已取消所有與伊朗官員的會(huì)談

體育要聞

他帶出國(guó)乒世界冠軍,退休后為愛(ài)徒返場(chǎng)

娛樂(lè)要聞

蔡卓妍承認(rèn)新戀情,與男友林俊賢感情穩(wěn)定

財(cái)經(jīng)要聞

"天量存款"將到期 資金會(huì)否搬入股市?

汽車要聞

限時(shí)9.99萬(wàn)元起 2026款啟辰大V DD-i虎鯨上市

態(tài)度原創(chuàng)

旅游
房產(chǎn)
手機(jī)
本地
公開課

旅游要聞

順義區(qū)將硬核打造“工業(yè)時(shí)尚游”

房產(chǎn)要聞

又一新校開建!?谶@一片區(qū),迎來(lái)教育重磅升級(jí)!

手機(jī)要聞

三星S26+、Ultra量產(chǎn),S26+升級(jí)或受限?

本地新聞

云游內(nèi)蒙|到巴彥淖爾去,赴一場(chǎng)塞上江南的邀約

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版