国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

千尋智能高陽團隊提出 Point-VLA:視覺定位實現(xiàn)語言指令精準(zhǔn)執(zhí)行

0
分享至



設(shè)想這樣一個場景:你打電話讓同事去辦公室某個地方拿東西,僅憑語言描述位置是多么困難。在辦公室里,從一堆已經(jīng)喝過的礦泉水瓶中,讓對面同學(xué)遞過來你之前喝過的那個,只用語言幾乎無法準(zhǔn)確描述——「左邊第二個」?「有點舊的那個」?這時候,人們更傾向于用手指一下,或者拿出圖片來指代。

這揭示了一個根本問題:人類在面對面交流時,會自然地通過手勢、指點來完成對物體或位置的定位(grounding),而不是依賴復(fù)雜的文本描述。即使對于人類這樣強大的多模態(tài)大腦,純語言指令也存在歧義,難以準(zhǔn)確傳達(dá)空間信息。在雜亂場景、相似物體眾多的環(huán)境中,語言描述往往力不從心。

同理,當(dāng)我們只用語言給視覺-語言-動作(Vision-Language-Action,VLA)模型下達(dá)指令時,就如同讓人在電話里描述復(fù)雜場景,面臨兩個根本性困境:

第一,語言在某些場景下根本無法精確表達(dá)。比如在無參考點的桌面上精確放置物體——「把杯子放在距離左邊緣 15 cm、前方 10 cm 的位置」,這種絕對坐標(biāo)式的描述既不自然又難以準(zhǔn)確傳達(dá)。再比如雜亂場景中的特定目標(biāo),或者形狀不規(guī)則的物體,語言的表達(dá)能力觸及了邊界。

第二,即使可以用復(fù)雜詳細(xì)的語言描述,VLA 模型也難以泛化理解。研究發(fā)現(xiàn),雖然先進(jìn)的視覺-語言模型(VLM)能以 60-70% 的準(zhǔn)確率定位復(fù)雜描述的目標(biāo),但 text-only VLA 在執(zhí)行時的成功率卻只有 25% 左右。復(fù)雜的空間關(guān)系描述超出了 VLA 模型的泛化能力范圍。

千尋智能高陽團隊的研究人員注意到這兩個根本性瓶頸,在最新論文《Point What You Mean: Visually Grounded Instruction Policy》中提出了 Point-VLA 方法。該方法通過在圖像上疊加邊界框(bounding box)提供明確的視覺定位線索,讓機器人能像人一樣「看著圖、指著點」來理解指令,在真實機器人操作任務(wù)中實現(xiàn)了高達(dá) 92.5% 的成功率,相比純文本 VLA 的 32.4% 提升了近 3 倍。

  • 論文標(biāo)題:Point What You Mean: Visually Grounded Instruction Policy
  • 論文鏈接:https://arxiv.org/pdf/2512.18933
  • 項目主頁:https://yuhang-harry.github.io/Point-VLA



圖 1:Point-VLA 通過在圖像上疊加邊界框,解決了雜亂場景抓取、OOD 物體操作、無參考點精確放置等語言指令難以勝任的任務(wù)

語言的邊界:VLA 模型面臨的根本挑戰(zhàn)

視覺-語言-動作(VLA)模型近年來在具身智能領(lǐng)域取得了顯著進(jìn)展,能夠?qū)⒆匀徽Z言指令直接轉(zhuǎn)化為機器人動作。然而,研究團隊發(fā)現(xiàn),VLA 模型仍然受制于語言本身的固有局限性。

兩大核心問題:

1. 語言無法表達(dá)的場景(Inexpressible References)

在真實世界中,有些場景語言根本無法精確描述,無論你怎么努力:

  • 無參考點的精確位置:「把杯子放在桌面上距離左邊緣 15 cm、前方 10 cm 的位置」——這種絕對坐標(biāo)式的描述,語言表達(dá)起來既不自然又容易出錯。
  • 不規(guī)則 / 無定形物體:一個形狀復(fù)雜、紋理獨特的陶土塊,用語言描述「紅藍(lán)條紋、頂部方形底部圓形」仍然模糊不清。
  • 雜亂場景中的特定目標(biāo):在八個相同瓶子的桌面上,即使你說「右側(cè)第二排中間偏左的那個」,聽者依然難以確定。

這些場景的共同特點是:語言的表達(dá)能力觸及了邊界。而人類在這種情況下會自然地用手指一下,或者拿出圖片指給對方看。

2. 復(fù)雜描述的泛化困境(Limited Generalization)

即使在某些場景下,我們可以通過非常詳細(xì)、復(fù)雜的語言描述來補全信息,但這又帶來了新的問題:VLA 模型難以泛化理解這些復(fù)雜的空間描述。

研究團隊的實驗揭示了一個令人驚訝的現(xiàn)象:

  • 先進(jìn)的 VLM(如 GPT-4V)在面對詳細(xì)的文本描述時,能夠以 60-70% 的準(zhǔn)確率定位目標(biāo)。
  • 但 text-only VLA 在相同場景下的操作成功率卻只有 25% 左右。

這說明,即使 VLM「看懂」了復(fù)雜的語言描述,VLA 模型在將其轉(zhuǎn)化為精確動作時仍然力不從心。復(fù)雜的空間關(guān)系描述超出了 VLA 模型的泛化能力范圍,導(dǎo)致在雜亂場景、OOD 物體、精確放置等任務(wù)中表現(xiàn)急劇下降。這兩個問題共同構(gòu)成了 VLA 模型在真實世界部署的根本瓶頸。



圖 2:VLM 能以 60-70% 準(zhǔn)確率定位復(fù)雜文本描述的目標(biāo)(左兩例),但 text-only VLA 執(zhí)行成功率僅 25%,揭示了語言-動作對齊的鴻溝。右側(cè)展示了語言根本無法描述的場景(無參考點平面),Point-VLA 通過視覺定位解決了這兩類問題

Point-VLA:像人一樣「指著說」

為了突破語言的固有局限,千尋智能高陽團隊提出了 Point-VLA 方法,其核心思想簡單而有效:既然語言無法精確表達(dá),那就像人類一樣,用「指」的方式來明確目標(biāo)。

視覺定位指令(Visually Grounded Instruction)

Point-VLA 的關(guān)鍵創(chuàng)新在于引入了視覺定位指令。具體而言,系統(tǒng)在機器人觀察到的第一幀圖像上疊加一個邊界框(bounding box),明確標(biāo)注出目標(biāo)物體或位置。這個邊界框就像人類用手指指向目標(biāo)一樣,提供了明確的像素級空間線索。

例如,對于「拿起瓶子」這個指令:

  • 純文本模式:「Pick up the bottle to the right of the leftmost bottles, in the middle of the desk」(信息完整但過于復(fù)雜,VLA 難以準(zhǔn)確執(zhí)行)
  • Point-VLA 模式:「Pick up」+ 圖像上的紅色邊界框(信息完整且簡單直接)

這種方式將高層意圖(pick up, place)保留在語言中,而將精確的空間信息(哪個物體、什么位置)編碼在視覺線索中,完美結(jié)合了語言的抽象性和視覺的精確性。



圖 3:Point-VLA 推理流程——用戶通過 GUI 在俯視圖上繪制邊界框,或通過手勢由 MLLM 自動生成邊界框,結(jié)合簡短文本指令,機器人即可精確執(zhí)行操作

統(tǒng)一的策略架構(gòu)

Point-VLA 采用統(tǒng)一的策略架構(gòu),能夠同時處理純文本指令和視覺定位指令。在訓(xùn)練時,模型以 1:1 的比例接收兩種模態(tài)的數(shù)據(jù):

  • 純文本指令:保持模型對常規(guī)語言指令的理解能力。
  • 視覺定位指令:學(xué)習(xí)利用像素級視覺線索進(jìn)行精確操作。

這種聯(lián)合訓(xùn)練策略使得 Point-VLA 既能處理簡單的語言指令(如「向前移動」),也能在需要時接受視覺定位來完成復(fù)雜任務(wù),實現(xiàn)了靈活的「即插即用」能力。

視頻展示 Point-VLA 在真實機器人上的操作效果,包括雜亂場景抓取、精確放置等任務(wù)

可擴展的自動數(shù)據(jù)標(biāo)注 Pipeline

視覺定位指令需要為每個演示標(biāo)注邊界框,這可能帶來數(shù)據(jù)標(biāo)注成本的挑戰(zhàn)。千尋智能團隊開發(fā)了一套自動數(shù)據(jù)標(biāo)注 Pipeline,利用多模態(tài)大語言模型(MLLM)自動生成視覺定位監(jiān)督信號。

Pipeline 的工作流程很直接:給定一段演示視頻和文本指令,MLLM 分析視頻內(nèi)容,自動識別關(guān)鍵幀并在第一幀上標(biāo)注目標(biāo)物體的邊界框。為了提升模型的泛化能力,研究團隊還設(shè)計了兩種數(shù)據(jù)增強策略——隨機平移和局部 CutMix。隨機平移鼓勵模型關(guān)注目標(biāo)的相對位置而非絕對坐標(biāo),局部 CutMix 則防止模型過擬合特定物體的視覺特征。

這套 Pipeline 使得研究團隊能夠從現(xiàn)有的演示數(shù)據(jù)中高效生成大量視覺定位監(jiān)督信號,無需額外的人工標(biāo)注成本,支持無縫的數(shù)據(jù)集成和擴展。



圖 4:Point-VLA 訓(xùn)練流程——MLLM 自動從演示視頻中生成邊界框標(biāo)注,結(jié)合隨機平移和 CutMix 增強,與純文本數(shù)據(jù)聯(lián)合訓(xùn)練統(tǒng)一策略

實驗驗證:從 32.4% 到 92.5% 的跨越

千尋智能團隊在真實機器人平臺上進(jìn)行了全面的實驗驗證,涵蓋 6 個具有挑戰(zhàn)性的操作任務(wù),包括不規(guī)則物體抓取、OOD 物體抓取、雜亂場景抓取、蛋槽精確放置、平面精確放置和蛋槽精確插入。實驗結(jié)果令人振奮:Point-VLA 在所有任務(wù)上的平均成功率達(dá)到 92.5%,相比純文本 VLA 的 32.4% 提升了近 3 倍

在最具挑戰(zhàn)性的雜亂場景抓取任務(wù)中,Point-VLA 的成功率從 43.3% 提升到 94.3%,在精確放置任務(wù)中從 23.3% 提升到 90.0%。這些結(jié)果充分證明了視覺定位在消除歧義和實現(xiàn)精確操作方面的強大能力。



圖 5:6 個評估任務(wù)的真實機器人實驗場景,涵蓋目標(biāo)物體指代(不規(guī)則物體、OOD 物體)和目標(biāo)位置指代(雜亂抓取、蛋槽、平面放置)等挑戰(zhàn)



表 1:六個真實機器人操作任務(wù)的成功率(%)對比,其中text-vla和interleave-vla均經(jīng)過與Point-vla同樣數(shù)據(jù)量,精細(xì)文本方位詞標(biāo)注訓(xùn)練至收斂,保證對比公平性,數(shù)據(jù)集信息見論文fig5

語言邊界場景的突破

研究團隊特別設(shè)計了兩類「語言邊界」場景來驗證 Point-VLA 的能力:

  • 場景 1:語言根本無法表達(dá)的任務(wù)

在無參考點的平面桌面上精確放置物體:「把杯子放在距離左邊緣 15 cm、前方 10 cm 的位置」。這種絕對坐標(biāo)式的描述,語言表達(dá)既不自然又難以準(zhǔn)確傳達(dá)。純文本 VLA 在這類任務(wù)上的成功率僅 30%。

而 Point-VLA 通過在圖像上直接標(biāo)注目標(biāo)位置的邊界框,繞過了語言表達(dá)的邊界,成功率達(dá)到95%

  • 場景 2:復(fù)雜描述難以泛化

在包含 8 個相同瓶子的雜亂桌面上,需要用「拿起右側(cè)、最左邊那排瓶子中間的那個」這樣復(fù)雜的描述。雖然 VLM 能以 60-70% 準(zhǔn)確率定位,但 text-only VLA 在執(zhí)行時成功率僅 43.3%——模型難以泛化理解如此復(fù)雜的空間關(guān)系描述。

Point-VLA 通過視覺定位提供明確的像素級線索,使模型無需理解復(fù)雜的語言描述就能準(zhǔn)確執(zhí)行,成功率提升到94.3%

此外,研究團隊還在多個機器人平臺和 VLA 模型骨架上進(jìn)行了驗證,包括 π0.5 和 π0 兩個不同的基礎(chǔ)模型,以及雙臂機器人和全身人形機器人。結(jié)果顯示 Point-VLA 在不同模型和硬件配置下均能保持高成功率,證明了其作為通用接口的可擴展性。

在與純文本指令的兼容性測試中,Point-VLA 即使在純文本模式下(不使用視覺定位),也能匹配甚至超越純文本 VLA baseline。研究團隊在三種空間指代任務(wù)上進(jìn)行了對比:相對位置指代、矩陣布局指代和基于參考的指代。結(jié)果顯示,Point-VLA 在純文本模式下的表現(xiàn)與 baseline 相當(dāng)或更好,而在使用視覺定位時則在復(fù)雜空間指代任務(wù)上取得最高成功率。這說明視覺定位訓(xùn)練提升了模型對空間關(guān)系的理解能力,即使在不使用視覺定位時也能受益。

在數(shù)據(jù)擴展性實驗中,隨著訓(xùn)練數(shù)據(jù)量的增加,Point-VLA 的性能持續(xù)提升,而純文本 VLA 很快達(dá)到飽和。在 OOD 物體抓取任務(wù)中,當(dāng)訓(xùn)練數(shù)據(jù)從 3 個場景增加到 12 個場景時,Point-VLA 的準(zhǔn)確率從約 0.8 提升到 0.95,而純文本 VLA 在約 0.27 處就停止增長,表明視覺定位提供的明確監(jiān)督信號使模型能夠更有效地從數(shù)據(jù)中學(xué)習(xí)。



圖 6:(上)Point-VLA 在三種指令模式下的成功率對比——即使在純文本模式下,Point-VLA 也能匹配或超越 baseline,使用視覺定位時在復(fù)雜空間指代上取得最高成功率。(下)隨訓(xùn)練數(shù)據(jù)增加,Point-VLA 性能持續(xù)提升,而純文本 VLA 很快飽和

技術(shù)意義與未來展望

Point-VLA 的提出具有重要的理論和實踐意義。首先,它揭示并解決了 VLA 領(lǐng)域的一個根本性問題:語言本身的表達(dá)能力限制了模型的性能上限。通過引入視覺定位,Point-VLA 繞過了這一瓶頸,為 VLA 模型開辟了新的發(fā)展路徑。

其次,自動數(shù)據(jù)標(biāo)注 Pipeline 使得視覺定位監(jiān)督信號的獲取成本大幅降低,支持從現(xiàn)有演示數(shù)據(jù)中無縫生成訓(xùn)練數(shù)據(jù),為大規(guī)模 VLA 模型的訓(xùn)練提供了可行的技術(shù)路線。

92.5% 的成功率使得 VLA 模型首次在復(fù)雜真實場景中達(dá)到了實用化的門檻。Point-VLA 展示的精確操作能力,為機器人在工業(yè)、服務(wù)等領(lǐng)域的實際應(yīng)用提供了技術(shù)基礎(chǔ)。更重要的是,Point-VLA 驗證了「指著說」這種人類自然交互方式在人機交互中的有效性,啟發(fā)了未來具身智能系統(tǒng)在多模態(tài)交互方面的探索。

關(guān)于千尋智能 Spirit AI

千尋智能致力于推動具身智能和機器人技術(shù)的發(fā)展,通過創(chuàng)新的 AI 算法使機器人能夠更好地理解和執(zhí)行人類指令。高陽團隊專注于視覺-語言-動作模型的研究,在多模態(tài)學(xué)習(xí)、機器人操作等領(lǐng)域取得了一系列突破性成果。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
張召忠曾預(yù)測:如果中國不用核武器,4小時就能拿下日本!

張召忠曾預(yù)測:如果中國不用核武器,4小時就能拿下日本!

浪子阿邴聊體育
2026-03-08 09:20:16
“哎呦我的天吶,太墨跡了!”王濛吐槽《浪姐》直播拖沓,網(wǎng)友:真嘴替

“哎呦我的天吶,太墨跡了!”王濛吐槽《浪姐》直播拖沓,網(wǎng)友:真嘴替

動物奇奇怪怪
2026-04-03 01:57:20
凌晨發(fā)起反擊!200名指揮官剛走進(jìn)作戰(zhàn)室:數(shù)枚導(dǎo)彈就穿窗而入

凌晨發(fā)起反擊!200名指揮官剛走進(jìn)作戰(zhàn)室:數(shù)枚導(dǎo)彈就穿窗而入

聚峰軍評
2026-03-31 14:42:18
我在臺灣吃了三個月便當(dāng),才明白為啥他們的快餐文化如此發(fā)達(dá)

我在臺灣吃了三個月便當(dāng),才明白為啥他們的快餐文化如此發(fā)達(dá)

復(fù)轉(zhuǎn)這些年
2026-04-02 11:55:50
張雪峰二婚妻子付幸:幾個月婚姻分走數(shù)億,11歲女兒遺產(chǎn)繼承復(fù)雜

張雪峰二婚妻子付幸:幾個月婚姻分走數(shù)億,11歲女兒遺產(chǎn)繼承復(fù)雜

番外行
2026-04-03 08:36:38
33歲港星吳若希內(nèi)地買房!夸交通便利消費低,剛搬香港名校學(xué)區(qū)房

33歲港星吳若希內(nèi)地買房!夸交通便利消費低,剛搬香港名校學(xué)區(qū)房

藝能八卦局
2026-04-02 18:40:57
記者親測賈國龍新品牌“天邊砂鍋燜面”:人均50元,部分門店由西貝換牌

記者親測賈國龍新品牌“天邊砂鍋燜面”:人均50元,部分門店由西貝換牌

第一財經(jīng)資訊
2026-04-02 17:32:19
房價要變天?若不出意外的話,2026年二手房價格將迎來4大轉(zhuǎn)變

房價要變天?若不出意外的話,2026年二手房價格將迎來4大轉(zhuǎn)變

林子說事
2026-04-03 05:22:50
東莞市原一級巡視員蔡家華,涉嫌嚴(yán)重違紀(jì)違法被查

東莞市原一級巡視員蔡家華,涉嫌嚴(yán)重違紀(jì)違法被查

南方都市報
2026-04-02 19:57:10
“一滴死” 還能 “偷偷打一針不被發(fā)現(xiàn)”?商家承諾:全程保密發(fā)貨

“一滴死” 還能 “偷偷打一針不被發(fā)現(xiàn)”?商家承諾:全程保密發(fā)貨

澎湃新聞
2026-04-02 20:07:12
神經(jīng)內(nèi)科專家提醒:這7種不舒服其實是腦梗,千萬不要大意,速看

神經(jīng)內(nèi)科專家提醒:這7種不舒服其實是腦梗,千萬不要大意,速看

健身狂人
2026-04-02 19:18:22
收下中國26萬桶柴油轉(zhuǎn)頭就改島名?馬科斯:中國幫大忙,想談合作

收下中國26萬桶柴油轉(zhuǎn)頭就改島名?馬科斯:中國幫大忙,想談合作

墜入二次元的海洋
2026-04-03 00:48:30
“這樣的外形,早戀就別想了!”母親曬兒子照片引爆評論區(qū)。

“這樣的外形,早戀就別想了!”母親曬兒子照片引爆評論區(qū)。

特約前排觀眾
2026-04-02 00:10:03
男子趁妻子去廁所上臺相親,自稱離異多年,被當(dāng)場拆穿后竟稱“我不想要她”!王婆氣得怒罵“渣男”;目擊者:兩口子打起來了

男子趁妻子去廁所上臺相親,自稱離異多年,被當(dāng)場拆穿后竟稱“我不想要她”!王婆氣得怒罵“渣男”;目擊者:兩口子打起來了

大風(fēng)新聞
2026-04-02 17:49:09
75歲姜昆近況曝光,與46歲單身愛女相依為命,晚年日子太讓人羨慕

75歲姜昆近況曝光,與46歲單身愛女相依為命,晚年日子太讓人羨慕

橙星文娛
2026-04-01 16:32:42
善惡有報,移居英國僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

善惡有報,移居英國僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

有范又有料
2025-12-17 14:54:06
釋永信“開光”真相大白,過程不堪入目,易中天也被牽連

釋永信“開光”真相大白,過程不堪入目,易中天也被牽連

往史過眼云煙
2026-03-24 17:05:24
上海全市統(tǒng)一執(zhí)行,非機動車與步行出行規(guī)則更新

上海全市統(tǒng)一執(zhí)行,非機動車與步行出行規(guī)則更新

娛樂圈的筆娛君
2026-04-03 00:01:12
李鵬晚年親口澄清身世:說我是周總理養(yǎng)子?這話其實不準(zhǔn)確

李鵬晚年親口澄清身世:說我是周總理養(yǎng)子?這話其實不準(zhǔn)確

老杉說歷史
2026-03-21 16:56:05
太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

魔都姐姐雜談
2026-03-28 04:04:21
2026-04-03 09:56:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12668文章數(shù) 142605關(guān)注度
往期回顧 全部

科技要聞

SpaceX沖刺2萬億美元估值,馬斯克野心太大

頭條要聞

專家:伊朗導(dǎo)彈數(shù)量足夠維持反擊一到兩周

頭條要聞

專家:伊朗導(dǎo)彈數(shù)量足夠維持反擊一到兩周

體育要聞

邵佳一的改革,從讓每個人踢舒服開始

娛樂要聞

《浪姐》人氣榜出爐!曾沛慈斷層第一

財經(jīng)要聞

全球石油危機或?qū)⒙?/h3>

汽車要聞

軸距2米7/后排能蹺腿 試駕后驅(qū)小車QQ3 EV

態(tài)度原創(chuàng)

旅游
教育
數(shù)碼
公開課
軍事航空

旅游要聞

放春假了,來北京研學(xué)旅游唄——北京推出10條“漫步北京-春假清明研學(xué)主題游線路”

教育要聞

五年級奧數(shù),家長一臉懵,突破口在哪里

數(shù)碼要聞

小米推出米家三區(qū)洗衣機Pro滾筒10kg冰晶白,國補價3994元

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗自殺無人機突進(jìn) 逼退林肯號航母

無障礙瀏覽 進(jìn)入關(guān)懷版