国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ApdativeNN:建模類人自適應感知機制,突破機器視覺不可能三角

0
分享至



視覺是人類理解復雜物理世界的重要方式。讓計算機具備視覺感知與認知的能力,是人工智能的主要研究問題之一,對多模態(tài)基礎模型、具身智能、醫(yī)療 AI 等重要領域具有關鍵支撐作用。過去幾十年間,計算機視覺取得了顯著突破,已在圖像識別、目標檢測、多模態(tài)理解等多個任務上接近甚至超越人類專家水平。然而,當前的高精度模型在實際落地中常面臨較大挑戰(zhàn):它們的推理過程往往需要激活上億參數(shù)來處理高分辨率圖像或視頻、以解決復雜和挑戰(zhàn)性的視覺問題,導致功耗、存儲需求和響應時延急劇上升。這一瓶頸使得它們難以部署在算力、能耗、存儲等資源高度受限的實際系統(tǒng)中(如機器人、自動駕駛、移動設備或邊緣終端等),甚至在醫(yī)療、交通等場景下由于延遲決策危害生命安全。另一方面,大型模型龐大的推理能耗在也帶來了大規(guī)模部署的環(huán)境可持續(xù)性問題。

上述挑戰(zhàn)的一個重要原因在于現(xiàn)有視覺模型普遍采用了全局表征學習范式:一次性并行處理整幅圖像或視頻的所有像素、提取全部對應特征,再應用于具體任務。這種 “全局并行計算” 范式使得模型計算復雜度隨輸入尺寸呈至少平方或立方增長,逐漸形成了一個日益嚴峻的能效瓶頸:信息豐富的高分辨率時空輸入、性能領先的大型模型、高效快速推理,三者難以同時滿足。這一挑戰(zhàn)正在成為制約視覺智能走向大規(guī)模、可部署落地、低碳環(huán)保的公認難題。



圖1 當前計算機視覺范式所面臨的能效瓶頸

人類視覺系統(tǒng)為突破上述瓶頸提供了重要啟示:在觀察復雜環(huán)境時,人眼不會一次性處理全部視覺信息,而是通過一系列 “注視” 動作主動、選擇性地采樣關鍵區(qū)域,以小范圍高分辨率的感知逐步拼接出對物理世界中有用信息的認知。這種先進的機制能在龐雜的信息流中快速篩取要點,大幅降低計算開銷,使得人類高度復雜的視覺系統(tǒng)即便在資源受限的前提下依然能夠高效、快速運行。無論外界場景多么復雜,人類視覺的能耗主要取決于注視帶寬與注視次數(shù),而非全局像素量。早在 2015 年,LeCun, Bengio, Hinton 便在《Nature》綜述論文 “Deep Learning” 中指出,未來的 AI 視覺系統(tǒng)應具備類人的、任務驅(qū)動的主動觀察能力。然而近十年來,這一方向仍缺乏系統(tǒng)性研究。



圖2 人類視覺系統(tǒng)的主動自適應感知策略

2025 年 11 月,清華大學自動化系宋士吉、黃高團隊在《自然?機器智能》(Nature Machine Intelligence)上發(fā)表了論文《Emulating human-like adaptive vision for efficient and flexible machine visual perception》(模擬人類自適應視覺,實現(xiàn)高效靈活的機器視覺感知)。該研究提出了AdaptiveNN 架構,通過借鑒人類 “主動自適應視覺” 的機制,將視覺感知建模為由粗到精的最優(yōu)序貫決策問題:逐步定位關鍵區(qū)域、累積多次注視信息,并在信息足夠完成任務時主動終止觀察。在理論上,該研究通過結(jié)合表征學習與自獎勵強化學習,給出了 AdaptiveNN 所面臨的離散 - 連續(xù)混合優(yōu)化問題的無需額外監(jiān)督的端到端求解方法。在涵蓋 9 類任務的廣泛實驗中,AdaptiveNN 在保持精度的同時實現(xiàn)了最高 28 倍的推理成本降低,可在線動態(tài)調(diào)整其行為以適配不同任務需求與算力約束,同時,其基于注視路徑的推理機制顯著提升了可解釋性。AdaptiveNN 展現(xiàn)出構建高效、靈活且可解釋的計算機視覺新范式的潛力。另一方面,AdaptiveNN 的感知行為在多項測試中與人類接近,也為未來探索人類視覺認知機制的關鍵問題提供了新的見解和研究工具。



  • 論文標題:Emulating human-like adaptive vision for efficient and flexible machine visual perception
  • 論文鏈接:https://www.nature.com/articles/s42256-025-01130-7

AdaptiveNN:類人主動感知架構



借助這一機制,AdaptiveNN 能夠在保證高精度的同時顯著降低計算量,實現(xiàn)“看得清,也看得省”。它使神經(jīng)網(wǎng)絡具備了類人式的主動感知,從而突破了傳統(tǒng)視覺模型在效率與效果之間的權衡瓶頸。

值得注意的是,AdaptiveNN 在設計上具有較強的兼容性和靈活性,適用于多種不同的深度神經(jīng)網(wǎng)絡基礎架構(如卷積網(wǎng)絡、Transformer等)和多種類型的任務(如純視覺感知、視覺-語言多模態(tài)聯(lián)合建模等)。



圖3 AdaptiveNN的網(wǎng)絡架構和推理過程

理論創(chuàng)新:自激勵強化學習驅(qū)動的主動感知行為學習

AdaptiveNN 的訓練過程同時涉及連續(xù)變量(如從注視區(qū)域中提取特征)與離散變量(如決定下一次注視位置)的優(yōu)化,傳統(tǒng)反向傳播算法難以直接處理這一混合問題。為此,研究團隊在理論上提出了面向離散 - 連續(xù)混合優(yōu)化問題的端到端求解方法,使 AdaptiveNN 能夠在統(tǒng)一框架下簡單易行地完成整體訓練。具體而言,從期望優(yōu)化目標出發(fā),對整體損失函數(shù) L(θ) 進行分解,AdaptiveNN 的端到端優(yōu)化過程可自然地分解為兩部分



其中第一項為表征學習目標(representation learning),對應于從注視區(qū)域中提取任務相關的特征;第二項為自激勵強化學習目標(self-rewarding reinforcement learning),對應于優(yōu)化注視位置的分布,驅(qū)使模型的主動注視行為實現(xiàn)最大化的任務收益。這一理論結(jié)果揭示了 AdaptiveNN 的內(nèi)在學習規(guī)律:主動感知的優(yōu)化本質(zhì)上是表征學習與強化學習的統(tǒng)一



圖4 強化學習驅(qū)動的端到端主動視覺的理論框架

實驗驗證:高效視覺感知,類人視覺行為

  • 性能提升顯著:在使用相同主干網(wǎng)絡(如 DeiT-S、ResNet-50)的情況下,AdaptiveNN-DeiT-S 和 AdaptiveNN-ResNet-50 分別以2.86 GFLOPs 與 3.37 GFLOPs的平均計算量,取得與傳統(tǒng)靜態(tài)模型相當甚至更優(yōu)的準確率(81.6% / 79.1%),實現(xiàn)了 5.4× 與 3.6× 的計算節(jié)省。
  • 可解釋性增強:AdaptiveNN 的注視軌跡自動聚焦于類別判別性區(qū)域,例如動物的頭部、樂器的關鍵結(jié)構、咖啡機的旋鈕與噴嘴等。當目標較小或遠離攝像機時,模型會自適應地延長觀察序列,主動調(diào)整注視步數(shù)以獲得更精確的判斷。這種 “由粗到細、按需注視” 的策略,與人類視覺的逐步注視過程高度一致。



圖5 ImageNet視覺感知實驗結(jié)果

為了進一步驗證 AdaptiveNN 的泛化與精細感知能力,研究團隊在六個細粒度視覺識別任務(CUB-200、NABirds、Oxford-IIIT Pet、Stanford Dogs、Stanford Cars、FGVC-Aircraft)上進行了系統(tǒng)評估。

  • AdaptiveNN 在保持精度基本不變甚至略有提升的情況下,實現(xiàn)了5.8×–8.2× 的計算量節(jié)省,顯著超越傳統(tǒng)靜態(tài)視覺模型的性能–能效上限。
  • 通過可視化(Fig. A1b–A1e),可以看到模型自發(fā)聚焦于任務判別性區(qū)域 —— 如鳥類的喙部、犬類的面部、汽車的燈組與航空器的螺旋槳 —— 而無需任何顯式的定位監(jiān)督。



圖6 細粒度視覺識別任務實驗結(jié)果

AdaptiveNN 在空間注視位置任務難度判斷兩個層面,都展現(xiàn)出與人類視覺高度一致的自適應行為。定量結(jié)果表明,無論是 “看哪里”、還是 “覺得什么難”,模型的感知策略都與人類極為相似。在 “視覺圖靈測試” 中,人類受試者幾乎無法區(qū)分模型與真實人類的凝視軌跡。

更值得關注的是,這一成果對認知科學的研究具有啟發(fā)意義。AdaptiveNN 的結(jié)果不僅為理解人類視覺行為的關鍵認知科學問題(例如 “視覺能力的形成究竟源于先天機制還是后天學習”)提供了新的啟發(fā),也展示了其作為一種通用計算模型的潛力。未來,AdaptiveNN 有望用于模擬和檢驗人類的注意分配、感知學習、以及復雜任務中的視覺決策機制,為將來認知科學方面的研究提供了潛在的定量工具。



圖7 AdaptiveNN與人類視覺感知行為的一致性測試

從視覺感知到邁向高效具身推理

在實驗驗證中,研究團隊進一步將 AdaptiveNN 應用于具身智能的基礎模型(視覺 - 語言 - 行為模型,VLA)上結(jié)果表明,該框架在復雜操作場景中顯著提升了具身基礎模型的推理與感知效率,在保持任務成功率的同時將計算開銷大幅降低 4.4-5.9 倍。這一成果為解決具身智能系統(tǒng)長期面臨的效率瓶頸提供了新的思路與技術路徑。



圖8 ApdativeNN應用于VLA具身任務的實驗結(jié)果

清華大學自動化系博士生王語霖、樂洋、樂陽為論文共同第一作者,宋士吉教授與黃高副教授為共同通訊作者。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
膽小誤入!嚴重骨折,畸形骨折

膽小誤入!嚴重骨折,畸形骨折

風子說個球
2026-02-24 19:47:55
30國齊上陣?莫迪通知全球,對美打響第一槍,印度變臉準時上演

30國齊上陣?莫迪通知全球,對美打響第一槍,印度變臉準時上演

霽寒飄雪
2026-02-24 19:38:17
不出意外的話,中國未來有超過一半的人口,或?qū)魅氲竭@些地方

不出意外的話,中國未來有超過一半的人口,或?qū)魅氲竭@些地方

燦若銀爛
2026-02-12 01:17:52
不可錯過!2月24日晚上21:30比賽!中央5套CCTV5、CCTV5+直播表

不可錯過!2月24日晚上21:30比賽!中央5套CCTV5、CCTV5+直播表

皮皮觀天下
2026-02-24 18:08:41
中國男籃PK日本隊!郭士強想要贏球,需要重用2人

中國男籃PK日本隊!郭士強想要贏球,需要重用2人

體育哲人
2026-02-24 19:47:48
外國游客被震醒了!被中國“慣壞”回國后,集體吐槽歐美基礎設施

外國游客被震醒了!被中國“慣壞”回國后,集體吐槽歐美基礎設施

人間放映廳
2026-02-24 15:37:14
卷走53億!又一大佬帶全家跑路,欠中國銀行20億,投資者血本無歸

卷走53億!又一大佬帶全家跑路,欠中國銀行20億,投資者血本無歸

以茶帶書
2025-12-09 23:33:58
日本女子冰壺隊長因酷似孫燕姿在冬奧走紅!社媒低調(diào)全是比賽照

日本女子冰壺隊長因酷似孫燕姿在冬奧走紅!社媒低調(diào)全是比賽照

Emily說個球
2026-02-22 23:39:17
汪小菲再當爸,初七喜得麟兒!
?再次喜當奶奶的張?zhí)m在直播報喜

汪小菲再當爸,初七喜得麟兒! ?再次喜當奶奶的張?zhí)m在直播報喜

魔都姐姐雜談
2026-02-24 18:36:05
王晶沒撒謊!退出春晚、和沈騰決裂,性格大變的賈玲印證他說的話

王晶沒撒謊!退出春晚、和沈騰決裂,性格大變的賈玲印證他說的話

胡一舸南游y
2026-01-25 14:54:04
“人老珠黃不值錢”大年初三,54歲的洪欣寒風中穿吊帶,商演走穴

“人老珠黃不值錢”大年初三,54歲的洪欣寒風中穿吊帶,商演走穴

放開他讓wo來
2026-02-24 09:00:09
22歲谷愛凌:我有個想法,但我不敢說,要做個動作成女子歷史第1

22歲谷愛凌:我有個想法,但我不敢說,要做個動作成女子歷史第1

風過鄉(xiāng)
2026-02-24 10:45:07
以前的五代影視劇都以南唐為主角,太平年為什么以吳越為主角?

以前的五代影視劇都以南唐為主角,太平年為什么以吳越為主角?

老達子
2026-02-24 06:35:05
曝魅族徹底放棄手機業(yè)務,團隊全裁

曝魅族徹底放棄手機業(yè)務,團隊全裁

三言科技
2026-02-24 18:06:14
可悲!已經(jīng)獨立百年的外蒙古,正在把中國人40年的努力毀掉

可悲!已經(jīng)獨立百年的外蒙古,正在把中國人40年的努力毀掉

水泥土的搞笑
2026-02-24 17:29:12
外資撤不走,中國攔不住,如今的中國廣東,制造早已不是代工

外資撤不走,中國攔不住,如今的中國廣東,制造早已不是代工

甜檸聊史
2026-01-23 14:01:57
同樣煮餃子,“蓋蓋煮”和“不蓋蓋煮”區(qū)別大,難怪煮出來不一樣

同樣煮餃子,“蓋蓋煮”和“不蓋蓋煮”區(qū)別大,難怪煮出來不一樣

阿龍美食記
2026-02-23 17:00:18
沒人發(fā)拜年微信了,這是一個危險的信號

沒人發(fā)拜年微信了,這是一個危險的信號

茉莉聊聊天
2026-02-18 10:48:40
哪怕辟謠100次,如今依舊有球迷對NBA這5大謠言深信不疑

哪怕辟謠100次,如今依舊有球迷對NBA這5大謠言深信不疑

毒舌NBA
2026-02-24 07:05:56
神仙打架!不止胖東來,河南商超五虎+豫超四小龍,撐起中原商超半邊天!

神仙打架!不止胖東來,河南商超五虎+豫超四小龍,撐起中原商超半邊天!

中國零售信息
2026-02-23 21:00:13
2026-02-24 20:35:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12344文章數(shù) 142569關注度
往期回顧 全部

科技要聞

AI顛覆發(fā)展最新犧牲品!IBM跳水重挫超13%

頭條要聞

20家日本實體被列入管制名單 中方:完全正當 合理合法

頭條要聞

20家日本實體被列入管制名單 中方:完全正當 合理合法

體育要聞

蘇翊鳴總結(jié)米蘭征程:我仍是那個熱愛單板滑雪的少年

娛樂要聞

汪小菲官宣三胎出生:承諾會照顧好3個孩子

財經(jīng)要聞

縣城消費「限時繁榮」了十天

汽車要聞

入門即滿配 威蘭達AIR版上市 13.78萬元起

態(tài)度原創(chuàng)

本地
藝術
游戲
房產(chǎn)
公開課

本地新聞

春花齊放2026:《駿馬奔騰迎新歲》

藝術要聞

2025年第八屆全國青年美展 | 油畫作品選刊

天國拯救影視化官宣!主創(chuàng)卸任創(chuàng)意總監(jiān)全力投身

房產(chǎn)要聞

330萬人涌入!春節(jié)全國樓市,第一個賣爆的區(qū)域出現(xiàn)了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版