国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型時(shí)代,通用視覺模型將何去何從?

0
分享至



過去幾年,通用視覺模型(Vision Generalist Model,簡稱 VGM)曾是計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)。它們試圖構(gòu)建統(tǒng)一的架構(gòu),能夠處理圖像、點(diǎn)云、視頻等多種視覺模態(tài)輸入,以及分類、檢測、分割等多樣的下游任務(wù),向著「視覺模型大一統(tǒng)」的目標(biāo)邁進(jìn)。

然而,隨著大語言模型 LLM 的迅猛發(fā)展,研究熱點(diǎn)已經(jīng)悄然發(fā)生轉(zhuǎn)移。如今,多模態(tài)大模型興起,視覺被看作是語言模型眾多輸入模態(tài)中的一種,視覺模態(tài)數(shù)據(jù)被離散化為 Token,與文本一起被統(tǒng)一建模,視覺的「獨(dú)立性」正在被重新定義。

在這種趨勢下,傳統(tǒng)意義上以視覺任務(wù)為核心、以視覺范式為驅(qū)動的通用視覺模型研究,似乎正在逐漸被邊緣化。然而,我們認(rèn)為視覺領(lǐng)域仍應(yīng)保有自己的特色和研究重點(diǎn)。與語言數(shù)據(jù)相比,視覺數(shù)據(jù)具有結(jié)構(gòu)化強(qiáng)、空間信息豐富等天然優(yōu)勢,但也存在視覺模態(tài)間差異大、難替代的挑戰(zhàn)。例如:如何統(tǒng)一處理 2D 圖像、3D 點(diǎn)云和視頻流等異質(zhì)輸入?如何設(shè)計(jì)統(tǒng)一的輸出表示來同時(shí)支持像素級分割和目標(biāo)檢測等不同任務(wù)?這些問題在當(dāng)前的多模態(tài)范式中并未被充分解決。

正因如此,在這個(gè)多模態(tài)模型席卷科研與工業(yè)的新時(shí)代,回顧并總結(jié)純視覺范式下的通用視覺模型研究仍然是一件十分有意義的事情。清華大學(xué)自動化系魯繼文團(tuán)隊(duì)最近發(fā)表于 IJCV 的綜述論文系統(tǒng)梳理了該方向的研究進(jìn)展,涵蓋輸入統(tǒng)一方法、任務(wù)通用策略、模型框架設(shè)計(jì)、模型評測應(yīng)用等內(nèi)容,希望能為未來視覺模型的發(fā)展提供參考與啟發(fā)。



  • 論文標(biāo)題:Vision Generalist Model: A Survey
  • 論文鏈接:
  • https://arxiv.org/abs/2506.09954



VGM 到底解決了什么問題?

通用視覺模型是一種能夠處理多種視覺任務(wù)和模態(tài)輸入的模型框架。類似于大語言模型在自然語言處理中的成功,VGM 旨在通過構(gòu)建一個(gè)統(tǒng)一的架構(gòu)來解決各種計(jì)算機(jī)視覺任務(wù)。傳統(tǒng)的視覺模型通常針對特定任務(wù)(如圖像分類、目標(biāo)檢測、語義分割等)設(shè)計(jì),而 VGM 通過廣泛的預(yù)訓(xùn)練和共享表示,能夠在不同的視覺任務(wù)之間實(shí)現(xiàn)零樣本(Zero-shot)遷移,從而無需為每個(gè)任務(wù)進(jìn)行專門的調(diào)整。

VGM 的關(guān)鍵能力之一是其多模態(tài)輸入的統(tǒng)一處理能力。不同于傳統(tǒng)模型只處理單一類型的視覺數(shù)據(jù),VGM 能夠同時(shí)處理來自多個(gè)模態(tài)的數(shù)據(jù),如圖像、點(diǎn)云、視頻等,并通過統(tǒng)一的表示方法將它們映射到共享的特征空間。

此外,VGM 還具備強(qiáng)大的多任務(wù)學(xué)習(xí)能力,能夠在同一個(gè)模型中處理多個(gè)視覺任務(wù),從圖像識別到視頻分析,所有任務(wù)都可以在一個(gè)通用框架下并行處理。

綜述涵蓋了哪些核心內(nèi)容?

數(shù)據(jù) + 任務(wù) + 評測:為通用建模打基礎(chǔ)

VGM 通常使用大規(guī)模、多樣化的數(shù)據(jù)集進(jìn)行訓(xùn)練和評估。為了支持多模態(tài)學(xué)習(xí),VGM 使用的訓(xùn)練數(shù)據(jù)集涵蓋了圖像、視頻、點(diǎn)云等多種類型,本綜述列舉并介紹了一些常見的多模態(tài)數(shù)據(jù)集。

任務(wù)方面,本綜述將視覺任務(wù)分為四類:圖像任務(wù)、幾何任務(wù)、時(shí)間序列任務(wù)以及其他視覺相關(guān)任務(wù)。評測方面,主要通過多個(gè)綜合基準(zhǔn)來衡量其在多種任務(wù)和數(shù)據(jù)集上的表現(xiàn)。與傳統(tǒng)的單一任務(wù)評測不同,現(xiàn)代評測方法更注重模型的跨任務(wù)泛化和多模態(tài)處理能力。本綜述也對現(xiàn)有通用視覺模型的評測基準(zhǔn)做了充分的調(diào)研與總結(jié)。

模型設(shè)計(jì)范式與技術(shù)補(bǔ)充



現(xiàn)有通用視覺模型的設(shè)計(jì)范式主要集中在如何統(tǒng)一處理不同視覺模態(tài)輸入和多樣化任務(wù)輸出,大致可以分為兩種類型:編碼式框架和序列到序列框架。

編碼式框架(Encoding-based Framework)旨在通過構(gòu)建一個(gè)共享的特征空間來統(tǒng)一不同的輸入模態(tài),并使用 Transformer 等模型進(jìn)行編碼。這類框架通常包括領(lǐng)域特定的編碼器來處理不同類型的數(shù)據(jù),如圖像、文本和音頻,然后通過共享的 Transformer 結(jié)構(gòu)進(jìn)行進(jìn)一步處理,最終生成統(tǒng)一的輸出。

而序列到序列框架(Sequence-to-Sequence Framework)則借鑒了自然語言處理中的序列建模方法,將輸入數(shù)據(jù)轉(zhuǎn)換為固定長度的表示,然后通過解碼器生成相應(yīng)的輸出。這些框架特別適合處理具有可變長度輸入輸出的任務(wù),如圖像生成和視頻分析。

盡管有一些工作并不能被定義為通用視覺模型,但它們在聯(lián)合多模態(tài)數(shù)據(jù)輸入、模型架構(gòu)設(shè)計(jì)、協(xié)同處理多任務(wù)輸出等方面做出了卓越的技術(shù)貢獻(xiàn)。本綜述也對這些技術(shù)進(jìn)行了詳盡的討論分析。一些相關(guān)領(lǐng)域的內(nèi)容,如多任務(wù)學(xué)習(xí)、視覺-語言學(xué)習(xí)、開放詞匯,也被用來擴(kuò)充通用視覺模型領(lǐng)域的知識邊界。

此外,作為一個(gè) case study,本綜述對比了收錄了多個(gè)主流 VGM 模型在 22 個(gè)基準(zhǔn)數(shù)據(jù)集上的評測結(jié)果:



VGM 的未來在哪里?

最后,本綜述總結(jié)了 VGM 的當(dāng)前研究進(jìn)展和面臨的挑戰(zhàn),還強(qiáng)調(diào)了其在實(shí)際應(yīng)用中的潛力和未來發(fā)展方向。

現(xiàn)有 VGM 在多個(gè)任務(wù)和多模態(tài)輸入的統(tǒng)一處理方面已經(jīng)取得了顯著的進(jìn)展,但仍面臨著如何優(yōu)化統(tǒng)一框架設(shè)計(jì)、提高訓(xùn)練效率和應(yīng)對大規(guī)模數(shù)據(jù)等挑戰(zhàn)。數(shù)據(jù)獲取和標(biāo)注仍然是 VGM 發(fā)展的瓶頸。

為了解決這一問題,自動化標(biāo)注技術(shù)以及大規(guī)模無監(jiān)督學(xué)習(xí)方法的研究將成為未來的研究重點(diǎn)。然而,隨著模型規(guī)模的擴(kuò)大,VGM 也面臨著倫理問題和偏見的挑戰(zhàn)。大量未標(biāo)注的數(shù)據(jù)中可能包含潛在的偏見,如何確保模型的公平性、透明性和安全性,仍是未來研究中的重要課題。

盡管如此,現(xiàn)有的 VGM 在實(shí)際應(yīng)用中展示了廣泛的潛力。它不僅可以用于傳統(tǒng)的視覺任務(wù),如圖像分類、目標(biāo)檢測和語義分割,還能擴(kuò)展到更復(fù)雜的多模態(tài)任務(wù),如視覺問答、圖像-文本檢索、視頻理解等。這些應(yīng)用涵蓋了智能監(jiān)控、自動駕駛、機(jī)器人等多個(gè)領(lǐng)域,推動了 VGM 在實(shí)際場景中的廣泛部署。

希望這篇文章能給研究中的你一些啟發(fā)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
掌權(quán)40年,洪森家族到底賺了多少?他小女兒的奢靡曝光,可見一斑

掌權(quán)40年,洪森家族到底賺了多少?他小女兒的奢靡曝光,可見一斑

明月光
2025-12-17 19:06:45
全部賣完了!中山老板接班22年,親手?jǐn)」饬藥资畠|家族資產(chǎn)

全部賣完了!中山老板接班22年,親手?jǐn)」饬藥资畠|家族資產(chǎn)

壹只灰鴿子
2025-12-18 21:03:00
1年變6個(gè)月?火箭主控恢復(fù)神速!復(fù)出時(shí)間出爐:或趕上常規(guī)賽收官

1年變6個(gè)月?火箭主控恢復(fù)神速!復(fù)出時(shí)間出爐:或趕上常規(guī)賽收官

熊哥愛籃球
2025-12-19 21:11:10
為什么建議買“貴”的衣服?和收入無關(guān),看完穿搭對比,你就明白

為什么建議買“貴”的衣服?和收入無關(guān),看完穿搭對比,你就明白

八分搭配
2025-12-19 22:30:17
實(shí)錘了!龐萊臣捐贈藏品果然被拍賣了,一幅畫2014年被拍賣230萬

實(shí)錘了!龐萊臣捐贈藏品果然被拍賣了,一幅畫2014年被拍賣230萬

火山詩話
2025-12-19 14:26:47
翁帆新消息傳來,太令人驚喜了

翁帆新消息傳來,太令人驚喜了

深度報(bào)
2025-12-18 22:35:44
北京最大奧萊“灣里”今天試營業(yè)!地鐵直達(dá),最全交通攻略請查收→

北京最大奧萊“灣里”今天試營業(yè)!地鐵直達(dá),最全交通攻略請查收→

環(huán)京零距離
2025-12-19 21:26:22
“親爹咋能這么糟蹋閨女?”父親拍下女兒視頻,網(wǎng)友都看不下去了

“親爹咋能這么糟蹋閨女?”父親拍下女兒視頻,網(wǎng)友都看不下去了

妍妍教育日記
2025-12-12 23:15:07
確認(rèn)了:7級!還有雨夾雪、雪!明天抵達(dá)浙江

確認(rèn)了:7級!還有雨夾雪、雪!明天抵達(dá)浙江

環(huán)球網(wǎng)資訊
2025-12-19 17:14:12
中方發(fā)話后,泰國開出?;饤l件,洪森父子倒向美國,最大輸家已定

中方發(fā)話后,泰國開出?;饤l件,洪森父子倒向美國,最大輸家已定

介知
2025-12-18 14:57:27
勝廣州發(fā)布會!杜鋒不滿領(lǐng)先后松懈,徐杰同理并直指防反擊差!

勝廣州發(fā)布會!杜鋒不滿領(lǐng)先后松懈,徐杰同理并直指防反擊差!

籃球資訊達(dá)人
2025-12-19 22:50:28
TA:告別或許臨近,瓜迪奧拉為英超留下了獨(dú)一無二的時(shí)代

TA:告別或許臨近,瓜迪奧拉為英超留下了獨(dú)一無二的時(shí)代

懂球帝
2025-12-19 14:05:11
最新!愛潑斯坦案檔案公布前夕,民主黨人再披露68張新照片

最新!愛潑斯坦案檔案公布前夕,民主黨人再披露68張新照片

環(huán)球網(wǎng)資訊
2025-12-19 09:39:20
冬天這菜使勁吃!一助睡眠,二降肝火,三可排毒,鮮嫩爽口別錯(cuò)過

冬天這菜使勁吃!一助睡眠,二降肝火,三可排毒,鮮嫩爽口別錯(cuò)過

秀廚娘
2025-12-17 19:43:07
【史話】真假:毛澤東時(shí)代,“南京大屠殺”沒像今天這樣成為熱點(diǎn)

【史話】真假:毛澤東時(shí)代,“南京大屠殺”沒像今天這樣成為熱點(diǎn)

年之父
2025-12-16 09:27:37
打擊網(wǎng)絡(luò)詐騙國際會議在曼谷召開

打擊網(wǎng)絡(luò)詐騙國際會議在曼谷召開

財(cái)聯(lián)社
2025-12-18 17:05:04
海南剛封關(guān),越南就坐不住了?面對無解“陽謀”,連夜抄作業(yè)!

海南剛封關(guān),越南就坐不住了?面對無解“陽謀”,連夜抄作業(yè)!

貍花小咪
2025-12-19 02:34:06
U18國青邊后衛(wèi)、鄧捷夫、加盟北京國安,博主質(zhì)疑引援策略

U18國青邊后衛(wèi)、鄧捷夫、加盟北京國安,博主質(zhì)疑引援策略

兩兄弟養(yǎng)牛
2025-12-19 22:45:05
2019年,被“港獨(dú)”暴徒圍攻,被迫舉槍的光頭警長,后來怎樣了?

2019年,被“港獨(dú)”暴徒圍攻,被迫舉槍的光頭警長,后來怎樣了?

知鑒明史
2025-12-18 18:21:51
1980年光緒墓開棺老照片:尸體臉朝下左腿斷裂,毛發(fā)檢測竟藏砒霜

1980年光緒墓開棺老照片:尸體臉朝下左腿斷裂,毛發(fā)檢測竟藏砒霜

抽象派大師
2025-11-26 06:22:16
2025-12-19 23:44:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142513關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來

頭條要聞

普京:俄方愿在烏克蘭選舉期間暫時(shí)停止打擊

頭條要聞

普京:俄方愿在烏克蘭選舉期間暫時(shí)停止打擊

體育要聞

“惡龍”埃托奧,正在毀滅喀麥隆足球

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

日元加息,恐慌來了?貨幣三國殺

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

游戲
教育
時(shí)尚
親子
藝術(shù)

CRPG 天花板煥新!《神界原罪 2》次世代版免費(fèi)升,聯(lián)機(jī)靠它絲滑

教育要聞

近期湖北教育重磅利好,對家長們的意義!

59天后的春晚,她必是焦點(diǎn)

親子要聞

今天帶老撾媳婦來大山里的農(nóng)家買紅薯粉條

藝術(shù)要聞

諸樂三的寫意花鳥

無障礙瀏覽 進(jìn)入關(guān)懷版