国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

VisionThink提出視覺(jué)令牌壓縮新范式,驅(qū)動(dòng)VLM效率革命

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國(guó)的中立開(kāi)放的AI開(kāi)源社區(qū)。正在,歡迎加入共同成長(zhǎng)。wisemodel推出邀請(qǐng)注冊(cè)獎(jiǎng)勵(lì)活動(dòng),最高可得算力券+token包380元獎(jiǎng)勵(lì),歡迎參與和支持!

視覺(jué)語(yǔ)言模型(VLM)的性能會(huì)隨視覺(jué)令牌數(shù)量增加而顯著提升,但多數(shù)實(shí)際場(chǎng)景無(wú)需這么多視覺(jué)令牌。研究發(fā)現(xiàn),通用視覺(jué)問(wèn)答任務(wù)中,即便圖像分辨率降至原有的四分之一,模型性能也僅出現(xiàn)輕微下滑;而在涉及細(xì)粒度文字識(shí)別的任務(wù)中,性能下降則十分明顯。

針對(duì)這一問(wèn)題,CUHK、HKU和HKUST等機(jī)構(gòu)提出一種全新視覺(jué)令牌壓縮范式 VisionThink。該范式先對(duì)低分辨率圖像進(jìn)行處理,再智能判斷這類圖像是否足以完成當(dāng)前任務(wù)。若判斷結(jié)果為不足,模型則會(huì)輸出特殊的令牌,以此請(qǐng)求高分辨率圖像。

相較于傳統(tǒng)固定壓縮比例的方法,VisionThink 能依據(jù)樣本內(nèi)容動(dòng)態(tài)決定是否壓縮令牌,既在文字識(shí)別任務(wù)中維持了出色性能,又在簡(jiǎn)單任務(wù)中大幅降低了計(jì)算量。采用強(qiáng)化學(xué)習(xí)方法,設(shè)計(jì) “大型語(yǔ)言模型作為評(píng)判者” 的策略,有效優(yōu)化了模型在通用視覺(jué)問(wèn)答任務(wù)中的表現(xiàn)。同時(shí),借助精心構(gòu)建的獎(jiǎng)勵(lì)函數(shù)與懲罰機(jī)制,VisionThink 成功實(shí)現(xiàn)了穩(wěn)定且合理的圖像調(diào)整大小調(diào)用比例,廣泛的實(shí)驗(yàn)表明了本方法的優(yōu)越性、效率和有效性。模型已更新上線始智AI-wisemodel開(kāi)源社區(qū),歡迎大家前去體驗(yàn)。


模型地址

https://wisemodel.cn/models/Senqiao/VisionThink-General

01.

瓶頸分析

強(qiáng)化學(xué)習(xí)是提升大型語(yǔ)言模型推理能力的有效方法,本研究采用組相對(duì)策略優(yōu)化(GRPO)方法,通過(guò)組評(píng)分估計(jì)基線降低計(jì)算成本并提高訓(xùn)練穩(wěn)定性,訓(xùn)練中模型將依據(jù)問(wèn)題構(gòu)建一組輸出,在以 KL 散度約束避免偏離參考模型的同時(shí)優(yōu)化策略以最大化獎(jiǎng)勵(lì)。

而視覺(jué)語(yǔ)言模型的計(jì)算復(fù)雜度主要來(lái)自自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò),總計(jì)算量與 Transformer 層數(shù)、序列長(zhǎng)度、隱藏層維度及前饋網(wǎng)絡(luò)中間層大小相關(guān),序列長(zhǎng)度由系統(tǒng)提示、圖像令牌和問(wèn)題令牌組成且圖像令牌占比最大,因此控制圖像令牌數(shù)量是提升模型效率的關(guān)鍵,兩者形成 “痛點(diǎn)定位 - 技術(shù)落地” 的呼應(yīng),共同服務(wù)于提升視覺(jué)語(yǔ)言模型性能與效率的目標(biāo)。

02.

核心技術(shù)框架

VisionThink 旨在開(kāi)發(fā)一種智能高效的視覺(jué)語(yǔ)言模型,能夠自主判斷低分辨率圖像是否足以回答問(wèn)題,其流程為首先處理低分辨率圖像,若信息不足則輸出特殊令牌請(qǐng)求高分辨率圖像,進(jìn)而降低計(jì)算成本并保持性能。


而實(shí)現(xiàn)這一目標(biāo)需解決兩個(gè)挑戰(zhàn),一是將強(qiáng)化學(xué)習(xí)有效應(yīng)用于通用視覺(jué)問(wèn)答,二是讓模型準(zhǔn)確判斷何時(shí)需要高分辨率圖像;通用視覺(jué)問(wèn)答任務(wù)的多樣性和復(fù)雜性使得傳統(tǒng)基于規(guī)則的強(qiáng)化學(xué)習(xí)難以適用,為此提出“大型語(yǔ)言模型作為評(píng)判者” 策略,利用大型語(yǔ)言模型的語(yǔ)義理解能力評(píng)估模型輸出的正確性,評(píng)估僅基于文本比較預(yù)測(cè)答案與真實(shí)答案以避免視覺(jué)內(nèi)容干擾,并采用離散評(píng)分(0 或 1)減少誤判,實(shí)驗(yàn)表明該策略顯著提升了模型在通用視覺(jué)問(wèn)答任務(wù)中的表現(xiàn),且無(wú)需預(yù)訓(xùn)練階段即可直接使用 130,000 個(gè)樣本進(jìn)行訓(xùn)練。

VisionThink 通過(guò)多輪交互實(shí)現(xiàn)動(dòng)態(tài)分辨率處理,首先輸入低分辨率圖像和問(wèn)題,若信息不足則模型輸出特殊令牌請(qǐng)求高分辨率圖像并生成新答案,擴(kuò)展了 GRPO 算法以支持多輪交互,優(yōu)化僅基于模型生成的輸出令牌,同時(shí)采用 Qwen2.5-VL 推薦的代理提示,實(shí)驗(yàn)證明其在零樣本場(chǎng)景下表現(xiàn)最佳,避免了訓(xùn)練初期因梯度缺失導(dǎo)致的優(yōu)化失敗。

獎(jiǎng)勵(lì)函數(shù)包括準(zhǔn)確性獎(jiǎng)勵(lì)、格式獎(jiǎng)勵(lì)和懲罰機(jī)制,準(zhǔn)確性獎(jiǎng)勵(lì)由 “大型語(yǔ)言模型作為評(píng)判者” 提供,正確答案得 1 分、錯(cuò)誤得 0 分,格式獎(jiǎng)勵(lì)要求模型輸出包含推理過(guò)程(標(biāo)簽)、最終答案(標(biāo)簽)及正確格式的工具調(diào)用(JSON 格式),滿分 0.5 分,懲罰機(jī)制則防止模型總是請(qǐng)求高分辨率圖像或總是直接回答,若低分辨率圖像正確回答的概率低則對(duì)直接回答施加 0.1 分懲罰,若概率高則對(duì)高分辨率請(qǐng)求施加 0.1 分懲罰。


實(shí)驗(yàn)表明適當(dāng)?shù)膽土P閾值(如 0.2)能有效平衡兩種行為;為訓(xùn)練模型判斷何時(shí)需要高分辨率圖像,我們收集了 20,000 個(gè)樣本,包括 10,000 個(gè)需要高分辨率圖像的樣本和 10,000 個(gè)可用低分辨率圖像回答的樣本,使用基線模型 Qwen2.5VL-Instruct 進(jìn)行多次推理,基于正確率分類樣本,確保訓(xùn)練數(shù)據(jù)覆蓋兩種場(chǎng)景。

03.

實(shí)驗(yàn)結(jié)果

我們基于 Qwen2.5-VL-7B-Instruct 模型進(jìn)行實(shí)驗(yàn),采用 veRL 框架訓(xùn)練,設(shè)置批次大小為 512、學(xué)習(xí)率為 1e-6、生成 16 個(gè)候選響應(yīng),推理階段使用 vLLM 框架且溫度設(shè)為 0,評(píng)估覆蓋 ChartQA、OCRBench、DocVQA、MME、MMVet、RealWorldQA、POPE、MMMU 和 MathVista 等多個(gè)通用視覺(jué)問(wèn)答基準(zhǔn),其中 ChartQA 和 OCRBench 等涉及細(xì)粒度文字識(shí)別。

VisionThink 在這些基準(zhǔn)上表現(xiàn)優(yōu)異,與基線模型 Qwen2.5-VL-7B-Instruct 相比,其在 MathVerse 和 MMVet 上的得分分別提升 3.7% 和 8.9%,達(dá)到 48.0 和 67.1,在 MME 上得分 2400、超越所有閉源模型,在 MathVista 上得分 71.2、優(yōu)于所有開(kāi)源模型和部分閉源模型,而使用 130,000 個(gè)樣本的 “大型語(yǔ)言模型作為評(píng)判者” 策略進(jìn)一步驗(yàn)證了其在通用視覺(jué)問(wèn)答任務(wù)中的有效性。


在效率方面,與使用全分辨率圖像的 QwenRL 和四分之一分辨率的 QwenRL 1/4 相比,VisionThink 的推理時(shí)間接近 QwenRL 1/4、顯著優(yōu)于 QwenRL,在 DocVQA 上其推理速度是 QwenRL 的兩倍以上,在 MME 和 POPE 上推理時(shí)間減少約三分之一,僅在需要文字識(shí)別的 ChartQA 上因請(qǐng)求高分辨率圖像而耗時(shí)略多,但此類任務(wù)占比較少,整體效率仍保持較高水平。


與 FastV、SparseVLM 和 VisionZip 等傳統(tǒng)高效視覺(jué)語(yǔ)言模型相比,VisionThink 的平均性能更優(yōu),尤其在 ChartQA 和 OCRBench 上分別提升 9.0% 和 8.3%,這得益于傳統(tǒng)方法依賴固定壓縮比例,而 VisionThink 能根據(jù)樣本內(nèi)容動(dòng)態(tài)調(diào)整分辨率;同時(shí),VisionThink 具備智能決策能力,可自主判斷是否需要高分辨率圖像,在 ChartQA 和 OCRBench 等需細(xì)粒度視覺(jué)理解的任務(wù)中,高分辨率圖像請(qǐng)求比例分別達(dá) 79.1% 和 62.3%,而在 MME 和 DocVQA 等任務(wù)中,70% 以上樣本可直接使用低分辨率圖像回答,這種自適應(yīng)策略符合直覺(jué),日常問(wèn)題通常無(wú)需高分辨率圖像,而文字識(shí)別任務(wù)則依賴細(xì)節(jié)支撐。


04.

結(jié)論

本文介紹了VisionThink,一種用于通用視覺(jué)問(wèn)答(General VQA)的新型范式,旨在提升效率和性能。通過(guò)首先處理下采樣圖像,并在需要時(shí)使用強(qiáng)化學(xué)習(xí)選擇性地將其上采樣到更高分辨率,VisionThink優(yōu)化了計(jì)算資源,同時(shí)保持了準(zhǔn)確性。

借助“將大語(yǔ)言模型作為裁判”的策略和定制的 Reward 函數(shù),VisionThink在多種視覺(jué)問(wèn)答基準(zhǔn)測(cè)試中超越了現(xiàn)有的最先進(jìn)模型,特別是在需要細(xì)粒度細(xì)節(jié)的任務(wù)(如OCR)中表現(xiàn)尤為突出。作者相信VisionThink展示了強(qiáng)化學(xué)習(xí)在視覺(jué)語(yǔ)言模型中的潛力,并鼓勵(lì)開(kāi)發(fā)更有效率和更高效的AI系統(tǒng)。

在本工作中,作者專注于2倍分辨率提升和最多兩次對(duì)話的設(shè)置,并取得了令人滿意的結(jié)果。然而,這一方法尚未擴(kuò)展到靈活分辨率提升的設(shè)置。此外,結(jié)合更多視覺(jué)工具(如裁剪)將進(jìn)一步提升效率和性能。再者,多輪(例如,超過(guò)5輪)圖像工具調(diào)用在解決復(fù)雜視覺(jué)問(wèn)題方面將獲得更多收益。

----- END -----


wisemodel相關(guān):

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開(kāi)源社區(qū)建設(shè)需要長(zhǎng)期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開(kāi)源社區(qū)的志愿者計(jì)劃和開(kāi)源共創(chuàng)計(jì)劃。期待更多開(kāi)發(fā)者將開(kāi)源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開(kāi)放的AI開(kāi)源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請(qǐng)加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開(kāi)源社區(qū)動(dòng)態(tài)。

2

歡迎加盟wisemodel開(kāi)源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來(lái),逐漸成為影響力日益擴(kuò)大的中立開(kāi)放的AI開(kāi)源社區(qū),為了加快公司發(fā)展,我們長(zhǎng)期需要技術(shù)、運(yùn)營(yíng)等人才加盟,技術(shù)側(cè)重在AI infra、后端開(kāi)發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開(kāi)發(fā)者生態(tài)運(yùn)營(yíng)的成員,歡迎感興趣的朋友加盟,可以通過(guò)添加wisemodel微信,或者將簡(jiǎn)歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開(kāi)源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開(kāi)源社區(qū)

始智AI wisemodel.cn開(kāi)源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專委會(huì)副秘書(shū)長(zhǎng)劉道全創(chuàng)立,旨在打造和建設(shè)中立開(kāi)放的AI開(kāi)源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開(kāi)源社區(qū),匯聚主要AI開(kāi)源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開(kāi)發(fā)者,以及政府部門、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開(kāi)源創(chuàng)新生態(tài)。

向上滑動(dòng)查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
張雪峰前女友哭紅眼,喊話不要給張雪峰潑臟水,曝兩人分手原因

張雪峰前女友哭紅眼,喊話不要給張雪峰潑臟水,曝兩人分手原因

180視角
2026-03-26 14:51:03
7旬男子陪老伴住院,醫(yī)生看了他一眼發(fā)現(xiàn)其面部有猝死先兆,將其從死亡邊緣拉回

7旬男子陪老伴住院,醫(yī)生看了他一眼發(fā)現(xiàn)其面部有猝死先兆,將其從死亡邊緣拉回

觀威海
2026-03-26 09:55:04
“親媽霸占消防通道,兒子被火燒死”,這件事,簡(jiǎn)直太魔幻了……

“親媽霸占消防通道,兒子被火燒死”,這件事,簡(jiǎn)直太魔幻了……

桌子的生活觀
2026-03-26 12:28:04
張雪峰去世真相!網(wǎng)友:偌大的公司靠他個(gè)人ip養(yǎng)活,早死是必然的

張雪峰去世真相!網(wǎng)友:偌大的公司靠他個(gè)人ip養(yǎng)活,早死是必然的

火山詩(shī)話
2026-03-25 09:18:58
宋喆出獄后現(xiàn)狀:縣城搬菜月入三千,前妻楊慧橫店開(kāi)公司年入千萬(wàn)

宋喆出獄后現(xiàn)狀:縣城搬菜月入三千,前妻楊慧橫店開(kāi)公司年入千萬(wàn)

一盅情懷
2026-03-26 14:47:59
A股:股民做好下車準(zhǔn)備,大資金明牌了,周五將迎更大的暴風(fēng)雨?

A股:股民做好下車準(zhǔn)備,大資金明牌了,周五將迎更大的暴風(fēng)雨?

夜深愛(ài)雜談
2026-03-26 17:19:44
勇敢發(fā)聲!科威特記者聯(lián)合國(guó)痛批“反以儀式”

勇敢發(fā)聲!科威特記者聯(lián)合國(guó)痛批“反以儀式”

Nee看
2026-03-26 14:15:21
春天,這堿性菜再貴也要多吃,殺菌強(qiáng)免疫,補(bǔ)鈣補(bǔ)鉀兩不誤,好吃

春天,這堿性菜再貴也要多吃,殺菌強(qiáng)免疫,補(bǔ)鈣補(bǔ)鉀兩不誤,好吃

阿龍美食記
2026-03-25 10:38:40
廣東一男子買啤酒抽中電動(dòng)車大獎(jiǎng),將中獎(jiǎng)二維碼發(fā)網(wǎng)上詢問(wèn)后被他人掃走核銷,網(wǎng)友:“這下又上了一課”

廣東一男子買啤酒抽中電動(dòng)車大獎(jiǎng),將中獎(jiǎng)二維碼發(fā)網(wǎng)上詢問(wèn)后被他人掃走核銷,網(wǎng)友:“這下又上了一課”

洪觀新聞
2026-03-26 10:56:49
烏克蘭打出400:1恐怖戰(zhàn)績(jī),俄羅斯列寧格勒港口基本被打癱瘓

烏克蘭打出400:1恐怖戰(zhàn)績(jī),俄羅斯列寧格勒港口基本被打癱瘓

史政先鋒
2026-03-26 16:17:12
高速統(tǒng)一限速3月26日正式落地!五檔限速+清理非標(biāo)不會(huì)再亂扣分!

高速統(tǒng)一限速3月26日正式落地!五檔限速+清理非標(biāo)不會(huì)再亂扣分!

沙雕小琳琳
2026-03-26 09:41:30
湖北十堰大山深處,那個(gè)號(hào)稱“小香港”的萬(wàn)人廠,如今人去樓空

湖北十堰大山深處,那個(gè)號(hào)稱“小香港”的萬(wàn)人廠,如今人去樓空

GA環(huán)球建筑
2026-03-26 14:10:54
斯柯達(dá)將退出中國(guó),大眾中國(guó)回應(yīng)

斯柯達(dá)將退出中國(guó),大眾中國(guó)回應(yīng)

第一財(cái)經(jīng)資訊
2026-03-26 15:14:56
網(wǎng)友曝張雪峰搶救細(xì)節(jié):倒地30分鐘才被發(fā)現(xiàn),用ECMO全力搶救無(wú)效

網(wǎng)友曝張雪峰搶救細(xì)節(jié):倒地30分鐘才被發(fā)現(xiàn),用ECMO全力搶救無(wú)效

半窗疏影
2026-03-26 20:17:36
萬(wàn)科高管被要求退還薪酬

萬(wàn)科高管被要求退還薪酬

地產(chǎn)微資訊
2026-03-26 12:22:04
伊朗女藥劑師拒絕撤離,空襲第10天在“精準(zhǔn)”打擊下被“誤殺”

伊朗女藥劑師拒絕撤離,空襲第10天在“精準(zhǔn)”打擊下被“誤殺”

網(wǎng)易新聞出品
2026-03-26 11:16:13
張雪峰去世巨額遺產(chǎn)曝光,能給女兒留下多少錢?

張雪峰去世巨額遺產(chǎn)曝光,能給女兒留下多少錢?

藍(lán)鯨新聞
2026-03-26 17:41:20
俄羅斯主帥:FIFA把我們禁賽了,就算加入亞足聯(lián)頂多踢亞洲杯

俄羅斯主帥:FIFA把我們禁賽了,就算加入亞足聯(lián)頂多踢亞洲杯

懂球帝
2026-03-26 16:30:07
香港馬拉松,阿Sa臉饅化成蔡明,黃曉明白又嫩,林志玲被嘲太做作

香港馬拉松,阿Sa臉饅化成蔡明,黃曉明白又嫩,林志玲被嘲太做作

老吳教育課堂
2026-03-26 14:11:15
中共中央批準(zhǔn),開(kāi)除劉慧黨籍

中共中央批準(zhǔn),開(kāi)除劉慧黨籍

新京報(bào)
2026-03-26 17:14:17
2026-03-26 21:51:00
wisemodel開(kāi)源社區(qū) incentive-icons
wisemodel開(kāi)源社區(qū)
始智AI wisemodel.cn開(kāi)源社區(qū),打造中國(guó)版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

美國(guó)總統(tǒng)特朗普公開(kāi)宣布訪華行程 外交部回應(yīng)

頭條要聞

美國(guó)總統(tǒng)特朗普公開(kāi)宣布訪華行程 外交部回應(yīng)

體育要聞

申京努力了,然而杜蘭特啊

娛樂(lè)要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開(kāi)啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

家居
手機(jī)
教育
本地
游戲

家居要聞

傍海而居 靜觀蝴蝶海

手機(jī)要聞

15年經(jīng)典落幕!MIUI正式停更,澎湃OS全面接棒

教育要聞

江蘇省教育廳公布全省中小學(xué)生競(jìng)賽活動(dòng)名單

本地新聞

救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬(wàn)遍

開(kāi)沖!PS會(huì)員4月離庫(kù)名單公布:獨(dú)立神作進(jìn)入倒計(jì)時(shí)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版