国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Being-VL的視覺BPE路線:把「看」和「說」真正統(tǒng)一起來

0
分享至



在多模態(tài)模型里,CLIP-style encoder往往把視覺表征過早地拉近到文本空間:對于抽象層面的問答,如總結(jié)圖片大致內(nèi)容,這樣的表征其實是沒有什么問題的,但一旦追問與語言無強依賴的細(xì)節(jié),模型就更易出現(xiàn)幻覺。根本原因之一,是在文本空間對齊之前,原生視覺結(jié)構(gòu)已被不可逆地壓縮 / 丟失,而語言模型不得不「二次解碼」來自他模態(tài)的 embedding,導(dǎo)致對齊脆弱、推理鏈條變長。

為此,北大、UC San Diego 和 BeingBeyond 聯(lián)合提出一種新的方法——Being-VL 的視覺 BPE 路線。Being-VL 的出發(fā)點是把這一步后置:先在純自監(jiān)督、無 language condition的設(shè)定下,把圖像離散化并「分詞」,再與文本在同一詞表、同一序列中由同一 Transformer 統(tǒng)一建模,從源頭縮短跨模態(tài)鏈路并保留視覺結(jié)構(gòu)先驗。

Being-VL 的實現(xiàn)分為三步。首先用 VQ(如 VQ-GAN)把圖像量化為離散VQ tokens;隨后訓(xùn)練一個視覺版 BPE,不只看共現(xiàn)頻次,還顯式度量空間一致性,以優(yōu)先合并那些既常見又在不同圖像中相對位置穩(wěn)定的 token 對,得到更具語義與結(jié)構(gòu)的BPE tokens;最后把視覺 tokens 與文本 tokens 串成同一序列,進入同一個自回歸 LLM 統(tǒng)一建模,不再依賴額外 projector 或 CLIP 對齊。整個 BPE 詞表學(xué)習(xí)僅依賴圖像統(tǒng)計,不看文本,真正把「語言對齊」留到后續(xù)階段。





  • 論文鏈接:https://arxiv.org/abs/2506.23639
  • 項目主頁:
  • https://beingbeyond.github.io/Being-VL-0.5
  • GitHub:
  • https://github.com/beingbeyond/Being-VL-0.5

與「把視覺直接投到文本空間」有何本質(zhì)不同?

傳統(tǒng)做法讓 LLM 去再解釋外部視覺 encoder 的連續(xù) embedding;即便 encoder 學(xué)到了豐富模式,沒有對應(yīng)解碼器,LLM也要額外學(xué)習(xí)如何「讀懂」其他模態(tài),這會放大模態(tài)鴻溝并誘發(fā)幻覺。Being-VL 把視覺提前離散化為可組合的 tokens,并在序列里與文本統(tǒng)一建模,減少表征形態(tài)錯位,縮短跨模態(tài)因果鏈條,從而在保持感知細(xì)節(jié)與高層語義的同時,降低「想象成分」。


針對視覺場景設(shè)計的 BPE tokenizer:頻次 × 空間一致性

文本大模型中的 BPE 只看「誰和誰經(jīng)常相鄰」。在視覺里,如果只按頻次去合并,容易破壞結(jié)構(gòu)。Being-VL 因此提出Priority-Guided Encoding:基于 score P (a,b)=F (a,b)+α?S (a,b) 進行 BPE 詞表構(gòu)建,其中 F 為鄰接頻次,S 衡量在不同圖像中的相對位置一致性,相似度用高斯核對齊。這樣得到的視覺詞表既覆蓋高頻模式,又保留空間結(jié)構(gòu)。并且這個過程完全不依賴文本。

三階段訓(xùn)練:從 VQ/BPE embeddings 到 LLM backbone 的漸進解凍

為了讓統(tǒng)一的離散表示平滑接入語言模型,Being-VL 采用三階段(3-stage)訓(xùn)練并顯式控制解凍順序:

  • Stage-1 / Embedding Alignment:只訓(xùn)練新擴展的視覺 token embeddings(包括 VQ 與 BPE 兩部分),其余參數(shù)全部凍結(jié),完成基礎(chǔ)對齊而不擾動原有語言能力。
  • Stage-2 / Selective Fine-tuning:解凍 LLM 前若干層(默認(rèn)約 25%),其余層繼續(xù)凍結(jié),讓跨模態(tài)交互首先在底層表征中發(fā)生。
  • Stage-3 / Full Fine-tuning:全量解凍,在更復(fù)雜的 reasoning /instruction 數(shù)據(jù)上收尾,強化高級能力。

與解凍節(jié)奏配套,數(shù)據(jù)采用curriculum:從基礎(chǔ) caption 與屬性識別,逐步過渡到視覺問答與多輪指令,顯式對齊 BPE 的「由局部到整體」的層級特性。消融表明:漸進解凍 + curriculum明顯優(yōu)于單階段訓(xùn)練;只用其中任一也不如兩者合用。



實驗與分析

Being-VL 的一系列對照實驗給出一個清晰結(jié)論:把圖像先離散化并做視覺 BPE,再與文本在同一序列里統(tǒng)一建模,既穩(wěn)又有效。相較傳統(tǒng)「先拉到文本空間」的做法,這種統(tǒng)一的離散表示更少丟失原生視覺信息,因而在細(xì)節(jié)敏感的問答與抗幻覺上更可靠;而一旦移除 BPE,性能與穩(wěn)健性都會整體下降,說明增益主要來自于把「常見且空間關(guān)系穩(wěn)定」 的視覺模式合成更有語義的 tokens,讓 LLM 在更合適的粒度上推理。

訓(xùn)練與規(guī)模選擇方面也有明確「可執(zhí)行」的答案。三階段漸進解凍 + curriculum是默認(rèn)策略:先只對齊VQ/BPE embeddings,再解凍一部分LLM backbone,最后全量微調(diào),能在不擾動語言能力的前提下穩(wěn)步提升跨模態(tài)理解。

Visual BPE Token 激活機制可視化




Embedding 權(quán)重的可視化揭示了詞表設(shè)計對跨模態(tài)表征的影響:在不使用 visual BPE 的基線模型(上圖)中,文本與視覺 token 的權(quán)重呈現(xiàn)顯著偏置與分離,體現(xiàn)出明顯的模態(tài)隔閡;而引入不同詞表大小的 visual BPE(中、下圖)后,兩類 token 的權(quán)重分布趨于均衡與同構(gòu),說明 BPE 在更細(xì)粒度上對齊了子詞 / 子片段層面的統(tǒng)計與表征空間。由此帶來的直接效應(yīng)是跨模態(tài)注意力的共享基準(zhǔn)更一致、梯度信號更可比,從而降低模態(tài)間的分布漂移與共現(xiàn)偏差。

詞表大小對訓(xùn)練效率與擴展?jié)摿Φ挠绊?/p>




研究進一步考察了 BPE 詞表規(guī)模的作用。可視化結(jié)果顯示:在訓(xùn)練資源受限的情形下,與 VQ 等規(guī)模的碼本在表達(dá)能力與訓(xùn)練效率之間取得了更佳平衡,處于「甜點區(qū)」。當(dāng)詞表繼續(xù)增大(≥16K)時,會出現(xiàn)大量低利用率、呈稀疏分布的 token,導(dǎo)致單位算力的收益下降。不過,這也預(yù)示著在數(shù)據(jù)規(guī)模擴張時存在更強的上限潛力。論文提出的方法可在更大的詞表與更多數(shù)據(jù)的配合下,釋放這部分?jǐn)U展空間,進一步提升模型表現(xiàn)。

發(fā)展與小結(jié)(Being-VL-0 → Being-VL-0.5)

Being-VL-0 (ICLR 2025)

  • Being-VL-0 給出的是視覺離散化 + BPE 的可行性與動機:從理論分析與 toy 實驗出發(fā),得出結(jié)論 BPE-style 合并能把必要的結(jié)構(gòu)先驗灌注進 token,使 Transformer 更易學(xué)習(xí);并初步探索了兩階段訓(xùn)練(PT→SFT)、文本 embedding 凍結(jié)策略與數(shù)據(jù) scaling 帶來的穩(wěn)健增益。
  • 項目地址:
  • https://github.com/BeingBeyond/Being-VL-0

Being-VL-0.5 (ICCV 2025 highlight)

  • Being-VL-0.5 則把這一路線進一步優(yōu)化為一個統(tǒng)一建??蚣埽侯l次與空間一致性聯(lián)合的 Priority-Guided Encoding、VQ/BPE/LLM 三階段漸進解凍、以及配套的 curriculum 數(shù)據(jù)策略。
  • 項目地址:
  • https://beingbeyond.github.io/Being-VL-0.5

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
慘遭15分大逆轉(zhuǎn)!女籃霸主加時3分惜?。簵盍S空砍14分3板4助!

慘遭15分大逆轉(zhuǎn)!女籃霸主加時3分惜?。簵盍S空砍14分3板4助!

籃球快餐車
2026-03-03 01:57:58
1989年,哈梅內(nèi)伊吃北京烤鴨時,一張罕見留影,此后再未踏出國門

1989年,哈梅內(nèi)伊吃北京烤鴨時,一張罕見留影,此后再未踏出國門

冒泡泡的魚兒
2026-03-02 16:07:00
6.5億預(yù)算成本,《飛馳人生3》北美票房慘敗,沈騰吳京全被打懵了

6.5億預(yù)算成本,《飛馳人生3》北美票房慘敗,沈騰吳京全被打懵了

電影票房預(yù)告片
2026-03-02 23:27:38
在岸人民幣兌美元較上周五夜盤收盤跌428點

在岸人民幣兌美元較上周五夜盤收盤跌428點

財聯(lián)社
2026-03-03 03:12:10
黃金白銀突然跳水 天然氣漲超50% 美股低開后走高

黃金白銀突然跳水 天然氣漲超50% 美股低開后走高

每日經(jīng)濟新聞
2026-03-02 23:40:04
《最強大腦》徹底被打臉

《最強大腦》徹底被打臉

鋒哥與八卦哥
2026-01-18 15:11:06
伊朗革命衛(wèi)隊宣布大規(guī)模軍事行動

伊朗革命衛(wèi)隊宣布大規(guī)模軍事行動

界面新聞
2026-02-28 18:18:55
你聽過最勁爆的瓜是啥?網(wǎng)友:被大八歲的補習(xí)班老師表白了

你聽過最勁爆的瓜是啥?網(wǎng)友:被大八歲的補習(xí)班老師表白了

帶你感受人間冷暖
2025-11-26 00:10:06
中國的優(yōu)勢!哈佛教授:不要高估中國,因為美或許已控制其命脈

中國的優(yōu)勢!哈佛教授:不要高估中國,因為美或許已控制其命脈

輿圖看世界
2026-02-06 09:30:03
他,27歲,過去7年里“賣”了8場球…. 球場上這一切,全是賭局…

他,27歲,過去7年里“賣”了8場球…. 球場上這一切,全是賭局…

英國那些事兒
2026-03-01 23:14:02
石榴立大功!國際期刊證實:4周可逆轉(zhuǎn)免疫衰老,壽命或?qū)⒀娱L45%

石榴立大功!國際期刊證實:4周可逆轉(zhuǎn)免疫衰老,壽命或?qū)⒀娱L45%

思思夜話
2026-03-02 22:10:13
英組織報告:一艘船只在巴林港遇襲,所有船員均安全并已撤離

英組織報告:一艘船只在巴林港遇襲,所有船員均安全并已撤離

環(huán)球網(wǎng)資訊
2026-03-02 18:38:12
德媒記者參觀宇樹被拒絕入內(nèi),記者:里面有可用于戰(zhàn)斗的機器人

德媒記者參觀宇樹被拒絕入內(nèi),記者:里面有可用于戰(zhàn)斗的機器人

我心縱橫天地間
2026-03-01 14:09:47
“沒完沒了了!”杭州女子崩潰:一天五六通電話,精準(zhǔn)報我名字,為啥別人欠錢一直在催我?

“沒完沒了了!”杭州女子崩潰:一天五六通電話,精準(zhǔn)報我名字,為啥別人欠錢一直在催我?

環(huán)球網(wǎng)資訊
2026-03-02 16:31:06
我見過最傻的父母,攥著大把的存款和退休金,卻等著給子女當(dāng)遺產(chǎn)

我見過最傻的父母,攥著大把的存款和退休金,卻等著給子女當(dāng)遺產(chǎn)

i書與房
2026-02-25 17:22:34
玄學(xué)真相:凡事“反著來”,你就贏了——這才是人生最高級的破局之道

玄學(xué)真相:凡事“反著來”,你就贏了——這才是人生最高級的破局之道

青蘋果sht
2026-02-27 06:28:52
上海影院丈夫抓小三后續(xù):女主帶著丈夫和兒子,還有男小三看電影

上海影院丈夫抓小三后續(xù):女主帶著丈夫和兒子,還有男小三看電影

漢史趣聞
2026-02-28 11:58:20
懼怕失業(yè)!廣東大外援刻苦訓(xùn)練 瘋狂瘦身+增肌 他要贏得的杜鋒信

懼怕失業(yè)!廣東大外援刻苦訓(xùn)練 瘋狂瘦身+增肌 他要贏得的杜鋒信

郝小小看體育
2026-03-03 02:47:35
醫(yī)生勸告:過了70歲,寧可打打麻將,也不要隨意去做這6件事

醫(yī)生勸告:過了70歲,寧可打打麻將,也不要隨意去做這6件事

健康之光
2026-02-25 18:50:04
告訴你一個殘酷的真相:父母存的錢,其實存的是孩子的選擇權(quán)!

告訴你一個殘酷的真相:父母存的錢,其實存的是孩子的選擇權(quán)!

戶外阿毽
2026-02-20 18:21:02
2026-03-03 04:47:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12395文章數(shù) 142575關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

特朗普:對伊朗打擊或持續(xù)4至5周 已擊沉其10艘艦艇

頭條要聞

特朗普:對伊朗打擊或持續(xù)4至5周 已擊沉其10艘艦艇

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

本地
旅游
數(shù)碼
時尚
公開課

本地新聞

津南好·四時總相宜

旅游要聞

熱度飆升!非遺、冰雪…禹州元宵“文旅大餐”承包圓滿佳節(jié)!

數(shù)碼要聞

蘋果新款iPad Air發(fā)布:4799元起 搭載M4芯片

今年春天一定要擁有的4件衣服,太好看了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版