国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

LLaVA-OneVision-1.5開源,8B模型預訓練只需4天、1.6萬美元

0
分享至



LLaVA 于 2023 年提出,通過低成本對齊高效連接開源視覺編碼器與大語言模型,使「看圖 — 理解 — 對話」的多模態(tài)能力在開放生態(tài)中得以普及,明顯縮小了與頂級閉源模型的差距,標志著開源多模態(tài)范式的重要里程碑。



LLaVA 用低成本對齊打通「視覺編碼器 + 大語言模型」起步,LLaVA?1.5 以更大更干凈的數(shù)據(jù)與高分辨率輸入強化理解,LLaVA?NeXT 拓展 OCR / 數(shù)理與多場景任務;隨后分支為 LLaVA?NeXT?Video 處理時序視頻、多幀推理,及 LLaVA-NeXT-Interleave 支持交替多圖文與跨圖聯(lián)推;最終在 LLaVA?OneVision 匯聚為統(tǒng)一接口,覆蓋圖像 / 文檔 / 圖表 / 多圖 / 視頻,兼顧效果與效率。

盡管多模態(tài)對齊的接口與架構趨于收斂,真正「可復現(xiàn)」的開源路徑仍與「僅開放權重」存在間距。Qwen2.5?VL、InternVL3.5 在 OCR、文檔理解、數(shù)理與跨圖推理上樹立高基線,但完整的數(shù)據(jù)清單、清洗與混合比例,以及對齊 / 采樣與訓練日程多為部分披露,難以端到端重現(xiàn)。Molmo 以更干凈的數(shù)據(jù)流水線與精細化設計,在多項評測與偏好中逼近閉源強基線;Open?Qwen2VL 則表明在更高效范式下,即便原始多模態(tài) token 占比較低亦能取得強對比性能。當前主要鴻溝在于 「配方與工程細節(jié)的可復現(xiàn)性」,而非單一的模型架構選擇。



靈感實驗室團隊聯(lián)合 LMMs-Lab 圍繞「高性能 — 低成本 — 強復現(xiàn)」三大目標,在 LLaVA-OneVision 體系上推出完整開放的概念均衡 85M 預訓練數(shù)據(jù)集(LLaVA-OV-1.5-Mid-Training-85M)與精篩 22M 指令數(shù)據(jù)集(LLaVA-OV-1.5-Instruct-22M),并沿用緊湊的三階段流程(語言–圖像對齊 Stage?1、概念均衡與高質量知識注入 Stage?1.5、指令微調(diào) Stage?2),結合離線并行數(shù)據(jù)打包(最高約 11× padding 壓縮)與 Megatron?LM + 分布式優(yōu)化器,將 8B 規(guī)模 VL 模型的 Stage?1.5 預訓練在 128 張 A800 上控制在約 4 天內(nèi)完成,預算控制在 1.6 萬美元。

在此基礎上,我們提出LLaVA?OneVision?1.5,繼承并擴展 LLaVA 系列:引入 RICE?ViT 支持原生分辨率與區(qū)域級細粒度語義建模、強化圖表 / 文檔 / 結構化場景理解,延續(xù)緊湊三階段范式以避免冗長 curriculum,構建并強調(diào)「質量 — 覆蓋 — 均衡」的 85M 預訓練與 22M 指令集合,并真正意義上實現(xiàn)全鏈條透明開放(數(shù)據(jù)、訓練與打包工具鏈、配置腳本、日志與可復現(xiàn)評測命令及其構建與執(zhí)行細節(jié)),以確保社區(qū)低成本復現(xiàn)與可驗證拓展。

實驗結果顯示,LLaVA?OneVision 在多項公開多模態(tài)基準上較 Qwen2.5?VL 展現(xiàn)出競爭性乃至更優(yōu)性能(詳見技術報告)。



  • 論文標題:LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training
  • 代碼地址:
  • https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5
  • 技術報告地址:
  • https://arxiv.org/abs/2509.23661
  • 數(shù)據(jù) / 模型地址:
  • https://huggingface.co/collections/lmms-lab/llava-onevision-15-68d385fe73b50bd22de23713
  • Demo:
  • https://huggingface.co/spaces/lmms-lab/LLaVA-OneVision-1.5

數(shù)據(jù)構建要點



用于通用視覺語言的預訓練集(85M)與指令微調(diào)數(shù)據(jù)集(22M)。其中 85M 預訓練數(shù)據(jù)融合 COYO-700M、Obelics、DataComp-1B、LAION-CN、ImageNet-21K、SAM-1B、MINT、Zero250M 等 8 大異構來源,形成約 2,000 萬中文與 6,500 萬英文圖文對。

為破解長尾概念稀疏與原始 caption 噪聲 / 缺失問題,我們不再依賴原始文本詞頻,而是采用特征驅動的「概念均衡」策略:利用 MetaCLIP 編碼器將全部圖像與 50 萬規(guī)模概念詞嵌入共享向量空間,對每張圖像檢索 Top-K 最相似概念,統(tǒng)計概念頻次后按逆頻加權重采樣,抑制高頻背景類并提升罕見細粒度實體、屬性與場景占比,顯著平坦化長尾分布;隨后使用高質量 Captioner 生成對齊的中英文增強描述。系統(tǒng)實驗表明,在相同或更低 token 預算下,擴大高質量數(shù)據(jù)規(guī)模并結合概念均衡采樣,可在多模態(tài)理解、長尾識別與指令泛化等核心指標上獲得顯著且可復現(xiàn)的性能提升。



指令數(shù)據(jù) 22M 覆蓋八大類別:Caption、Chart & Table、Code & Math、Domain-specific、General VQA、Grounding & Counting、OCR、Science。通過多源聚合、格式統(tǒng)一、指令重寫、雙語互轉、模板去同質化與安全篩除,保持類別與難度分布均衡。并且我們的指令數(shù)據(jù)疊加 FineVision 數(shù)據(jù)集之后,結果會繼續(xù)增加。



訓練策略

1. 視覺編碼器預訓練

為了讓模型在 OCR、表格 / 文檔、區(qū)域理解與后續(xù)指令推理上具有更高的下限,我們在 LLaVA-OneVision-1.5 中采用自研的 MVT v1.5(RICE-ViT) 作為視覺主干。

相較僅做全局對齊的 CLIP / SigLIP 類對比模型,RICE-ViT 針對「實例只用單一全局向量」這一結構性瓶頸,引入統(tǒng)一的 Region Cluster Discrimination 機制:在 4.5 億圖像與 24 億候選區(qū)域上訓練,利用區(qū)域聚類判別 + 區(qū)域感知注意力顯式建模局部實體 / 文本塊與上下文關系,并結合 2D 旋轉位置編碼(2D RoPE)實現(xiàn)多分辨率原生支持。

與 SigLIP2 依賴多套專用損失(SILC、TIPS、LocCa 等)不同,我們用單一聚類判別范式同時強化通用語義、OCR 識別與定位能力,訓練與推理鏈路更簡潔、可維護性更高。在多模態(tài)融合階段,通過輕量投影與后續(xù)全參數(shù)聯(lián)合訓練,將這一細粒度語義底座無縫接入語言模型,減少冗余適配模塊并提升跨任務遷移效率。



2. 三階段學習流程

  • Stage-1:語言–圖像對齊

使用 LLaVA-1.5 558K 數(shù)據(jù)集訓練視覺投影層,將視覺編碼輸出映射到語言模型詞嵌入空間。此階段控制參數(shù)更新范圍以快速穩(wěn)定收斂。

  • Stage-1.5:高質量知識中期預訓練

在概念均衡的 85M 預訓練數(shù)據(jù)上進行全參數(shù)訓練,注入廣域視覺語義與世界知識,強調(diào)數(shù)據(jù)質量與覆蓋而非盲目擴張 token 規(guī)模。

  • Stage-2:視覺指令對齊

基于 22M 指令數(shù)據(jù)與 FineVision 等多源視覺指令語料繼續(xù)全參數(shù)訓練,提升任務泛化、推理組織與響應格式控制能力。

3. 離線并行數(shù)據(jù)打包

為降低多模態(tài)樣本長度差異帶來的 padding 浪費、提升有效 token 利用率,我們采用離線并行數(shù)據(jù)打包:先按樣本長度或長度區(qū)間進行哈希桶聚類,減少全局排序與掃描成本;再在數(shù)據(jù)準備階段以多線程將多條短樣本拼接為接近目標長度的定長序列。該流程一次性處理全量語料,具備確定性與可復現(xiàn)性,避免在線動態(tài)打包引入的運行時不穩(wěn)定與額外 CPU 開銷。

在 85M 規(guī)模的預訓練樣本上,相比原始方案可實現(xiàn)最高約 11× 的 padding 有效壓縮(定義:原始方案總 padding token / 打包后總 padding token)。

4. 混合并行與長上下文高效訓練,訓練端采用混合并行與長上下文優(yōu)化

張量并行(TP)+ 流水并行(PP)+ 序列 / 上下文并行(Sequence/Context Parallel)與分布式優(yōu)化器協(xié)同,以在大規(guī)模集群中同時提升算力利用與顯存效率;同時采用原生分辨率策略,保留圖表、文檔與密集文本區(qū)域的結構細節(jié),避免統(tǒng)一縮放帶來的信息損失。

在 128×A800 集群上,8B 規(guī)模模型的 Stage?1.5(85M 樣本、原生分辨率)約 3.7 天完成,兼顧吞吐與成本。

結論

LLaVA-OneVision-1.5 證明:依托概念均衡的 85M 預訓練數(shù)據(jù)與高質量指令數(shù)據(jù),結合 RICE?ViT 細粒度視覺底座和緊湊的三階段策略(對齊–高質量知識注入–指令泛化),再配合離線并行打包(最高約 11× padding 減少)與混合并行 / 原生分辨率等工程優(yōu)化,8B 規(guī)模即可在更低 token 與算力成本下,對標乃至部分超越主流開源與部分閉源多模態(tài)模型,體現(xiàn)「高質量結構化數(shù)據(jù) + 系統(tǒng)效率協(xié)同」相較單純堆量的優(yōu)勢。

這是一次非常簡單的復現(xiàn)工作:我們完整開放數(shù)據(jù)、工具鏈、腳本、配置、日志與評測配方,復現(xiàn)路徑清晰、依賴明確,無需復雜調(diào)參即可跑通。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
內(nèi)賈德沒有死,秘書公布遇襲細節(jié)

內(nèi)賈德沒有死,秘書公布遇襲細節(jié)

世家寶
2026-03-02 14:06:27
內(nèi)塔尼亞胡辦公室遭猛烈襲擊!伊朗:摧毀美國一總領館及一軍事基地,擊落3架美軍機

內(nèi)塔尼亞胡辦公室遭猛烈襲擊!伊朗:摧毀美國一總領館及一軍事基地,擊落3架美軍機

新民晚報
2026-03-02 19:04:01
令人擔心的事發(fā)生,多位明星全家被困中東,甄子丹的話,有人信了

令人擔心的事發(fā)生,多位明星全家被困中東,甄子丹的話,有人信了

墨印齋
2026-03-02 13:44:53
三名美國士兵喪生,特朗普發(fā)誓要復仇,放話"何時停戰(zhàn)由伊方?jīng)Q定"

三名美國士兵喪生,特朗普發(fā)誓要復仇,放話"何時停戰(zhàn)由伊方?jīng)Q定"

派大星紀錄片
2026-03-02 10:34:38
美國中央司令部:美軍三架F-15E戰(zhàn)機在科威特“明顯遭友軍誤擊”墜毀

美國中央司令部:美軍三架F-15E戰(zhàn)機在科威特“明顯遭友軍誤擊”墜毀

環(huán)球網(wǎng)資訊
2026-03-02 19:32:13
對話鄭永年:斬首哈梅內(nèi)伊后,特朗普究竟想要什么?

對話鄭永年:斬首哈梅內(nèi)伊后,特朗普究竟想要什么?

大灣區(qū)評論
2026-03-01 21:23:33
黃金都靠邊站!2026年最瘋漲的,竟是你隨手扔的舊東西

黃金都靠邊站!2026年最瘋漲的,竟是你隨手扔的舊東西

小陸搞笑日常
2026-03-02 01:34:50
伊朗4枚彈道導彈“突襲”美軍航母,卻變成一場“昂貴的煙花秀”

伊朗4枚彈道導彈“突襲”美軍航母,卻變成一場“昂貴的煙花秀”

矚望云霄
2026-03-02 10:49:12
巴拿馬運河兩端港口運營恢復,MSC完成首船裝卸

巴拿馬運河兩端港口運營恢復,MSC完成首船裝卸

海事服務網(wǎng)CNSS
2026-03-02 19:58:04
《大西洋月刊》丨所有人的目光都投向了古巴

《大西洋月刊》丨所有人的目光都投向了古巴

邸報
2026-03-02 10:33:45
以情報部門被曝滲透到伊朗安全高層,伊朗曾組建反間諜機構,查來查去沒發(fā)現(xiàn)問題,最后發(fā)現(xiàn)負責人就是以間諜,其手下還有至少20名雙重間諜

以情報部門被曝滲透到伊朗安全高層,伊朗曾組建反間諜機構,查來查去沒發(fā)現(xiàn)問題,最后發(fā)現(xiàn)負責人就是以間諜,其手下還有至少20名雙重間諜

揚子晚報
2026-03-02 17:41:48
突發(fā)! 內(nèi)賈德沒死? 親信稱: 他一切安好

突發(fā)! 內(nèi)賈德沒死? 親信稱: 他一切安好

每日經(jīng)濟新聞
2026-03-02 12:32:06
科威特“一戰(zhàn)封神”:擊落3架F-15!美軍司令部已承認損失

科威特“一戰(zhàn)封神”:擊落3架F-15!美軍司令部已承認損失

戰(zhàn)風
2026-03-02 20:13:20
新華時評:當炸彈落在校園,文明底線何在

新華時評:當炸彈落在校園,文明底線何在

澎湃新聞
2026-03-01 22:32:48
涉美伊局勢,復旦教授、人大教授雙雙發(fā)聲,“外網(wǎng)和國內(nèi)的一些自媒體造謠,這些人臉都不要了”

涉美伊局勢,復旦教授、人大教授雙雙發(fā)聲,“外網(wǎng)和國內(nèi)的一些自媒體造謠,這些人臉都不要了”

都市快報橙柿互動
2026-03-02 15:33:41
英國、法國和德國聯(lián)合聲明

英國、法國和德國聯(lián)合聲明

澎湃新聞
2026-03-02 10:11:31
美國中央司令部透露對伊朗動武全部武器裝備清單

美國中央司令部透露對伊朗動武全部武器裝備清單

參考消息
2026-03-02 19:38:24
中方制裁后日方反應強烈,日導彈逼近臺島,高市還想賭一把?

中方制裁后日方反應強烈,日導彈逼近臺島,高市還想賭一把?

兵說
2026-03-01 21:11:31
重大進展!伊朗作出“前所未有”承諾:同意永遠不擁有可制造核武器的核材料,將實現(xiàn)“零積累、零庫存”,并接受全面核查!特朗普最新表態(tài)

重大進展!伊朗作出“前所未有”承諾:同意永遠不擁有可制造核武器的核材料,將實現(xiàn)“零積累、零庫存”,并接受全面核查!特朗普最新表態(tài)

每日經(jīng)濟新聞
2026-02-28 10:40:45
新勢力2月銷量:零跑理想前兩名,小米問界跌慘了

新勢力2月銷量:零跑理想前兩名,小米問界跌慘了

定焦One
2026-03-02 09:59:17
2026-03-02 23:08:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12395文章數(shù) 142575關注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

美記者詢問就伊朗局勢中方會采取什么行動 外交部回應

頭條要聞

美記者詢問就伊朗局勢中方會采取什么行動 外交部回應

體育要聞

“想要我簽名嗎” 梅西逆轉后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

本地
教育
房產(chǎn)
時尚
公開課

本地新聞

津南好·四時總相宜

教育要聞

石室小學育賢分校:騏驥少年馭“機”而上 科技體育點亮校園新程

房產(chǎn)要聞

方案突然曝光!??诒睅煷蟾叫?,又有書包大盤殺出!

女人“會穿衣”才更美,看看這些穿搭就知道,穿對了真顯氣質

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版