LLaVA-OneVision-1.5開源，8B模型預訓練只需4天、1.6萬美元

2025-10-13 18:37:02　來源: 機器之心Pro

北京舉報

分享至

LLaVA 于 2023 年提出，通過低成本對齊高效連接開源視覺編碼器與大語言模型，使「看圖 — 理解 — 對話」的多模態(tài)能力在開放生態(tài)中得以普及，明顯縮小了與頂級閉源模型的差距，標志著開源多模態(tài)范式的重要里程碑。

LLaVA 用低成本對齊打通「視覺編碼器 + 大語言模型」起步，LLaVA?1.5 以更大更干凈的數(shù)據(jù)與高分辨率輸入強化理解，LLaVA?NeXT 拓展 OCR / 數(shù)理與多場景任務；隨后分支為 LLaVA?NeXT?Video 處理時序視頻、多幀推理，及 LLaVA-NeXT-Interleave 支持交替多圖文與跨圖聯(lián)推；最終在 LLaVA?OneVision 匯聚為統(tǒng)一接口，覆蓋圖像 / 文檔 / 圖表 / 多圖 / 視頻，兼顧效果與效率。

盡管多模態(tài)對齊的接口與架構趨于收斂，真正「可復現(xiàn)」的開源路徑仍與「僅開放權重」存在間距。Qwen2.5?VL、InternVL3.5 在 OCR、文檔理解、數(shù)理與跨圖推理上樹立高基線，但完整的數(shù)據(jù)清單、清洗與混合比例，以及對齊 / 采樣與訓練日程多為部分披露，難以端到端重現(xiàn)。Molmo 以更干凈的數(shù)據(jù)流水線與精細化設計，在多項評測與偏好中逼近閉源強基線；Open?Qwen2VL 則表明在更高效范式下，即便原始多模態(tài) token 占比較低亦能取得強對比性能。當前主要鴻溝在于「配方與工程細節(jié)的可復現(xiàn)性」，而非單一的模型架構選擇。

靈感實驗室團隊聯(lián)合 LMMs-Lab 圍繞「高性能 — 低成本 — 強復現(xiàn)」三大目標，在 LLaVA-OneVision 體系上推出完整開放的概念均衡 85M 預訓練數(shù)據(jù)集（LLaVA-OV-1.5-Mid-Training-85M）與精篩 22M 指令數(shù)據(jù)集（LLaVA-OV-1.5-Instruct-22M），并沿用緊湊的三階段流程（語言–圖像對齊 Stage?1、概念均衡與高質量知識注入 Stage?1.5、指令微調(diào) Stage?2），結合離線并行數(shù)據(jù)打包（最高約 11× padding 壓縮）與 Megatron?LM + 分布式優(yōu)化器，將 8B 規(guī)模 VL 模型的 Stage?1.5 預訓練在 128 張 A800 上控制在約 4 天內(nèi)完成，預算控制在 1.6 萬美元。

在此基礎上，我們提出LLaVA?OneVision?1.5，繼承并擴展 LLaVA 系列：引入 RICE?ViT 支持原生分辨率與區(qū)域級細粒度語義建模、強化圖表 / 文檔 / 結構化場景理解，延續(xù)緊湊三階段范式以避免冗長 curriculum，構建并強調(diào)「質量 — 覆蓋 — 均衡」的 85M 預訓練與 22M 指令集合，并真正意義上實現(xiàn)全鏈條透明開放（數(shù)據(jù)、訓練與打包工具鏈、配置腳本、日志與可復現(xiàn)評測命令及其構建與執(zhí)行細節(jié)），以確保社區(qū)低成本復現(xiàn)與可驗證拓展。

實驗結果顯示，LLaVA?OneVision 在多項公開多模態(tài)基準上較 Qwen2.5?VL 展現(xiàn)出競爭性乃至更優(yōu)性能（詳見技術報告）。

論文標題：LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training
代碼地址：
https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5
技術報告地址：
https://arxiv.org/abs/2509.23661
數(shù)據(jù) / 模型地址：
https://huggingface.co/collections/lmms-lab/llava-onevision-15-68d385fe73b50bd22de23713
Demo：
https://huggingface.co/spaces/lmms-lab/LLaVA-OneVision-1.5

數(shù)據(jù)構建要點

用于通用視覺語言的預訓練集（85M）與指令微調(diào)數(shù)據(jù)集（22M）。其中 85M 預訓練數(shù)據(jù)融合 COYO-700M、Obelics、DataComp-1B、LAION-CN、ImageNet-21K、SAM-1B、MINT、Zero250M 等 8 大異構來源，形成約 2,000 萬中文與 6,500 萬英文圖文對。

為破解長尾概念稀疏與原始 caption 噪聲 / 缺失問題，我們不再依賴原始文本詞頻，而是采用特征驅動的「概念均衡」策略：利用 MetaCLIP 編碼器將全部圖像與 50 萬規(guī)模概念詞嵌入共享向量空間，對每張圖像檢索 Top-K 最相似概念，統(tǒng)計概念頻次后按逆頻加權重采樣，抑制高頻背景類并提升罕見細粒度實體、屬性與場景占比，顯著平坦化長尾分布；隨后使用高質量 Captioner 生成對齊的中英文增強描述。系統(tǒng)實驗表明，在相同或更低 token 預算下，擴大高質量數(shù)據(jù)規(guī)模并結合概念均衡采樣，可在多模態(tài)理解、長尾識別與指令泛化等核心指標上獲得顯著且可復現(xiàn)的性能提升。

指令數(shù)據(jù) 22M 覆蓋八大類別：Caption、Chart & Table、Code & Math、Domain-specific、General VQA、Grounding & Counting、OCR、Science。通過多源聚合、格式統(tǒng)一、指令重寫、雙語互轉、模板去同質化與安全篩除，保持類別與難度分布均衡。并且我們的指令數(shù)據(jù)疊加 FineVision 數(shù)據(jù)集之后，結果會繼續(xù)增加。

訓練策略

1. 視覺編碼器預訓練

為了讓模型在 OCR、表格 / 文檔、區(qū)域理解與后續(xù)指令推理上具有更高的下限，我們在 LLaVA-OneVision-1.5 中采用自研的 MVT v1.5（RICE-ViT）作為視覺主干。

相較僅做全局對齊的 CLIP / SigLIP 類對比模型，RICE-ViT 針對「實例只用單一全局向量」這一結構性瓶頸，引入統(tǒng)一的 Region Cluster Discrimination 機制：在 4.5 億圖像與 24 億候選區(qū)域上訓練，利用區(qū)域聚類判別 + 區(qū)域感知注意力顯式建模局部實體 / 文本塊與上下文關系，并結合 2D 旋轉位置編碼（2D RoPE）實現(xiàn)多分辨率原生支持。

與 SigLIP2 依賴多套專用損失（SILC、TIPS、LocCa 等）不同，我們用單一聚類判別范式同時強化通用語義、OCR 識別與定位能力，訓練與推理鏈路更簡潔、可維護性更高。在多模態(tài)融合階段，通過輕量投影與后續(xù)全參數(shù)聯(lián)合訓練，將這一細粒度語義底座無縫接入語言模型，減少冗余適配模塊并提升跨任務遷移效率。

2. 三階段學習流程

Stage-1：語言–圖像對齊

使用 LLaVA-1.5 558K 數(shù)據(jù)集訓練視覺投影層，將視覺編碼輸出映射到語言模型詞嵌入空間。此階段控制參數(shù)更新范圍以快速穩(wěn)定收斂。

Stage-1.5：高質量知識中期預訓練

在概念均衡的 85M 預訓練數(shù)據(jù)上進行全參數(shù)訓練，注入廣域視覺語義與世界知識，強調(diào)數(shù)據(jù)質量與覆蓋而非盲目擴張 token 規(guī)模。

Stage-2：視覺指令對齊

基于 22M 指令數(shù)據(jù)與 FineVision 等多源視覺指令語料繼續(xù)全參數(shù)訓練，提升任務泛化、推理組織與響應格式控制能力。

3. 離線并行數(shù)據(jù)打包

為降低多模態(tài)樣本長度差異帶來的 padding 浪費、提升有效 token 利用率，我們采用離線并行數(shù)據(jù)打包：先按樣本長度或長度區(qū)間進行哈希桶聚類，減少全局排序與掃描成本；再在數(shù)據(jù)準備階段以多線程將多條短樣本拼接為接近目標長度的定長序列。該流程一次性處理全量語料，具備確定性與可復現(xiàn)性，避免在線動態(tài)打包引入的運行時不穩(wěn)定與額外 CPU 開銷。

在 85M 規(guī)模的預訓練樣本上，相比原始方案可實現(xiàn)最高約 11× 的 padding 有效壓縮（定義：原始方案總 padding token / 打包后總 padding token）。

4. 混合并行與長上下文高效訓練，訓練端采用混合并行與長上下文優(yōu)化

張量并行（TP）+ 流水并行（PP）+ 序列 / 上下文并行（Sequence/Context Parallel）與分布式優(yōu)化器協(xié)同，以在大規(guī)模集群中同時提升算力利用與顯存效率；同時采用原生分辨率策略，保留圖表、文檔與密集文本區(qū)域的結構細節(jié)，避免統(tǒng)一縮放帶來的信息損失。

在 128×A800 集群上，8B 規(guī)模模型的 Stage?1.5（85M 樣本、原生分辨率）約 3.7 天完成，兼顧吞吐與成本。

結論

LLaVA-OneVision-1.5 證明：依托概念均衡的 85M 預訓練數(shù)據(jù)與高質量指令數(shù)據(jù)，結合 RICE?ViT 細粒度視覺底座和緊湊的三階段策略（對齊–高質量知識注入–指令泛化），再配合離線并行打包（最高約 11× padding 減少）與混合并行 / 原生分辨率等工程優(yōu)化，8B 規(guī)模即可在更低 token 與算力成本下，對標乃至部分超越主流開源與部分閉源多模態(tài)模型，體現(xiàn)「高質量結構化數(shù)據(jù) + 系統(tǒng)效率協(xié)同」相較單純堆量的優(yōu)勢。

這是一次非常簡單的復現(xiàn)工作：我們完整開放數(shù)據(jù)、工具鏈、腳本、配置、日志與評測配方，復現(xiàn)路徑清晰、依賴明確，無需復雜調(diào)參即可跑通。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.