国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

LLaVA-OneVision-1.5開源,8B模型預(yù)訓(xùn)練只需4天、1.6萬美元

0
分享至



LLaVA 于 2023 年提出,通過低成本對齊高效連接開源視覺編碼器與大語言模型,使「看圖 — 理解 — 對話」的多模態(tài)能力在開放生態(tài)中得以普及,明顯縮小了與頂級閉源模型的差距,標(biāo)志著開源多模態(tài)范式的重要里程碑。



LLaVA 用低成本對齊打通「視覺編碼器 + 大語言模型」起步,LLaVA?1.5 以更大更干凈的數(shù)據(jù)與高分辨率輸入強化理解,LLaVA?NeXT 拓展 OCR / 數(shù)理與多場景任務(wù);隨后分支為 LLaVA?NeXT?Video 處理時序視頻、多幀推理,及 LLaVA-NeXT-Interleave 支持交替多圖文與跨圖聯(lián)推;最終在 LLaVA?OneVision 匯聚為統(tǒng)一接口,覆蓋圖像 / 文檔 / 圖表 / 多圖 / 視頻,兼顧效果與效率。

盡管多模態(tài)對齊的接口與架構(gòu)趨于收斂,真正「可復(fù)現(xiàn)」的開源路徑仍與「僅開放權(quán)重」存在間距。Qwen2.5?VL、InternVL3.5 在 OCR、文檔理解、數(shù)理與跨圖推理上樹立高基線,但完整的數(shù)據(jù)清單、清洗與混合比例,以及對齊 / 采樣與訓(xùn)練日程多為部分披露,難以端到端重現(xiàn)。Molmo 以更干凈的數(shù)據(jù)流水線與精細(xì)化設(shè)計,在多項評測與偏好中逼近閉源強基線;Open?Qwen2VL 則表明在更高效范式下,即便原始多模態(tài) token 占比較低亦能取得強對比性能。當(dāng)前主要鴻溝在于 「配方與工程細(xì)節(jié)的可復(fù)現(xiàn)性」,而非單一的模型架構(gòu)選擇。



靈感實驗室團隊聯(lián)合 LMMs-Lab 圍繞「高性能 — 低成本 — 強復(fù)現(xiàn)」三大目標(biāo),在 LLaVA-OneVision 體系上推出完整開放的概念均衡 85M 預(yù)訓(xùn)練數(shù)據(jù)集(LLaVA-OV-1.5-Mid-Training-85M)與精篩 22M 指令數(shù)據(jù)集(LLaVA-OV-1.5-Instruct-22M),并沿用緊湊的三階段流程(語言–圖像對齊 Stage?1、概念均衡與高質(zhì)量知識注入 Stage?1.5、指令微調(diào) Stage?2),結(jié)合離線并行數(shù)據(jù)打包(最高約 11× padding 壓縮)與 Megatron?LM + 分布式優(yōu)化器,將 8B 規(guī)模 VL 模型的 Stage?1.5 預(yù)訓(xùn)練在 128 張 A800 上控制在約 4 天內(nèi)完成,預(yù)算控制在 1.6 萬美元。

在此基礎(chǔ)上,我們提出LLaVA?OneVision?1.5,繼承并擴展 LLaVA 系列:引入 RICE?ViT 支持原生分辨率與區(qū)域級細(xì)粒度語義建模、強化圖表 / 文檔 / 結(jié)構(gòu)化場景理解,延續(xù)緊湊三階段范式以避免冗長 curriculum,構(gòu)建并強調(diào)「質(zhì)量 — 覆蓋 — 均衡」的 85M 預(yù)訓(xùn)練與 22M 指令集合,并真正意義上實現(xiàn)全鏈條透明開放(數(shù)據(jù)、訓(xùn)練與打包工具鏈、配置腳本、日志與可復(fù)現(xiàn)評測命令及其構(gòu)建與執(zhí)行細(xì)節(jié)),以確保社區(qū)低成本復(fù)現(xiàn)與可驗證拓展。

實驗結(jié)果顯示,LLaVA?OneVision 在多項公開多模態(tài)基準(zhǔn)上較 Qwen2.5?VL 展現(xiàn)出競爭性乃至更優(yōu)性能(詳見技術(shù)報告)。



  • 論文標(biāo)題:LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training
  • 代碼地址:
  • https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5
  • 技術(shù)報告地址:
  • https://arxiv.org/abs/2509.23661
  • 數(shù)據(jù) / 模型地址:
  • https://huggingface.co/collections/lmms-lab/llava-onevision-15-68d385fe73b50bd22de23713
  • Demo:
  • https://huggingface.co/spaces/lmms-lab/LLaVA-OneVision-1.5

數(shù)據(jù)構(gòu)建要點



用于通用視覺語言的預(yù)訓(xùn)練集(85M)與指令微調(diào)數(shù)據(jù)集(22M)。其中 85M 預(yù)訓(xùn)練數(shù)據(jù)融合 COYO-700M、Obelics、DataComp-1B、LAION-CN、ImageNet-21K、SAM-1B、MINT、Zero250M 等 8 大異構(gòu)來源,形成約 2,000 萬中文與 6,500 萬英文圖文對。

為破解長尾概念稀疏與原始 caption 噪聲 / 缺失問題,我們不再依賴原始文本詞頻,而是采用特征驅(qū)動的「概念均衡」策略:利用 MetaCLIP 編碼器將全部圖像與 50 萬規(guī)模概念詞嵌入共享向量空間,對每張圖像檢索 Top-K 最相似概念,統(tǒng)計概念頻次后按逆頻加權(quán)重采樣,抑制高頻背景類并提升罕見細(xì)粒度實體、屬性與場景占比,顯著平坦化長尾分布;隨后使用高質(zhì)量 Captioner 生成對齊的中英文增強描述。系統(tǒng)實驗表明,在相同或更低 token 預(yù)算下,擴大高質(zhì)量數(shù)據(jù)規(guī)模并結(jié)合概念均衡采樣,可在多模態(tài)理解、長尾識別與指令泛化等核心指標(biāo)上獲得顯著且可復(fù)現(xiàn)的性能提升。



指令數(shù)據(jù) 22M 覆蓋八大類別:Caption、Chart & Table、Code & Math、Domain-specific、General VQA、Grounding & Counting、OCR、Science。通過多源聚合、格式統(tǒng)一、指令重寫、雙語互轉(zhuǎn)、模板去同質(zhì)化與安全篩除,保持類別與難度分布均衡。并且我們的指令數(shù)據(jù)疊加 FineVision 數(shù)據(jù)集之后,結(jié)果會繼續(xù)增加。



訓(xùn)練策略

1. 視覺編碼器預(yù)訓(xùn)練

為了讓模型在 OCR、表格 / 文檔、區(qū)域理解與后續(xù)指令推理上具有更高的下限,我們在 LLaVA-OneVision-1.5 中采用自研的 MVT v1.5(RICE-ViT) 作為視覺主干。

相較僅做全局對齊的 CLIP / SigLIP 類對比模型,RICE-ViT 針對「實例只用單一全局向量」這一結(jié)構(gòu)性瓶頸,引入統(tǒng)一的 Region Cluster Discrimination 機制:在 4.5 億圖像與 24 億候選區(qū)域上訓(xùn)練,利用區(qū)域聚類判別 + 區(qū)域感知注意力顯式建模局部實體 / 文本塊與上下文關(guān)系,并結(jié)合 2D 旋轉(zhuǎn)位置編碼(2D RoPE)實現(xiàn)多分辨率原生支持。

與 SigLIP2 依賴多套專用損失(SILC、TIPS、LocCa 等)不同,我們用單一聚類判別范式同時強化通用語義、OCR 識別與定位能力,訓(xùn)練與推理鏈路更簡潔、可維護(hù)性更高。在多模態(tài)融合階段,通過輕量投影與后續(xù)全參數(shù)聯(lián)合訓(xùn)練,將這一細(xì)粒度語義底座無縫接入語言模型,減少冗余適配模塊并提升跨任務(wù)遷移效率。



2. 三階段學(xué)習(xí)流程

  • Stage-1:語言–圖像對齊

使用 LLaVA-1.5 558K 數(shù)據(jù)集訓(xùn)練視覺投影層,將視覺編碼輸出映射到語言模型詞嵌入空間。此階段控制參數(shù)更新范圍以快速穩(wěn)定收斂。

  • Stage-1.5:高質(zhì)量知識中期預(yù)訓(xùn)練

在概念均衡的 85M 預(yù)訓(xùn)練數(shù)據(jù)上進(jìn)行全參數(shù)訓(xùn)練,注入廣域視覺語義與世界知識,強調(diào)數(shù)據(jù)質(zhì)量與覆蓋而非盲目擴張 token 規(guī)模。

  • Stage-2:視覺指令對齊

基于 22M 指令數(shù)據(jù)與 FineVision 等多源視覺指令語料繼續(xù)全參數(shù)訓(xùn)練,提升任務(wù)泛化、推理組織與響應(yīng)格式控制能力。

3. 離線并行數(shù)據(jù)打包

為降低多模態(tài)樣本長度差異帶來的 padding 浪費、提升有效 token 利用率,我們采用離線并行數(shù)據(jù)打包:先按樣本長度或長度區(qū)間進(jìn)行哈希桶聚類,減少全局排序與掃描成本;再在數(shù)據(jù)準(zhǔn)備階段以多線程將多條短樣本拼接為接近目標(biāo)長度的定長序列。該流程一次性處理全量語料,具備確定性與可復(fù)現(xiàn)性,避免在線動態(tài)打包引入的運行時不穩(wěn)定與額外 CPU 開銷。

在 85M 規(guī)模的預(yù)訓(xùn)練樣本上,相比原始方案可實現(xiàn)最高約 11× 的 padding 有效壓縮(定義:原始方案總 padding token / 打包后總 padding token)。

4. 混合并行與長上下文高效訓(xùn)練,訓(xùn)練端采用混合并行與長上下文優(yōu)化

張量并行(TP)+ 流水并行(PP)+ 序列 / 上下文并行(Sequence/Context Parallel)與分布式優(yōu)化器協(xié)同,以在大規(guī)模集群中同時提升算力利用與顯存效率;同時采用原生分辨率策略,保留圖表、文檔與密集文本區(qū)域的結(jié)構(gòu)細(xì)節(jié),避免統(tǒng)一縮放帶來的信息損失。

在 128×A800 集群上,8B 規(guī)模模型的 Stage?1.5(85M 樣本、原生分辨率)約 3.7 天完成,兼顧吞吐與成本。

結(jié)論

LLaVA-OneVision-1.5 證明:依托概念均衡的 85M 預(yù)訓(xùn)練數(shù)據(jù)與高質(zhì)量指令數(shù)據(jù),結(jié)合 RICE?ViT 細(xì)粒度視覺底座和緊湊的三階段策略(對齊–高質(zhì)量知識注入–指令泛化),再配合離線并行打包(最高約 11× padding 減少)與混合并行 / 原生分辨率等工程優(yōu)化,8B 規(guī)模即可在更低 token 與算力成本下,對標(biāo)乃至部分超越主流開源與部分閉源多模態(tài)模型,體現(xiàn)「高質(zhì)量結(jié)構(gòu)化數(shù)據(jù) + 系統(tǒng)效率協(xié)同」相較單純堆量的優(yōu)勢。

這是一次非常簡單的復(fù)現(xiàn)工作:我們完整開放數(shù)據(jù)、工具鏈、腳本、配置、日志與評測配方,復(fù)現(xiàn)路徑清晰、依賴明確,無需復(fù)雜調(diào)參即可跑通。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
國內(nèi)退休群體現(xiàn)狀被揭示:大部分退休人員,或?qū)⒚媾R2大的難題

國內(nèi)退休群體現(xiàn)狀被揭示:大部分退休人員,或?qū)⒚媾R2大的難題

陳博世財經(jīng)
2025-12-19 10:11:44
杭州剛提新車就撞人后續(xù):疑似被撞銷售不幸身亡,涉事司機麻煩了

杭州剛提新車就撞人后續(xù):疑似被撞銷售不幸身亡,涉事司機麻煩了

漢史趣聞
2025-12-18 11:38:12
最低-12℃!陜西今夜到明早有雨雪暴雪,出行注意→

最低-12℃!陜西今夜到明早有雨雪暴雪,出行注意→

91.6陜西交通廣播
2025-12-19 15:41:44
劉亦菲在家玩自拍!不料被鏡子“出賣”了,網(wǎng)友直呼:好女人??!

劉亦菲在家玩自拍!不料被鏡子“出賣”了,網(wǎng)友直呼:好女人??!

小欣欣聊體育
2025-12-18 20:44:37
小鵬汽車法務(wù)部:已報案

小鵬汽車法務(wù)部:已報案

每日經(jīng)濟新聞
2025-12-18 14:52:26
你的辦公搭子,要漲價了

你的辦公搭子,要漲價了

中國新聞周刊
2025-12-19 13:33:38
國足出線難了!FIFA也幫不了,3大舉辦國反對2030世界杯擴軍64隊

國足出線難了!FIFA也幫不了,3大舉辦國反對2030世界杯擴軍64隊

侃球熊弟
2025-12-19 12:24:08
TikTok美國方案簽約,字節(jié)跳動繼續(xù)擁有TikTok算法知識產(chǎn)權(quán)

TikTok美國方案簽約,字節(jié)跳動繼續(xù)擁有TikTok算法知識產(chǎn)權(quán)

第一財經(jīng)資訊
2025-12-19 07:50:10
海南封關(guān)首日iPhone最高可減2140元 免稅店排長隊搶購

海南封關(guān)首日iPhone最高可減2140元 免稅店排長隊搶購

手機中國
2025-12-18 17:09:58
性能力與壽命關(guān)系被發(fā)現(xiàn)!男性40歲后,睪酮越高,死亡風(fēng)險越低

性能力與壽命關(guān)系被發(fā)現(xiàn)!男性40歲后,睪酮越高,死亡風(fēng)險越低

藥師說健康
2025-12-05 09:47:10
那個詛咒人類半個世紀(jì)的“50年魔咒”,真的開始松動了

那個詛咒人類半個世紀(jì)的“50年魔咒”,真的開始松動了

科學(xué)聲音
2025-12-18 20:06:30
美國底層女性垃圾白人曝光:社工直接給工具,就是讓他們吸死拉倒

美國底層女性垃圾白人曝光:社工直接給工具,就是讓他們吸死拉倒

忠于法紀(jì)
2025-12-18 20:14:00
曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生,曹云金的話,有人信了

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生,曹云金的話,有人信了

科學(xué)發(fā)掘
2025-12-19 10:27:00
單扛強突+MVP!22歲中鋒帶隊進(jìn)決賽:離開曼聯(lián)半年12球3助

單扛強突+MVP!22歲中鋒帶隊進(jìn)決賽:離開曼聯(lián)半年12球3助

葉青足球世界
2025-12-19 08:29:19
2票之差,特朗普拿下對委內(nèi)瑞拉開戰(zhàn)權(quán),中方通告全球,表明立場

2票之差,特朗普拿下對委內(nèi)瑞拉開戰(zhàn)權(quán),中方通告全球,表明立場

時時有聊
2025-12-18 17:07:40
CBA最新消息!曝上海將裁掉弗格,沈梓捷受傷或賽季報銷

CBA最新消息!曝上海將裁掉弗格,沈梓捷受傷或賽季報銷

郝小小看體育
2025-12-19 11:29:04
國產(chǎn)奔馳GLE要來了!前臉大改,軸距加長,能比寶馬X5更好賣?

國產(chǎn)奔馳GLE要來了!前臉大改,軸距加長,能比寶馬X5更好賣?

優(yōu)視汽車
2025-12-19 14:08:02
剛從沐曦爆賺200億的葛衛(wèi)東又出手了!

剛從沐曦爆賺200億的葛衛(wèi)東又出手了!

商業(yè)與生活
2025-12-19 11:43:38
北京下周還有雪!今天空氣質(zhì)量將好轉(zhuǎn)——

北京下周還有雪!今天空氣質(zhì)量將好轉(zhuǎn)——

BRTV新聞
2025-12-19 12:57:41
曝阿莫林下賽季不再執(zhí)教曼聯(lián),兩人成替代候選!拉爵三年承諾無用

曝阿莫林下賽季不再執(zhí)教曼聯(lián),兩人成替代候選!拉爵三年承諾無用

羅米的曼聯(lián)博客
2025-12-19 07:30:10
2025-12-19 16:52:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142513關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

美批準(zhǔn)對臺逾111億美元軍售 國防部回應(yīng)

頭條要聞

美批準(zhǔn)對臺逾111億美元軍售 國防部回應(yīng)

體育要聞

“惡龍”埃托奧,正在毀滅喀麥隆足球

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無期

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

房產(chǎn)
旅游
親子
公開課
軍事航空

房產(chǎn)要聞

猛降1.65億!大唐集團,再次出售三亞核心資產(chǎn)!

旅游要聞

新疆庫爾德寧景區(qū):雪覆群山 云杉靜立

親子要聞

金寶貝獲“2025年度綜合實力兒童教育品牌”引領(lǐng)科學(xué)早教創(chuàng)新實踐

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

媒體:美方官宣史上對臺單筆最大軍售 野心藏不住了

無障礙瀏覽 進(jìn)入關(guān)懷版