国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

阿里巴巴團(tuán)隊(duì)開源,OCR 又來一個(gè)高手,第一!

0
分享至

大家好,我是Ai學(xué)習(xí)的老章

OCR 我寫過太多了,每隔一段時(shí)間就有新模型出來:

今天這位選手是阿里巴巴團(tuán)隊(duì)開源的Logics-Parsing-v2,在兩個(gè)主流 Benchmark 上直接拿了第一:自家的 LogicsDocBench 拿了82.16 分,公開的 OmniDocBench-v1.5 拿了93.23 分,都是目前最高分。


https://www.modelscope.cn/studios/Alibaba-DT/Logics-Parsing/summary?spm=label.24dbbd5e.0.0.34862eb7aIqtVk 這模型有啥不一樣?

市面上 OCR 模型一大把,Logics-Parsing-v2 憑啥能打?核心就兩個(gè)字:全能。

傳統(tǒng) OCR 做的事情比較窄——識(shí)別文字、提取表格、處理公式。但實(shí)際文檔遠(yuǎn)比這復(fù)雜:報(bào)紙那種多欄排版、跨頁(yè)表格、豎排文字、手寫內(nèi)容……這些"臟活累活",大部分模型處理得都不太行。

Logics-Parsing-v2 在 v1 的基礎(chǔ)上,除了把這些傳統(tǒng)任務(wù)做得更好之外,還加了一個(gè)全新的能力維度,叫Parsing-2.0——支持解析以下內(nèi)容:

  • 流程圖 / 思維導(dǎo)圖→ 輸出 Mermaid 格式

  • 樂譜→ 輸出 ABC 記譜法

  • 代碼塊 / 偽代碼→ 結(jié)構(gòu)化提取

  • 化學(xué)分子式→ SMILES 格式

你沒看錯(cuò),它能看懂樂譜。這在 OCR 領(lǐng)域算是相當(dāng)炸裂的能力了。


Logics-Parsing-v2 能力概覽——從傳統(tǒng)文檔到流程圖、樂譜、代碼全覆蓋 Benchmark 成績(jī)單

先看自家的LogicsDocBench,這是阿里專門建的評(píng)測(cè)集,900 頁(yè) PDF,覆蓋三大場(chǎng)景:

場(chǎng)景

頁(yè)數(shù)

包含內(nèi)容

STEM 文檔

218 頁(yè)

物理、數(shù)學(xué)、工程等十多個(gè)學(xué)科

復(fù)雜排版

459 頁(yè)

多欄、跨頁(yè)表格、豎排、圖文混排

Parsing-2.0

223 頁(yè)

化學(xué)式、樂譜、代碼塊、流程圖

在這個(gè) Benchmark 上,Logics-Parsing-v2 以82.16 分的總分排名第一,遠(yuǎn)超其他選手。


LogicsDocBench 評(píng)測(cè)結(jié)果——Logics-Parsing-v2 全面領(lǐng)先

再看公開的OmniDocBench-v1.5,這個(gè)是業(yè)界公認(rèn)的文檔解析評(píng)測(cè)標(biāo)準(zhǔn)。Logics-Parsing-v2 拿了93.23 分,同樣是最高分——比 Gemini 2.5 Pro、GPT-5、豆包 1.6 這些閉源大模型都高。


OmniDocBench-v1.5 評(píng)測(cè)結(jié)果——開源模型首次登頂

說實(shí)話,開源 OCR 模型在 OmniDocBench 上打贏閉源大模型,這還是頭一次。之前我測(cè)過不少 OCR 模型,閉源的 Mathpix、doc2x 一直是天花板,現(xiàn)在這個(gè)天花板被捅穿了。

跟其他模型比怎么樣?

在阿里自建的 Benchmark 上(v1 評(píng)測(cè),數(shù)值越低越好,TEDS 越高越好):

幾個(gè)值得關(guān)注的對(duì)比:

  • vs Gemini 2.5 Pro:Logics-Parsing 在英文文本(0.089 vs 0.115)、表格(0.165 vs 0.154 接近)上都有競(jìng)爭(zhēng)力

  • vs Mathpix:公式識(shí)別 Mathpix 還是很強(qiáng)(0.06 vs 0.106),但綜合能力 Logics-Parsing 更好

  • vs MonkeyOCR / GOT-OCR:全面領(lǐng)先,不在一個(gè)檔次

  • vs 通用大模型(GPT-5、Qwen2.5VL-72B):專用模型優(yōu)勢(shì)明顯

一個(gè)模型,端到端推理,不需要復(fù)雜的 pipeline,直接圖片進(jìn)、HTML 出。這個(gè)思路比傳統(tǒng)的"檢測(cè)+識(shí)別+后處理"流水線簡(jiǎn)潔太多了。

輸出格式很講究

Logics-Parsing-v2 輸出的不是純文本,而是結(jié)構(gòu)化 HTML。

每個(gè)內(nèi)容塊都帶有:

  • 類別標(biāo)簽:段落、表格、圖片、公式等

  • 邊界框坐標(biāo):精確到像素級(jí)的位置信息

  • OCR 文本:識(shí)別出的內(nèi)容

對(duì)于 Parsing-2.0 的新場(chǎng)景,輸出格式也做了定制:

  • 流程圖 →Mermaid語法(可以直接渲染)

  • 樂譜 →ABC 記譜法(音樂人看得懂)

  • 化學(xué)式 →SMILES格式(化學(xué)標(biāo)準(zhǔn)表示)

這意味著你拿到輸出之后,不需要再做什么后處理,直接就能用。

怎么跑?

部署很簡(jiǎn)單:

conda create -n logics-parsing-v2 python=3.10
conda activate logics-parsing-v2
pip install -r requirements.txt

下載模型(HuggingFace 或 ModelScope 二選一):

# HuggingFace
pip install huggingface_hub
python download_model_v2.py -t huggingface


# ModelScope(國(guó)內(nèi)更快)
pip install modelscope
python download_model_v2.py -t modelscope

推理一行搞定:

python3 inference_v2.py --image_path 你的圖片路徑 --output_path 輸出目錄 --model_path 模型路徑

基于 Qwen3-VL 架構(gòu),對(duì) GPU 有一定要求,但不算離譜。

實(shí)際效果展示

說了這么多數(shù)據(jù),看幾個(gè)實(shí)際效果:

扭曲文檔識(shí)別——拍照角度歪斜、紙張彎曲,照樣準(zhǔn)確識(shí)別:


扭曲文檔識(shí)別效果

STEM 文檔——復(fù)雜的數(shù)學(xué)公式、物理圖表,結(jié)構(gòu)完整保留:


STEM 文檔解析效果

代碼塊識(shí)別——不只是識(shí)別文字,還能保留代碼結(jié)構(gòu):


代碼塊識(shí)別效果

流程圖解析——識(shí)別流程圖并轉(zhuǎn)成 Mermaid 代碼,可以直接渲染:


流程圖解析效果

樂譜識(shí)別——這個(gè)真的是第一次在 OCR 模型里見到:


樂譜識(shí)別效果 總結(jié)

Logics-Parsing-v2 給我的感覺就是:OCR 這個(gè)賽道,終于有一個(gè)模型把"全能"兩個(gè)字做到位了。

  • 雙 Benchmark 第一:LogicsDocBench 82.16,OmniDocBench-v1.5 93.23

  • Parsing-2.0:流程圖、樂譜、代碼、化學(xué)式,傳統(tǒng) OCR 碰都不碰的東西它全能解

  • 端到端單模型:不需要復(fù)雜 pipeline,圖片進(jìn) HTML 出

  • 開源免費(fèi):代碼和模型全部開放

如果你在做文檔數(shù)字化、論文解析、知識(shí)庫(kù)構(gòu)建這類工作,這個(gè)模型真的值得試試。

  • GitHub:https://github.com/alibaba/Logics-Parsing

  • HuggingFace 模型:https://huggingface.co/Logics-MLLM/Logics-Parsing-v2

  • 在線 Demo:https://www.modelscope.cn/studios/Alibaba-DT/Logics-Parsing/summary

制作不易,如果這篇文章覺得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
不退役了?勇士4冠功臣預(yù)計(jì)回歸,年薪創(chuàng)紀(jì)錄,阻礙開拓者引援!

不退役了?勇士4冠功臣預(yù)計(jì)回歸,年薪創(chuàng)紀(jì)錄,阻礙開拓者引援!

你的籃球頻道
2026-04-19 17:14:51
日本乒壇內(nèi)訌:松島輝空當(dāng)眾炮轟張本智和:你不守時(shí),我特別討厭你!

日本乒壇內(nèi)訌:松島輝空當(dāng)眾炮轟張本智和:你不守時(shí),我特別討厭你!

最愛乒乓球
2026-04-20 00:07:44
2025年外賣騎手破1300萬,大專生占近四分之一,曾經(jīng)的退路也卷了

2025年外賣騎手破1300萬,大專生占近四分之一,曾經(jīng)的退路也卷了

老特有話說
2026-04-16 16:16:26
為何單身老人喜歡請(qǐng)保姆?50歲保姆傾訴:大多不是為了花錢買服務(wù)

為何單身老人喜歡請(qǐng)保姆?50歲保姆傾訴:大多不是為了花錢買服務(wù)

烙任情感
2026-04-19 11:10:39
古裝劇都是騙人的:真實(shí)的古代百姓餐桌,現(xiàn)代人看一眼就想吐

古裝劇都是騙人的:真實(shí)的古代百姓餐桌,現(xiàn)代人看一眼就想吐

富貴說
2026-04-19 14:52:13
我在伊拉克開工廠,娶了4個(gè)老婆,雖然年入千萬,如今卻很焦慮!

我在伊拉克開工廠,娶了4個(gè)老婆,雖然年入千萬,如今卻很焦慮!

千秋文化
2026-04-16 20:12:45
拱北海關(guān)原一級(jí)巡視員彭偉鵬被查

拱北海關(guān)原一級(jí)巡視員彭偉鵬被查

新京報(bào)
2026-04-20 10:19:05
日本壟斷全球90%!一旦斷供,別國(guó)造不出,中國(guó)咋辦?

日本壟斷全球90%!一旦斷供,別國(guó)造不出,中國(guó)咋辦?

今墨緣
2026-04-14 09:57:22
秦嵐 x 黑絲要人命

秦嵐 x 黑絲要人命

TVB的四小花
2026-04-20 01:48:17
解氣!??!來而不往非禮也!中國(guó)海軍今天出手了!

解氣?。?!來而不往非禮也!中國(guó)海軍今天出手了!

樂趣紀(jì)史
2026-04-20 08:03:19
看不上!西媒:若克洛普?qǐng)?zhí)教皇馬,佛爺必須出售姆巴佩和維尼修斯

看不上!西媒:若克洛普?qǐng)?zhí)教皇馬,佛爺必須出售姆巴佩和維尼修斯

夏侯看英超
2026-04-20 11:32:19
她穿著玫瑰裙站上擂臺(tái),全場(chǎng)數(shù)到第50618人

她穿著玫瑰裙站上擂臺(tái),全場(chǎng)數(shù)到第50618人

體壇觀察猿
2026-04-19 09:35:02
伊朗宣布對(duì)所有商船開放霍爾木茲海峽

伊朗宣布對(duì)所有商船開放霍爾木茲海峽

環(huán)球網(wǎng)資訊
2026-04-17 21:29:34
NBA公布MVP三大最終候選!文班強(qiáng)勢(shì)入圍,評(píng)論區(qū)球迷炸鍋

NBA公布MVP三大最終候選!文班強(qiáng)勢(shì)入圍,評(píng)論區(qū)球迷炸鍋

仰臥撐FTUer
2026-04-20 11:31:22
太尷尬了!9個(gè)姐妹聚餐,臨時(shí)倡議各邀請(qǐng)一男生,竟然無一人到場(chǎng)

太尷尬了!9個(gè)姐妹聚餐,臨時(shí)倡議各邀請(qǐng)一男生,竟然無一人到場(chǎng)

火山詩(shī)話
2026-04-19 08:06:38
癌癥不是突然發(fā)生的!《細(xì)胞》重磅研究首次“直播”癌變?nèi)^程

癌癥不是突然發(fā)生的!《細(xì)胞》重磅研究首次“直播”癌變?nèi)^程

Thurman在昆明
2026-04-19 21:57:59
杉杉集團(tuán)家族內(nèi)斗失控

杉杉集團(tuán)家族內(nèi)斗失控

地產(chǎn)微資訊
2026-03-27 10:10:55
中東大消息!剛剛,直線拉升

中東大消息!剛剛,直線拉升

中國(guó)基金報(bào)
2026-04-20 07:38:31
35歲男子常用微波爐加熱食物,2年后確診胃癌,醫(yī)生:犯了2個(gè)大錯(cuò)

35歲男子常用微波爐加熱食物,2年后確診胃癌,醫(yī)生:犯了2個(gè)大錯(cuò)

小柱解說游戲
2026-04-19 21:11:53
上海連續(xù)5天雨!140年來最強(qiáng)厄爾尼諾,今年沖擊高溫極限?權(quán)威回應(yīng)

上海連續(xù)5天雨!140年來最強(qiáng)厄爾尼諾,今年沖擊高溫極限?權(quán)威回應(yīng)

新浪財(cái)經(jīng)
2026-04-20 08:28:42
2026-04-20 12:04:49
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3334文章數(shù) 11137關(guān)注度
往期回顧 全部

科技要聞

藍(lán)色起源一級(jí)火箭完美回收 客戶衛(wèi)星未入軌

頭條要聞

男子收到陌生賬號(hào)轉(zhuǎn)賬8萬余元 3天后奢侈品牌商家找來

頭條要聞

男子收到陌生賬號(hào)轉(zhuǎn)賬8萬余元 3天后奢侈品牌商家找來

體育要聞

七大獎(jiǎng)項(xiàng)候選官宣!文班或全票DPOY

娛樂要聞

鹿晗生日上熱搜,被關(guān)曉彤撕下體面

財(cái)經(jīng)要聞

月之暗面IPO迷局

汽車要聞

外觀非常驚艷 全新一代寶馬6系有望回歸

態(tài)度原創(chuàng)

親子
數(shù)碼
藝術(shù)
旅游
本地

親子要聞

普通家庭養(yǎng)娃補(bǔ)鈣,90% 家長(zhǎng)都補(bǔ)錯(cuò)了!

數(shù)碼要聞

小米米家中央空調(diào)人感風(fēng)風(fēng)管機(jī)雙出風(fēng)預(yù)售:超一級(jí)能效,8999元

藝術(shù)要聞

王羲之《換鵝帖》尚在人間,驚艷無比!

旅游要聞

贛鄱千年道:見證一片葉子的多種“打開方式”

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

無障礙瀏覽 進(jìn)入關(guān)懷版