国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

只有0.9B的PaddleOCR-VL,卻是現(xiàn)在最強(qiáng)的OCR模型。

0
分享至

這幾天,OCR這個(gè)詞,絕對(duì)是整個(gè)AI圈最火的詞。

因?yàn)镈eepSeek-OCR,甚至讓OCR這個(gè)賽道文藝復(fù)興,又給直接帶火了。


整個(gè)Hugging Face的趨勢(shì)版里,前4有3個(gè)OCR,甚至Qwen3-VL-8B也能干OCR的活,說(shuō)一句全員OCR真的不過(guò)分。

然后在我上一篇講DeepSeek-OCR文章的評(píng)論區(qū)里,有很多朋友都在把DeepSeek-OCR跟 PaddleOCR-VL做對(duì)比, 也有很多人都在問(wèn),能不能再解讀一下百度那個(gè)OCR模型(也就是 PaddleOCR-VL) 。



所以我也覺(jué)得,不如就來(lái)寫(xiě)一篇關(guān)于 PaddleOCR-VL的內(nèi)容吧。

非常坦誠(chéng)的講,百度家的東西,我寫(xiě)的一直都會(huì)非常謹(jǐn)慎。

但是這個(gè)PaddleOCR-VL,是我真的覺(jué)得值得一寫(xiě)的。

因?yàn),確實(shí)很牛逼。


首先提一下,PaddleOCR這個(gè)項(xiàng)目本身,不是啥新東西,這是百度一直都在做的項(xiàng)目,很多年了,最早期甚至可以追溯到2020年,也是一直是開(kāi)源的姿態(tài)。


后來(lái)他們就不斷的迭代,整整5年時(shí)間,成了整個(gè)OCR領(lǐng)域最火的開(kāi)源,現(xiàn)在也應(yīng)該是現(xiàn)在Github上Star最高的OCR項(xiàng)目,有60K,基本屬于斷檔領(lǐng)先。


而 PaddleOCR-VL模型,就是他們 前幾天開(kāi)源了他們的PaddleOCR系列里最新的模型,這也是第一次,把大模型用在了整個(gè)OCR文檔解析的最核心的位置。


整個(gè)模型只有0.9B,但是幾乎在OCR的評(píng)測(cè)集叫OmniDocBench v1.5的所有子項(xiàng),都做到了SOTA。


左邊有三個(gè)類(lèi)型,分別是傳統(tǒng)的多階段流水線系統(tǒng)、通用多模態(tài)大模型、專(zhuān)門(mén)為文檔解析訓(xùn)練的視覺(jué)語(yǔ)言模型。

PaddleOCR-VL參數(shù)最小,效果最好,然后因?yàn)榘l(fā)的剛好早了三四天,所以表里沒(méi)有DeepSeek-OCR的跑分,但是 OmniDocBench v1.5 的最新跑分昨天也出爐了, DeepSeek-OCR 綜合跑分是86.46,比 PaddleOCR-VL的92.56還是低了大概6分,不過(guò)也能理解。


PaddleOCR-VL 確實(shí)足夠的猛,在垂直模型領(lǐng)域,把性?xún)r(jià)比做到了極致。

你可能會(huì)有一點(diǎn)點(diǎn)好奇,為啥一個(gè)0.9B的模型,能比其他的大模型都要強(qiáng)。

除了確實(shí)專(zhuān)精這個(gè)領(lǐng)域之外,還有個(gè)非常有趣的架構(gòu),是我覺(jué)得單獨(dú)可以說(shuō)一下的。

也是長(zhǎng)上下文和避免幻覺(jué)的一種非常有趣的解法。


很多的多模態(tài)大模型,是端到端的,他們干OCR的方式其實(shí)是非常低效的。

就是你把一整張A4紙扔給它,它需要一口氣把這張圖上所有的文字、表格、公式、圖片、排版等等全都看懂,然后再一口氣生成一個(gè)完美的Markdown,這個(gè)難度,其實(shí)也挺地獄級(jí)的。

畢竟模型需要同時(shí)理解:“哦,這塊是個(gè)表,它在頁(yè)面的左上角,這個(gè)表有3行5列,哦表頭是這個(gè),哦內(nèi)容是那個(gè),它旁邊的這段文字是在解釋這個(gè)表……哦哎臥槽我第一個(gè)事是要干啥來(lái)著。。!

PaddleOCR-VL的做法就挺高效好玩的,它的架構(gòu),就兩步:

第一步,先讓專(zhuān)干布局分析的傳統(tǒng)視覺(jué)模型上。這個(gè)玩意叫PP-DocLayoutV2,它干的活兒特純粹,就是“框”。

它以極快的速度掃一眼整張圖,然后把一些區(qū)域都框起來(lái),然后告訴你:“報(bào)告老板,這里是標(biāo)題,那里是正文,這塊是個(gè)表,那塊是公式! 而且每個(gè)框的閱讀順序,也都是符合人類(lèi)的閱讀順序的。

這個(gè)活兒,在CV領(lǐng)域已經(jīng)很成熟了,根本不需要一個(gè)大模型來(lái)搞。


第二步,就是主力登場(chǎng)。這個(gè)主力,就是最核心的這個(gè)0.9B的PaddleOCR-VL模型。

它現(xiàn)在接到的任務(wù),根本不是去看那張復(fù)雜的A4紙。它接到的是一堆被PP-DocLayoutV2裁好的小圖片。

一個(gè)任務(wù)是:“這是一張200x500的小圖,我(PP-DocLayoutV2)已經(jīng)告訴你這是個(gè)表了,你(PaddleOCR-VL)給我把它轉(zhuǎn)成Markdown。”

下一個(gè)任務(wù)是:“這是一張50x50的小圖,我知道這是個(gè)公式,你給我轉(zhuǎn)成LaTeX!

然后循環(huán)往復(fù),最后,又準(zhǔn)又快。

所以這種做法,根本不需要復(fù)雜的幾百B的大模型,直接上0.9B的模型,卻能達(dá)到最完美的效果。

我之所以把這個(gè)點(diǎn)單獨(dú)拿出來(lái)說(shuō),也是想表達(dá)我的一個(gè)觀點(diǎn):

在普通用戶(hù)眼里,其實(shí)很多時(shí)候技術(shù)根本沒(méi)有優(yōu)劣,能解決用戶(hù)的問(wèn)題,就是最牛逼的技術(shù)。黑貓白貓,能抓到耗子的,就是好貓。

至少我認(rèn)為,PaddleOCR-VL的做法,就非常的巧勁。

我也專(zhuān)門(mén)找了幾類(lèi)特別有代表性,處理起來(lái)比較頭疼的圖片來(lái)給大家看一下實(shí)測(cè)的效果。

首先肯定是掃描PDF,這種應(yīng)該是重中之重,比如下面這張非常糊的掃描件截圖,肉眼看起來(lái)也會(huì)有點(diǎn)吃力。


糊不拉幾的,我眼睛看著都疼。

而把這個(gè)扔給PaddleOCR-VL,它處理起來(lái)很順利,先是把需要識(shí)別的地方框了出來(lái),并打上了閱讀循序的序號(hào)。


然后是第二步,分塊識(shí)別出結(jié)果,效果很不錯(cuò),公式也識(shí)別出來(lái)了。


我詳細(xì)核對(duì)了2、3遍,發(fā)現(xiàn)確實(shí)一個(gè)字都沒(méi)錯(cuò)。

最后的那個(gè)+號(hào)后面之所以沒(méi)東西了,是因?yàn)槲医貓D的時(shí)候,不小心讓搜狗輸入法的圖標(biāo)給擋住了。。。

我又找了一些手寫(xiě)筆記的照片去試,這玩意絕對(duì)是OCR領(lǐng)域的硬骨頭。

不管是中文還是英文,只要字跡別太潦草到像天書(shū)一樣,PaddleOCR-VL給出的識(shí)別結(jié)果準(zhǔn)確率都還挺在線的。

對(duì)比很多工具碰到手寫(xiě)基本就歇菜的情況,這個(gè)已經(jīng)很能打了。


當(dāng)然,前提是你的手寫(xiě)字得大致能看懂,如果是醫(yī)生的那種字,我覺(jué)得神仙來(lái)了都沒(méi)用。。。

然后是論文這種排版密集的。報(bào)紙那小字、多分欄、緊湊的布局,對(duì)布局分析和識(shí)別都是不小的挑戰(zhàn)。

實(shí)測(cè)下來(lái),PaddleOCR-VL對(duì)多欄的處理還比較穩(wěn)定,閱讀順序也能捋順,文字識(shí)別本身也沒(méi)啥毛病,基本全對(duì),總體效果挺好。


因?yàn)橹С侄说蕉说慕馕,所以能給你把一些圖表啥的都給你還原回來(lái)。


這個(gè)點(diǎn)非常的牛逼。

還有就是票據(jù),像發(fā)票收據(jù)這些。格式雖然相對(duì)固定,但里面混著機(jī)打字、數(shù)字、手寫(xiě)補(bǔ)充、甚至蓋章,挺復(fù)雜的。

PaddleOCR-VL在處理這類(lèi)半結(jié)構(gòu)化文檔、抓取關(guān)鍵信息時(shí)表現(xiàn)還行,我自己跑了很多次,不能說(shuō)百分百?zèng)]差錯(cuò),但在同類(lèi)模型里,已經(jīng)算非?孔V的了。


感覺(jué)這個(gè)已經(jīng)完全可以替換我們現(xiàn)在多維表格上用的視覺(jué)大模型,接入到我們公司財(cái)務(wù)的多維表格系統(tǒng)里面了。。。

準(zhǔn)確性強(qiáng)很多,真的能節(jié)省財(cái)務(wù)的不少時(shí)間。

還有那種大型表格,這就是重頭戲了。

不管是論文里那種帶合并單元格的復(fù)雜表,還是財(cái)報(bào)里密密麻麻的數(shù)字表,甚至是沒(méi)啥框線的表,PaddleOCR-VL的表格結(jié)構(gòu)識(shí)別能力是有一點(diǎn)讓我驚訝的,不光能認(rèn)出格子里面的字,還能把表格的行列關(guān)系比較好地還原出來(lái),這對(duì)我們的一些自動(dòng)化信息提取非常有幫助。

比如就是上文里面的那個(gè)跑分圖。

識(shí)別提取出來(lái)之后,沒(méi)有一丁點(diǎn)問(wèn)題,這個(gè)是有點(diǎn)離譜的。


總的來(lái)說(shuō),這些實(shí)測(cè)跑下來(lái),PaddleOCR-VL在處理這些復(fù)雜和刁鉆的場(chǎng)景時(shí),表現(xiàn)確實(shí)可圈可點(diǎn)。

而且實(shí)測(cè)確實(shí)會(huì)比DeepSeek-OCR準(zhǔn)確更高,DeepSeek-OCR提取的時(shí)候總是會(huì)錯(cuò)一兩個(gè)字,PaddleOCR-VL是一字不錯(cuò),當(dāng)然你不能把DeepSeek-OCR純看成是一個(gè)純OCR模型,畢竟意義還是不太一樣。

我們自己其實(shí)有很多飛書(shū)多維表格的信息提取工作流,也已經(jīng)在考慮換成PaddleOCR-VL了。

比如我們經(jīng)常需要,批量上傳一些各個(gè)平臺(tái)的數(shù)據(jù)截圖,然后提取里面的一些結(jié)構(gòu)化信息。


現(xiàn)在都是接了一些比較大的多模態(tài)大模型來(lái)做提取的,有一說(shuō)一,從價(jià)格上來(lái)說(shuō),會(huì)比PaddleOCR-VL這種貴很多,而且有時(shí)候還會(huì)出錯(cuò)。

感覺(jué)把PaddleOCR-VL接進(jìn)去,會(huì)是目前的最優(yōu)解。

目前PaddleOCR-VL已經(jīng)開(kāi)源,網(wǎng)址在此:

https://github.com/PaddlePaddle/PaddleOCR

我本來(lái)想跟DeepSeek-OCR一樣,給大家手搓一個(gè)Windows的本地整合包,讓大家能開(kāi)箱即用,結(jié)果因?yàn)椴煌谝恍┏R?guī)的大模型,折騰了一夜,干到凌晨4點(diǎn)多,兩眼發(fā)黑,還是沒(méi)做出來(lái),這個(gè)只能說(shuō)對(duì)不起大家,還是有點(diǎn)太菜了= =

所以現(xiàn)階段,大家如果有自己部署能力的,可以自己根據(jù)PaddleOCR Github上的部署教程來(lái)部署到本地。

只是想用一下的,不想折騰部署的,可以去各大demo平臺(tái)上用官方自己部署的體驗(yàn)版本。

飛槳:https://aistudio.baidu.com/application/detail/98365

魔搭:https://www.modelscope.cn/studios/PaddlePaddle/PaddleOCR-VL_Online_Demo

Hugging Face:https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo

最后,還是想多說(shuō)幾句。

DeepSeek-OCR探索的上下文光學(xué)壓縮確實(shí)非常新,也打開(kāi)了大家對(duì)人類(lèi)視覺(jué)感知的一些新的想象。

百度的PaddleOCR-VL,更是從實(shí)際出發(fā),在一個(gè)細(xì)分領(lǐng)域達(dá)到了SOTA,成為了這個(gè)領(lǐng)域效果最好的模型。

高效、準(zhǔn)確,也能實(shí)實(shí)在在地提升我們處理文檔信息的效率。

兩者都是非常優(yōu)秀的工作,沒(méi)有誰(shuí)比誰(shuí)強(qiáng)。

都是在自己領(lǐng)域。

最亮眼的仔。

以上,既然看到這里了,如果覺(jué)得不錯(cuò),隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時(shí)間收到推送,也可以給我個(gè)星標(biāo)?~謝謝你看我的文章,我們,下次再見(jiàn)。

>/ 作者:卡茲克

>/ 投稿或爆料,請(qǐng)聯(lián)系郵箱:wzglyay@virxact.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中方這次加碼對(duì)日本的反制措施之后,一個(gè)非常反常的現(xiàn)象出現(xiàn)了!

中方這次加碼對(duì)日本的反制措施之后,一個(gè)非常反常的現(xiàn)象出現(xiàn)了!

達(dá)文西看世界
2026-01-10 14:34:06
“年度反腐大片”披露:5干部喝4瓶白酒后縣委政法委副書(shū)記死亡 報(bào)告中寫(xiě)“在家中因突發(fā)疾病去世”

“年度反腐大片”披露:5干部喝4瓶白酒后縣委政法委副書(shū)記死亡 報(bào)告中寫(xiě)“在家中因突發(fā)疾病去世”

紅星新聞
2026-01-11 22:04:26
祝賀!香港著名女星與未婚夫復(fù)合成功,有望正式步入婚姻殿堂

祝賀!香港著名女星與未婚夫復(fù)合成功,有望正式步入婚姻殿堂

陳意小可愛(ài)
2026-01-10 06:03:01
2026 年全球第一個(gè)被暴擊國(guó)家出現(xiàn)!對(duì)方已經(jīng)破防!中國(guó)贏定了!

2026 年全球第一個(gè)被暴擊國(guó)家出現(xiàn)!對(duì)方已經(jīng)破防!中國(guó)贏定了!

毛豆論道
2026-01-10 17:16:07
著名音樂(lè)家、指揮家劉鍵逝世,曾因在街頭見(jiàn)義勇為為人所熟知

著名音樂(lè)家、指揮家劉鍵逝世,曾因在街頭見(jiàn)義勇為為人所熟知

澎湃新聞
2026-01-11 18:58:27
德國(guó)雜志“惡意抓拍”?樊振東封面照被批“認(rèn)不出”,球迷怒懟:辜負(fù)他的治愈微笑

德國(guó)雜志“惡意抓拍”?樊振東封面照被批“認(rèn)不出”,球迷怒懟:辜負(fù)他的治愈微笑

最?lèi)?ài)乒乓球
2026-01-11 08:21:43
金價(jià)突破1400元,白銀飆升50%,專(zhuān)家發(fā)出市場(chǎng)警告!

金價(jià)突破1400元,白銀飆升50%,專(zhuān)家發(fā)出市場(chǎng)警告!

特約前排觀眾
2026-01-12 00:05:05
厲害了,我的天津!被國(guó)家 “選中”,即將代表中國(guó)走向世界!

厲害了,我的天津!被國(guó)家 “選中”,即將代表中國(guó)走向世界!

小小包工頭阿汾
2026-01-11 17:37:37
從無(wú)視陳夢(mèng)握手,到2次投訴后輩蒯曼,國(guó)乒某名將的風(fēng)評(píng)越來(lái)越差

從無(wú)視陳夢(mèng)握手,到2次投訴后輩蒯曼,國(guó)乒某名將的風(fēng)評(píng)越來(lái)越差

譚顳愛(ài)搞笑
2025-12-30 21:35:03
方媛曬一家四口逛街照,郭富城好矮,方媛腰胯很寬,成了中年婦女

方媛曬一家四口逛街照,郭富城好矮,方媛腰胯很寬,成了中年婦女

樂(lè)悠悠娛樂(lè)
2026-01-09 09:42:08
蘋(píng)果突然上架新品:1月12日,正式開(kāi)售!

蘋(píng)果突然上架新品:1月12日,正式開(kāi)售!

3C毒物
2026-01-12 00:08:41
哈馬斯宣布將解散加沙政府機(jī)構(gòu) 并準(zhǔn)備移交管理權(quán)力

哈馬斯宣布將解散加沙政府機(jī)構(gòu) 并準(zhǔn)備移交管理權(quán)力

財(cái)聯(lián)社
2026-01-11 00:12:27
特朗普逼中俄認(rèn)栽,美軍扣押俄油船,普京準(zhǔn)備復(fù)仇

特朗普逼中俄認(rèn)栽,美軍扣押俄油船,普京準(zhǔn)備復(fù)仇

龍視國(guó)際
2026-01-11 23:30:03
最新 | 羅保銘將出鏡懺悔

最新 | 羅保銘將出鏡懺悔

天津廣播
2026-01-11 23:19:03
男人自以為很帥的穿搭能有多逆天。網(wǎng)友:在我穿上束腳褲的那一刻

男人自以為很帥的穿搭能有多逆天。網(wǎng)友:在我穿上束腳褲的那一刻

夜深?lèi)?ài)雜談
2026-01-10 22:44:14
9.5分神劇驚喜歸來(lái),第一集就值五星好評(píng)!

9.5分神劇驚喜歸來(lái),第一集就值五星好評(píng)!

熱薦電影
2026-01-11 00:01:11
南天門(mén)計(jì)劃即將登場(chǎng),中美軍力將出現(xiàn)“星際”代差

南天門(mén)計(jì)劃即將登場(chǎng),中美軍力將出現(xiàn)“星際”代差

世家寶
2026-01-11 18:24:11
隨著廣東大勝遼寧,廣廈險(xiǎn)勝,北京爆冷輸球,CBA最新積分榜有變

隨著廣東大勝遼寧,廣廈險(xiǎn)勝,北京爆冷輸球,CBA最新積分榜有變

侃球熊弟
2026-01-11 22:07:55
故事:耗資8億高海南觀音像,4年后建造者死在水中,749局介入調(diào)查

故事:耗資8億高海南觀音像,4年后建造者死在水中,749局介入調(diào)查

濤哥講堂
2024-09-02 12:31:35
美司令:一旦中國(guó)在臺(tái)海設(shè)禁飛區(qū),美軍就只能擊沉解放軍的戰(zhàn)艦了

美司令:一旦中國(guó)在臺(tái)海設(shè)禁飛區(qū),美軍就只能擊沉解放軍的戰(zhàn)艦了

浮光驚掠影
2025-12-12 23:27:34
2026-01-12 03:51:00
數(shù)字生命卡茲克 incentive-icons
數(shù)字生命卡茲克
反復(fù)橫跳于不同的AI領(lǐng)域,努力分享一些很酷的AI干貨
436文章數(shù) 490關(guān)注度
往期回顧 全部

科技要聞

“我們與美國(guó)的差距也許還在拉大”

頭條要聞

美軍突襲委內(nèi)瑞拉俄制防空系統(tǒng)失聯(lián) 俄方回應(yīng)

頭條要聞

美軍突襲委內(nèi)瑞拉俄制防空系統(tǒng)失聯(lián) 俄方回應(yīng)

體育要聞

U23國(guó)足形勢(shì):末輪不負(fù)泰國(guó)即確保晉級(jí)

娛樂(lè)要聞

留幾手為閆學(xué)晶叫屈?稱(chēng)網(wǎng)友自卑敏感

財(cái)經(jīng)要聞

外賣(mài)平臺(tái)"燒錢(qián)搶存量市場(chǎng)"迎來(lái)終局?

汽車(chē)要聞

2026款宋Pro DM-i長(zhǎng)續(xù)航補(bǔ)貼后9.98萬(wàn)起

態(tài)度原創(chuàng)

本地
時(shí)尚
教育
公開(kāi)課
軍事航空

本地新聞

云游內(nèi)蒙|“包”你再來(lái)?一座在硬核里釀出詩(shī)意的城

當(dāng)一個(gè)57歲的女人,決定從零開(kāi)始

教育要聞

90%的學(xué)校不會(huì)教,影響孩子一生的學(xué)習(xí)方法

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄大使:馬杜羅夫婦被控制時(shí)身邊沒(méi)人

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版