国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

只有0.9B的PaddleOCR-VL,卻是現(xiàn)在最強的OCR模型。

0
分享至

這幾天,OCR這個詞,絕對是整個AI圈最火的詞。

因為DeepSeek-OCR,甚至讓OCR這個賽道文藝復興,又給直接帶火了。


整個Hugging Face的趨勢版里,前4有3個OCR,甚至Qwen3-VL-8B也能干OCR的活,說一句全員OCR真的不過分。

然后在我上一篇講DeepSeek-OCR文章的評論區(qū)里,有很多朋友都在把DeepSeek-OCR跟 PaddleOCR-VL做對比, 也有很多人都在問,能不能再解讀一下百度那個OCR模型(也就是 PaddleOCR-VL) 。



所以我也覺得,不如就來寫一篇關于 PaddleOCR-VL的內(nèi)容吧。

非常坦誠的講,百度家的東西,我寫的一直都會非常謹慎。

但是這個PaddleOCR-VL,是我真的覺得值得一寫的。

因為,確實很牛逼。


首先提一下,PaddleOCR這個項目本身,不是啥新東西,這是百度一直都在做的項目,很多年了,最早期甚至可以追溯到2020年,也是一直是開源的姿態(tài)。


后來他們就不斷的迭代,整整5年時間,成了整個OCR領域最火的開源,現(xiàn)在也應該是現(xiàn)在Github上Star最高的OCR項目,有60K,基本屬于斷檔領先。


而 PaddleOCR-VL模型,就是他們 前幾天開源了他們的PaddleOCR系列里最新的模型,這也是第一次,把大模型用在了整個OCR文檔解析的最核心的位置。


整個模型只有0.9B,但是幾乎在OCR的評測集叫OmniDocBench v1.5的所有子項,都做到了SOTA。


左邊有三個類型,分別是傳統(tǒng)的多階段流水線系統(tǒng)、通用多模態(tài)大模型、專門為文檔解析訓練的視覺語言模型。

PaddleOCR-VL參數(shù)最小,效果最好,然后因為發(fā)的剛好早了三四天,所以表里沒有DeepSeek-OCR的跑分,但是 OmniDocBench v1.5 的最新跑分昨天也出爐了, DeepSeek-OCR 綜合跑分是86.46,比 PaddleOCR-VL的92.56還是低了大概6分,不過也能理解。


PaddleOCR-VL 確實足夠的猛,在垂直模型領域,把性價比做到了極致。

你可能會有一點點好奇,為啥一個0.9B的模型,能比其他的大模型都要強。

除了確實專精這個領域之外,還有個非常有趣的架構,是我覺得單獨可以說一下的。

也是長上下文和避免幻覺的一種非常有趣的解法。


很多的多模態(tài)大模型,是端到端的,他們干OCR的方式其實是非常低效的。

就是你把一整張A4紙扔給它,它需要一口氣把這張圖上所有的文字、表格、公式、圖片、排版等等全都看懂,然后再一口氣生成一個完美的Markdown,這個難度,其實也挺地獄級的。

畢竟模型需要同時理解:“哦,這塊是個表,它在頁面的左上角,這個表有3行5列,哦表頭是這個,哦內(nèi)容是那個,它旁邊的這段文字是在解釋這個表……哦哎臥槽我第一個事是要干啥來著。。?!?

PaddleOCR-VL的做法就挺高效好玩的,它的架構,就兩步:

第一步,先讓專干布局分析的傳統(tǒng)視覺模型上。這個玩意叫PP-DocLayoutV2,它干的活兒特純粹,就是“框”。

它以極快的速度掃一眼整張圖,然后把一些區(qū)域都框起來,然后告訴你:“報告老板,這里是標題,那里是正文,這塊是個表,那塊是公式。” 而且每個框的閱讀順序,也都是符合人類的閱讀順序的。

這個活兒,在CV領域已經(jīng)很成熟了,根本不需要一個大模型來搞。


第二步,就是主力登場。這個主力,就是最核心的這個0.9B的PaddleOCR-VL模型。

它現(xiàn)在接到的任務,根本不是去看那張復雜的A4紙。它接到的是一堆被PP-DocLayoutV2裁好的小圖片。

一個任務是:“這是一張200x500的小圖,我(PP-DocLayoutV2)已經(jīng)告訴你這是個表了,你(PaddleOCR-VL)給我把它轉(zhuǎn)成Markdown?!?

下一個任務是:“這是一張50x50的小圖,我知道這是個公式,你給我轉(zhuǎn)成LaTeX?!?/p>

然后循環(huán)往復,最后,又準又快。

所以這種做法,根本不需要復雜的幾百B的大模型,直接上0.9B的模型,卻能達到最完美的效果。

我之所以把這個點單獨拿出來說,也是想表達我的一個觀點:

在普通用戶眼里,其實很多時候技術根本沒有優(yōu)劣,能解決用戶的問題,就是最牛逼的技術。黑貓白貓,能抓到耗子的,就是好貓。

至少我認為,PaddleOCR-VL的做法,就非常的巧勁。

我也專門找了幾類特別有代表性,處理起來比較頭疼的圖片來給大家看一下實測的效果。

首先肯定是掃描PDF,這種應該是重中之重,比如下面這張非常糊的掃描件截圖,肉眼看起來也會有點吃力。


糊不拉幾的,我眼睛看著都疼。

而把這個扔給PaddleOCR-VL,它處理起來很順利,先是把需要識別的地方框了出來,并打上了閱讀循序的序號。


然后是第二步,分塊識別出結果,效果很不錯,公式也識別出來了。


我詳細核對了2、3遍,發(fā)現(xiàn)確實一個字都沒錯。

最后的那個+號后面之所以沒東西了,是因為我截圖的時候,不小心讓搜狗輸入法的圖標給擋住了。。。

我又找了一些手寫筆記的照片去試,這玩意絕對是OCR領域的硬骨頭。

不管是中文還是英文,只要字跡別太潦草到像天書一樣,PaddleOCR-VL給出的識別結果準確率都還挺在線的。

對比很多工具碰到手寫基本就歇菜的情況,這個已經(jīng)很能打了。


當然,前提是你的手寫字得大致能看懂,如果是醫(yī)生的那種字,我覺得神仙來了都沒用。。。

然后是論文這種排版密集的。報紙那小字、多分欄、緊湊的布局,對布局分析和識別都是不小的挑戰(zhàn)。

實測下來,PaddleOCR-VL對多欄的處理還比較穩(wěn)定,閱讀順序也能捋順,文字識別本身也沒啥毛病,基本全對,總體效果挺好。


因為支持端到端的解析,所以能給你把一些圖表啥的都給你還原回來。


這個點非常的牛逼。

還有就是票據(jù),像發(fā)票收據(jù)這些。格式雖然相對固定,但里面混著機打字、數(shù)字、手寫補充、甚至蓋章,挺復雜的。

PaddleOCR-VL在處理這類半結構化文檔、抓取關鍵信息時表現(xiàn)還行,我自己跑了很多次,不能說百分百沒差錯,但在同類模型里,已經(jīng)算非??孔V的了。


感覺這個已經(jīng)完全可以替換我們現(xiàn)在多維表格上用的視覺大模型,接入到我們公司財務的多維表格系統(tǒng)里面了。。。

準確性強很多,真的能節(jié)省財務的不少時間。

還有那種大型表格,這就是重頭戲了。

不管是論文里那種帶合并單元格的復雜表,還是財報里密密麻麻的數(shù)字表,甚至是沒啥框線的表,PaddleOCR-VL的表格結構識別能力是有一點讓我驚訝的,不光能認出格子里面的字,還能把表格的行列關系比較好地還原出來,這對我們的一些自動化信息提取非常有幫助。

比如就是上文里面的那個跑分圖。

識別提取出來之后,沒有一丁點問題,這個是有點離譜的。


總的來說,這些實測跑下來,PaddleOCR-VL在處理這些復雜和刁鉆的場景時,表現(xiàn)確實可圈可點。

而且實測確實會比DeepSeek-OCR準確更高,DeepSeek-OCR提取的時候總是會錯一兩個字,PaddleOCR-VL是一字不錯,當然你不能把DeepSeek-OCR純看成是一個純OCR模型,畢竟意義還是不太一樣。

我們自己其實有很多飛書多維表格的信息提取工作流,也已經(jīng)在考慮換成PaddleOCR-VL了。

比如我們經(jīng)常需要,批量上傳一些各個平臺的數(shù)據(jù)截圖,然后提取里面的一些結構化信息。


現(xiàn)在都是接了一些比較大的多模態(tài)大模型來做提取的,有一說一,從價格上來說,會比PaddleOCR-VL這種貴很多,而且有時候還會出錯。

感覺把PaddleOCR-VL接進去,會是目前的最優(yōu)解。

目前PaddleOCR-VL已經(jīng)開源,網(wǎng)址在此:

https://github.com/PaddlePaddle/PaddleOCR

我本來想跟DeepSeek-OCR一樣,給大家手搓一個Windows的本地整合包,讓大家能開箱即用,結果因為不同于一些常規(guī)的大模型,折騰了一夜,干到凌晨4點多,兩眼發(fā)黑,還是沒做出來,這個只能說對不起大家,還是有點太菜了= =

所以現(xiàn)階段,大家如果有自己部署能力的,可以自己根據(jù)PaddleOCR Github上的部署教程來部署到本地。

只是想用一下的,不想折騰部署的,可以去各大demo平臺上用官方自己部署的體驗版本。

飛槳:https://aistudio.baidu.com/application/detail/98365

魔搭:https://www.modelscope.cn/studios/PaddlePaddle/PaddleOCR-VL_Online_Demo

Hugging Face:https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo

最后,還是想多說幾句。

DeepSeek-OCR探索的上下文光學壓縮確實非常新,也打開了大家對人類視覺感知的一些新的想象。

百度的PaddleOCR-VL,更是從實際出發(fā),在一個細分領域達到了SOTA,成為了這個領域效果最好的模型。

高效、準確,也能實實在在地提升我們處理文檔信息的效率。

兩者都是非常優(yōu)秀的工作,沒有誰比誰強。

都是在自己領域。

最亮眼的仔。

以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。

>/ 作者:卡茲克

>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@virxact.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
博士女友出軌導師,細節(jié)曝光,聊天記錄看得人臉紅

博士女友出軌導師,細節(jié)曝光,聊天記錄看得人臉紅

熱心市民小黃
2026-02-28 05:28:32
伊朗反擊,不設紅線!以色列怎么也沒想到,自己才是最大冤大頭

伊朗反擊,不設紅線!以色列怎么也沒想到,自己才是最大冤大頭

肖茲探秘說
2026-03-01 23:30:08
沈逸:美國已沒有足夠炮彈庫存用來轟炸伊朗

沈逸:美國已沒有足夠炮彈庫存用來轟炸伊朗

小院之觀
2026-03-01 00:44:10
吳建豪懷念大S:她對我最好,在片場對我最貼心,她真的很照顧我

吳建豪懷念大S:她對我最好,在片場對我最貼心,她真的很照顧我

韓小娛
2026-03-02 08:07:06
杭州恒隆廣場將試營業(yè)即將開業(yè)!杭州核心商圈再升級

杭州恒隆廣場將試營業(yè)即將開業(yè)!杭州核心商圈再升級

財聞
2026-03-01 17:59:08
無需引薦!新加坡總統(tǒng)徑直走向?qū)O穎莎,這聲問候太有分量

無需引薦!新加坡總統(tǒng)徑直走向?qū)O穎莎,這聲問候太有分量

健身狂人
2026-03-01 07:58:40
襲擊伊朗前,美以通報了波蘭德國,卻沒告知法國

襲擊伊朗前,美以通報了波蘭德國,卻沒告知法國

參考消息
2026-03-01 22:03:05
體制內(nèi)情商高能帶來啥意外驚喜?網(wǎng)友:別在地鐵看,別問我為什么

體制內(nèi)情商高能帶來啥意外驚喜?網(wǎng)友:別在地鐵看,別問我為什么

帶你感受人間冷暖
2026-02-24 01:03:13
我國著名主持人赴瑞士安樂死,兒子講述其死前慘狀:我非常后悔

我國著名主持人赴瑞士安樂死,兒子講述其死前慘狀:我非常后悔

阿訊說天下
2026-02-21 12:35:11
大戰(zhàn)可能馬上開始了

大戰(zhàn)可能馬上開始了

安安說
2026-02-25 10:11:39
女子離鄉(xiāng)返程時兒子沒有送別,看監(jiān)控發(fā)現(xiàn)兒子打開電視把頭埋沙發(fā)下,用聲音掩蓋自己的哭聲

女子離鄉(xiāng)返程時兒子沒有送別,看監(jiān)控發(fā)現(xiàn)兒子打開電視把頭埋沙發(fā)下,用聲音掩蓋自己的哭聲

觀威海
2026-03-01 13:27:08
小米粥再次成矚目,調(diào)查發(fā)現(xiàn):高血糖患者喝小米粥,或有4大改善

小米粥再次成矚目,調(diào)查發(fā)現(xiàn):高血糖患者喝小米粥,或有4大改善

阿兵科普
2026-02-28 09:33:48
中國男籃更衣室曝光!逆轉(zhuǎn)功臣透露內(nèi)情,3人哭了,包括籃協(xié)主席

中國男籃更衣室曝光!逆轉(zhuǎn)功臣透露內(nèi)情,3人哭了,包括籃協(xié)主席

萌蘭聊個球
2026-03-02 09:41:35
美加墨世界杯還未賽,晉級隊面臨退賽!FIFA或更換法國隊小組對手

美加墨世界杯還未賽,晉級隊面臨退賽!FIFA或更換法國隊小組對手

球場沒跑道
2026-03-01 11:27:23
好慘!香港知名演員新片激情戲被刪光,豐滿身材難現(xiàn)大銀幕

好慘!香港知名演員新片激情戲被刪光,豐滿身材難現(xiàn)大銀幕

眼底星碎
2026-03-01 11:31:34
周琦+3海外回歸!男籃下個世預賽基本15選12,內(nèi)線鋒線實力強勁!

周琦+3海外回歸!男籃下個世預賽基本15選12,內(nèi)線鋒線實力強勁!

籃球資訊達人
2026-03-02 01:09:21
人物|擔任最高領袖36年,哈梅內(nèi)伊如何領導伊朗走到今天?

人物|擔任最高領袖36年,哈梅內(nèi)伊如何領導伊朗走到今天?

澎湃新聞
2026-03-02 07:38:31
華為公告了26年首虎,出手很重,結果想到了,也沒想到!

華為公告了26年首虎,出手很重,結果想到了,也沒想到!

達文西看世界
2026-02-17 11:16:01
離婚才幾年,楊穎這是怎么了?

離婚才幾年,楊穎這是怎么了?

文刀萬
2026-02-24 17:40:03
外媒:伊朗軍隊總司令哈塔米“安然無恙”

外媒:伊朗軍隊總司令哈塔米“安然無恙”

參考消息
2026-02-28 20:11:05
2026-03-02 11:24:49
數(shù)字生命卡茲克 incentive-icons
數(shù)字生命卡茲克
反復橫跳于不同的AI領域,努力分享一些很酷的AI干貨
465文章數(shù) 553關注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓

體育要聞

卡里克主場5連勝!隊史第2人通過最大考驗

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財經(jīng)要聞

中東局勢影響如何?十大券商策略來了

汽車要聞

小米發(fā)布超跑! 游戲中對標布加迪法拉利

態(tài)度原創(chuàng)

教育
藝術
親子
游戲
軍事航空

教育要聞

2027–28申請季:當背景趨同、高分扎堆,你還能靠什么贏得offer?

藝術要聞

這幅草書的14個字,您能全部認出來嗎?

親子要聞

命運這個東西,是真的存在的

知名可靠消息人士談《巫師3》DLC:它確實存在!

軍事要聞

美軍動用新型武器:山寨伊朗的

無障礙瀏覽 進入關懷版