国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

全新開源的DeepSeek-OCR,可能是最近最驚喜的模型。

0
分享至

AI圈雖然天天卷,但是很多的模型,真的越來越無聊了。

每天就是跑分又多了幾個(gè)點(diǎn)。

直到昨天,DeepSeek久違的發(fā)了一個(gè)新模型。

DeepSeek-OCR。

這玩意,是真的有點(diǎn)酷。


首先,不要被這個(gè)名字騙了。

雖然說它名字上有個(gè)OCR,但是你說它真的就只是個(gè)OCR模型嗎。

我想說,是,也不是。。。

說它是,很簡單,就是因?yàn)檫@玩意,干的確實(shí)也是傳統(tǒng)OCR的活。

傳統(tǒng)的OCR任務(wù)其實(shí)特別純粹,就是把那些圖片上字啥的啊,變成你 電腦里可以 編輯 可以 復(fù)制粘貼 數(shù)字文本。

以前沒有OCR的時(shí)候,你想想,你看到手上的書上有些字特別好,你想錄到電腦里,你會咋辦?答案就只有一個(gè),一個(gè)字一個(gè)字的敲上去。

敲幾句話還行,讓你敲個(gè)合同或者一本三體你試試看,是個(gè)人都絕逼要瘋。

后來OCR來了,就特別方便了,直接拍個(gè)照片,就能把里面的文字全部提取出來,很簡單。

所以DeepSeek-OCR確實(shí)也有OCR的功能,也能干OCR的活,而且還挺強(qiáng)。


比如這是一張典型的金融研究報(bào)告。,里面有文字,有圖表,有各種復(fù)雜的排版。

你讓一個(gè)傳統(tǒng)的OCR軟件去看這張圖,它可能會非常精準(zhǔn)地,把里面所有的文字,都摳出來,變成一個(gè)TXT文檔。

然后就沒有然后了。

但是DeepSeek-OCR,它看完這張圖,會直接,生成一個(gè)Markdown文檔。

在這個(gè)文檔里,文字是文字,標(biāo)題是標(biāo)題,最關(guān)鍵的是,那些圖表,被它用代碼,也重新畫了一遍,變成了一個(gè)可以被編輯被引用的表格。

這個(gè)很牛逼了。

但是吧,這玩意又不只是我們傳統(tǒng)意義上理解的OCR。

他還有一個(gè)很重要的功能,就是,壓縮。

可能會有點(diǎn)難以理解和抽象,我盡可能的用通俗易懂的話來講明白。

在說壓縮之前,我們得先搞明白,現(xiàn)在所有大語言模型,從GPT-3.5到我們現(xiàn)在的各種模型,都面臨著一個(gè)共同的幾乎無解的噩夢,就是長文本處理。

你別看它們現(xiàn)在能寫一堆亂七八糟的能當(dāng)朋友跟你聊天還能用嘴畫圖,但你只要丟給它一篇稍微長點(diǎn)的內(nèi)容,比如一本幾十萬字的書,讓它去理解,去總結(jié),基本上都要炸。

因?yàn)锳I理解文字的方式,跟我們不一樣。

我們看書,是一目十行。

AI讀文字,它需要把每個(gè)字,每個(gè)詞,都轉(zhuǎn)換成Token。你可以把它簡單的理解成一個(gè)一個(gè)的“字節(jié)”,是數(shù)據(jù)里面的那個(gè)字節(jié),不是字節(jié)跳動的字節(jié)。

現(xiàn)在主流AI架構(gòu)的缺陷是,它在讀每一個(gè)新詞的時(shí)候,為了理解上下文,它需要把這個(gè)新詞和前面所有出現(xiàn)過的詞,都建立一次聯(lián)系。

所以處理這些Token的計(jì)算量,是隨著文本長度的平方增加的。

比如我舉一個(gè)Party的例子,現(xiàn)在這個(gè)Party上有10個(gè)人,每個(gè)人都跟其他人貼貼一下,那大概需要45次貼貼,還行對吧。

但如果來了100個(gè)人,每個(gè)人都要跟其他人貼貼,就需要將近5000次貼貼,這基本就屬于廢了。

這就是技術(shù)上常說的計(jì)算復(fù)雜度是N的平方。

這個(gè)成本,是指數(shù)級增長的,誰都扛不住。

所以,長久以來,整個(gè)AI界都在死磕一個(gè)問題,怎么讓AI,能又快又便宜的搞定上下文的問題?

大家想了很多辦法,什么滑動窗口、稀疏注意力,各種各樣的算法優(yōu)化。但這些,都像是給一輛漏油的破車,換更好的輪胎,貼更騷的膜。

但是它,解決不了發(fā)動機(jī)的根本問題啊。

然后DeepSeek這次,它根本沒管你那個(gè)漏油的破逼車,而是,直接給你買了一輛,新能源。

它說:“我們?yōu)槭裁矗且孉I一個(gè)字一個(gè)字地讀呢?我們能不能讓它,像我們?nèi)艘粯?,看??/strong>

就是我不再把一本300頁的書,轉(zhuǎn)換成幾十萬個(gè)Token的文本文件,喂給AI。

而是,我直接把這300頁書,拍成一張張照片,變成一個(gè)圖像文件,然后,讓AI去看這張圖。

你可能覺得,這不是脫褲子放屁嗎?照片不也是由像素組成的嗎?信息量不是更大了嗎?

對,但你忽略了最關(guān)鍵的一點(diǎn):

圖像,是二維的,而文字,是一維的。

一維的文字,就像一根無限長的薯?xiàng)l,你想吃它,智能從頭吃到尾,一個(gè)字節(jié)都不能少。

而二維的圖像,就像一張大餅,你一眼掃過去,整個(gè)餅的全貌,盡收眼底。

DeepSeek-OCR,干的就是這事,把所有的文字,全部壓縮成圖像。

這個(gè)過程,在他們的論文里,叫“上下文光學(xué)壓縮”(Contexts Optical Compression)。

我給你舉一個(gè) 真正的應(yīng)用場景案例 ,你就全明白了:

比如假設(shè)你正在跟一個(gè)AI助手聊天,你倆已經(jīng)聊了三天三夜,聊了 1000 輪,可能占幾十萬甚至幾百萬的Token。

對于以前的大模型來說,當(dāng)你問:“哎,我三天前跟你說的第一件事是啥?”,大模型就必須把這1000輪的全部聊天記錄都裝進(jìn)它的記憶區(qū)也就是上下文窗口里,才能去查找。

這會撐爆它的內(nèi)存和算力,所以現(xiàn)在的AI,很多的聊著聊著你就感覺它失憶,因?yàn)橛械?,真的只能記住最近的幾十輪對話?/p>

而DeepSeek-OCR的解決方案呢,是這樣的。

AI助手只把最近10輪的聊天記錄,用文本的形式記在腦子里。

但是,它把那更遠(yuǎn)一點(diǎn)的990輪的文本聊天記錄,自動渲染成一張或著幾張長長的圖片,就像你給聊天記錄截了個(gè)屏。

然后,它立刻調(diào)用內(nèi)部的DeepEncoder編碼器,把這張包含海量文字的截圖,壓縮成大概只有原來10分之1的視覺Token,然后一起扔到上下文中,記到腦子里。

當(dāng)真正要用的時(shí)候,比如你還是問那個(gè)問題,“我三天前說的第一件事是啥?”

它現(xiàn)在的上下文里裝的是10輪聊天記錄的文本token + 990輪聊天記錄的視覺token。

然后,它的解碼器,DeepSeek-3B,一個(gè)激活參數(shù)為570M的MOE模型,已經(jīng)通過 OCR 任務(wù),學(xué)會了一看到這視覺token,就能把解碼還原成原文的能力。

于是,他看了一眼那一圈視覺Token,找到了三天前的第一句話,然后回答了你。

這,就是DeepSeek-OCR的整個(gè)架構(gòu)。


所以啊,別被名字騙了,這真的不止是個(gè)OCR啊。。。

這是純粹的關(guān)于上下文的新范式。。。

所以雖然跟百度的那個(gè)PalddeleOCR-VL一樣名字也有OCR,但其實(shí),兩個(gè),真的不是一個(gè)東西= =

DeepSeek-OCR,這,即是壓縮。

論文里給出的數(shù)據(jù)是,在保持96.5%的識別準(zhǔn)確率的前提下,壓縮比可以達(dá)到驚人的10倍。


壓縮比 = 原來的文本token總數(shù) ÷ 壓縮后視覺token總數(shù)。

而20倍的壓縮比,還能保留60%的準(zhǔn)確率,雖然這個(gè)準(zhǔn)確率確實(shí)不咋地,但是,這也是給未來留下了非常值得優(yōu)化的方向。

說實(shí)話,這個(gè)東西確實(shí)很新,真的很有意思,可能是我為數(shù)不多的最近看到的最好玩的模型論文。

一圖勝千言,可能說的就是如此吧。

而且細(xì)細(xì)想來,其實(shí)這種壓縮之法,也確實(shí)沒啥毛病。

我們總覺得文字是信息傳遞的巔峰。

但從整個(gè)人類歷史和生物進(jìn)化的角度看,視覺,才是我們一直處理信息的最重要的手段。

在文字誕生之前的幾十萬年里,我們的祖先就是靠看來生存的。

看天色,看獵物,看同伴的表情,看親手刻下的壁畫。

在紙張和印刷術(shù)普及之前,人類是怎么記錄宏大敘事的?是壁畫,是浮雕。

埃及金字塔里的象形文字,敦煌莫高窟里的經(jīng)變畫,它們本身就是一種壓縮。古埃及人把復(fù)雜的祭祀、律法、歷史,壓縮在一幅幅畫里,等待別人去解壓。

從這個(gè)角度看,DeepSeek-OCR干的事,和當(dāng)年的人類,其實(shí)也沒什么兩樣。

但是當(dāng)我覺得,最頭皮發(fā)麻為之一振的話。

其實(shí)是論文的最后,他們寫的一點(diǎn)點(diǎn)希望討論的。

DeepSeek說,對于那些更古老的上下文,我們可以逐步縮小渲染出的圖像,以進(jìn)一步減少令牌消耗

這個(gè)假設(shè)的靈感,來自于一個(gè)非常自然且深刻的類比:

人類的記憶會隨著時(shí)間的推移而衰退,人類的視覺感知會隨著空間距離的拉遠(yuǎn)而退化。


這種現(xiàn)象,它們都表現(xiàn)出了相似的、漸進(jìn)式的信息丟失模式。

他們可以用“上下文光學(xué)壓縮”的方法,實(shí)現(xiàn)了一種記憶衰減形式。

比如圖表里,最左是 Text token,也就是不壓縮的純文本,信息保真;往右是把文字渲成圖再編碼成視覺 token 的不同模式,Gundam 比較豪華、細(xì)節(jié)多、花銷大,Large 再次之,Base、Small、Tiny 依次更省 token、也更模糊。

它幾乎,完美地鏡像了生物的遺忘曲線。

在這個(gè)機(jī)制下,最近的信息保持著高保真度,而遙遠(yuǎn)的記憶則通過不斷提高的壓縮率,自然地褪色和淡忘。

這個(gè)機(jī)制,實(shí)在是太酷了。

很像是在探討,一種“數(shù)字生命”的可能形態(tài)。

我們一直以來追求的AI,是什么樣的?

是一個(gè)擁有無限記憶、絕對理性的“神”。

它不會遺忘,不會犯錯(cuò),像一臺完美的機(jī)器。

但我們自己是這樣的嗎?

不是。

遺忘,恰恰是人類智慧最重要的組成部分。

我們之所以能夠創(chuàng)新,能夠抓住重點(diǎn),能夠在復(fù)雜的世界里做出決斷,正是因?yàn)槲覀兊拇竽X懂得,放下。

我們會忘記那些不重要的細(xì)節(jié),我們會模糊那些久遠(yuǎn)的傷痛,我們會把寶貴的認(rèn)知資源,留給當(dāng)下最重要的事情。

遺忘,還有錯(cuò)誤,真的不是bug,是我們這個(gè)物種能夠延續(xù)至今的核心算法之一。

就像西部世界里的那句經(jīng)典臺詞。

在福特的理論中,進(jìn)化形成了這個(gè)星球上有情感和知覺的生命體,“用的唯一工具,就是錯(cuò)誤?!?/p>


遺忘,也是那個(gè)“錯(cuò)誤”。

對DeepSeek-OCR感興趣的,可以去他們的項(xiàng)目網(wǎng)址看一看,體驗(yàn)一下。

https://github.com/deepseek-ai/DeepSeek-OCR

但是,我也非常強(qiáng)烈的建議,大家也可以,去讀一讀這篇論文的原文。

不需要看那些很技術(shù)的原理和數(shù)學(xué),只要看方法,還有范式,其實(shí)就能學(xué)到很多東西。

我把論文原文也放在公眾號后臺了,你對著后臺私信“OCR”,也會自動的發(fā)給你。


感謝DeepSeek。

惟愿我們。

國運(yùn)昌隆。

以上,既然看到這里了,如果覺得不錯(cuò),隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時(shí)間收到推送,也可以給我個(gè)星標(biāo)?~謝謝你看我的文章,我們,下次再見。

>/ 作者:卡茲克

>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@virxact.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
為什么北京像莫斯科?

為什么北京像莫斯科?

虔青
2026-02-26 11:39:20
齊達(dá)內(nèi)親口承認(rèn)!史上最強(qiáng)球員遠(yuǎn)超自己,曾一度力挺另一人

齊達(dá)內(nèi)親口承認(rèn)!史上最強(qiáng)球員遠(yuǎn)超自己,曾一度力挺另一人

瀾歸序
2026-03-02 04:35:45
原來早已不是中國籍?事業(yè)巔峰遠(yuǎn)赴美國,被老外“玩膩”晚年回國

原來早已不是中國籍?事業(yè)巔峰遠(yuǎn)赴美國,被老外“玩膩”晚年回國

往史過眼云煙
2026-02-27 23:04:59
英國宣布參與對伊朗軍事行動 戰(zhàn)機(jī)已升空

英國宣布參與對伊朗軍事行動 戰(zhàn)機(jī)已升空

桂系007
2026-02-28 23:56:12
夸美國空氣香甜的楊舒平,已被美驅(qū)逐出境,如今回國下場怎么樣了

夸美國空氣香甜的楊舒平,已被美驅(qū)逐出境,如今回國下場怎么樣了

談史論天地
2026-02-07 13:20:03
為什么詹姆斯辦一個(gè)退役巡演這么難?

為什么詹姆斯辦一個(gè)退役巡演這么難?

籃球小煙花
2026-03-02 09:10:03
上海電影院現(xiàn)場被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

上海電影院現(xiàn)場被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

壹月情感
2026-02-27 19:45:48
“突然理解道明寺媽媽了”,高鐵上小少爺走紅,讓普通人看透現(xiàn)實(shí)

“突然理解道明寺媽媽了”,高鐵上小少爺走紅,讓普通人看透現(xiàn)實(shí)

妍妍教育日記
2026-02-28 17:41:50
女子回湖北婆家過年,車被妯娌砸稀爛,竟?fàn)砍渡虾⒆?,原因太炸?>
    </a>
        <h3>
      <a href=社會日日鮮
2026-03-01 08:30:01
贏7分!楊毅卻批評主教練郭士強(qiáng):將中國男籃的優(yōu)勢給丟了

贏7分!楊毅卻批評主教練郭士強(qiáng):將中國男籃的優(yōu)勢給丟了

體育哲人
2026-03-01 22:40:43
汪小菲回應(yīng)轉(zhuǎn)學(xué)風(fēng)波,大S私自操辦被國際學(xué)校退學(xué),得知后很崩潰

汪小菲回應(yīng)轉(zhuǎn)學(xué)風(fēng)波,大S私自操辦被國際學(xué)校退學(xué),得知后很崩潰

萌神木木
2026-03-01 11:37:34
富士康創(chuàng)始人郭臺銘:“若兩岸爆發(fā)沖突,我會誓死守護(hù)臺灣”

富士康創(chuàng)始人郭臺銘:“若兩岸爆發(fā)沖突,我會誓死守護(hù)臺灣”

百態(tài)人間
2026-02-12 15:21:00
“以為是六個(gè)博士,結(jié)果是六個(gè)送外賣的!”六個(gè)兒子征婚視頻火了

“以為是六個(gè)博士,結(jié)果是六個(gè)送外賣的!”六個(gè)兒子征婚視頻火了

阿凱銷售場
2026-03-01 01:46:42
俄媒:伊朗總統(tǒng)府表示哈梅內(nèi)伊之死不會沒有回應(yīng)

俄媒:伊朗總統(tǒng)府表示哈梅內(nèi)伊之死不會沒有回應(yīng)

參考消息
2026-03-01 11:11:04
天塌了!柳州一已婚女子出軌感染艾滋,涉事小伙是工廠班組長…

天塌了!柳州一已婚女子出軌感染艾滋,涉事小伙是工廠班組長…

火山詩話
2026-03-02 05:47:48
超20000名旅客滯留!上海大學(xué)生:因?yàn)橐粓黾辈?,提前逃出迪拜,感嘆“差點(diǎn)沒法上學(xué)”

超20000名旅客滯留!上海大學(xué)生:因?yàn)橐粓黾辈。崆疤映龅习?,感嘆“差點(diǎn)沒法上學(xué)”

新民晚報(bào)
2026-03-01 20:44:34
1.2億農(nóng)村老人,每月只領(lǐng)200元養(yǎng)老金,買兩袋米就沒了。

1.2億農(nóng)村老人,每月只領(lǐng)200元養(yǎng)老金,買兩袋米就沒了。

流蘇晚晴
2026-02-26 18:18:15
“讓領(lǐng)導(dǎo)先走”=“倚天不出,誰與爭鋒”

“讓領(lǐng)導(dǎo)先走”=“倚天不出,誰與爭鋒”

張佳瑋寫字的地方
2026-03-01 10:09:57
韓寒和郭敬明:20年了,終于一個(gè)天上,一個(gè)地下

韓寒和郭敬明:20年了,終于一個(gè)天上,一個(gè)地下

陳意小可愛
2026-03-01 13:23:13
向美國捐8億被罵叛徒!無錫唐氏21代掌門:我的錢只認(rèn)文明歸屬

向美國捐8億被罵叛徒!無錫唐氏21代掌門:我的錢只認(rèn)文明歸屬

談史論天地
2026-02-10 08:16:24
2026-03-02 11:04:49
數(shù)字生命卡茲克 incentive-icons
數(shù)字生命卡茲克
反復(fù)橫跳于不同的AI領(lǐng)域,努力分享一些很酷的AI干貨
465文章數(shù) 553關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

體育要聞

卡里克主場5連勝!隊(duì)史第2人通過最大考驗(yàn)

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財(cái)經(jīng)要聞

中東局勢影響如何?十大券商策略來了

汽車要聞

小米發(fā)布超跑! 游戲中對標(biāo)布加迪法拉利

態(tài)度原創(chuàng)

數(shù)碼
本地
房產(chǎn)
公開課
軍事航空

數(shù)碼要聞

內(nèi)存成本前所未有:入門級PC將完全消失!不漲價(jià)根本不行

本地新聞

津南好·四時(shí)總相宜

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍動用新型武器:山寨伊朗的

無障礙瀏覽 進(jìn)入關(guān)懷版