国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek王炸:10倍壓縮率,97%解碼精度!上下文光學(xué)壓縮登場

0
分享至


來自DeepSeek的最新研究:DeepSeek-OCR,一種探索通過光學(xué)2D映射來壓縮長上下文的新方法

LLM處理長文本的計算成本,又有了新的破解思路。把長長的上下文,直接渲染成一張圖片,再喂給模型,這樣做的好處是,原本數(shù)千上萬個文本token,現(xiàn)在可能只需要幾百個視覺token就能表示,實現(xiàn)了信息的高效壓縮

實驗結(jié)果相當(dāng)驚人:

在壓縮率小于10倍時(即文本token數(shù)是視覺token數(shù)的10倍以內(nèi)),模型OCR解碼準(zhǔn)確率高達97%

即使在20倍的超高壓縮率下,準(zhǔn)確率依然能保持在60% 左右

在主流的文檔解析基準(zhǔn)測試 OmniDocBench 上,DeepSeek-OCR 用更少的視覺token,實現(xiàn)了超越SOTA模型的性能

更重要的是,這項技術(shù)不僅是科研探索,還具備極高的實用價值。在生產(chǎn)環(huán)境中,單臺A100-40G GPU每天就能處理超過20萬頁的文檔,為大模型訓(xùn)練提供海量數(shù)據(jù)

目前,相關(guān)的代碼和模型權(quán)重均已開源

https://github.com/deepseek-ai/DeepSeek-OCR/

https://huggingface.co/deepseek-ai/DeepSeek-OCR

什么是“上下文光學(xué)壓縮”?

LLM在處理長文本時,面臨的核心挑戰(zhàn)是其固有的二次方計算復(fù)雜度。隨著序列長度的增加,計算資源和時間會急劇增長。

DeepSeek研究人員提出了一個反直覺卻又合乎邏輯的想法:利用視覺模態(tài)作為文本信息的壓縮媒介

相比于一長串的數(shù)字文本token,一張包含同樣內(nèi)容的文檔圖像,可以用遠(yuǎn)少于前者的視覺token來表示。這就好比將一本書的內(nèi)容拍成一張照片,這張照片本身就包含了所有的文字和排版信息

這種“文本→圖像→視覺token”的轉(zhuǎn)換過程,就是所謂的上下文光學(xué)壓縮(Contexts Optical Compression)

為了驗證這一想法,團隊構(gòu)建了DeepSeek-OCR模型。從圖(a)的壓縮實驗中可以看出,視覺token數(shù)量和OCR解碼精度之間的權(quán)衡關(guān)系:


64個視覺token(左側(cè)柱狀圖):當(dāng)文本token數(shù)在600-700之間(壓縮率約10.5倍)時,精度為96.5%。隨著文本量增加到1200-1300(壓縮率接近20倍),精度下降到59.1%

100個視覺token(右側(cè)柱狀圖):在600-700文本token(壓縮率6.7倍)時,精度高達98.5%。即使文本量增加,壓縮率達到12.6倍時,精度仍有87.1%

這意味著,在10倍壓縮的范圍內(nèi),模型幾乎可以“無損”地從圖像中解碼出原文

DeepSeek-OCR是如何實現(xiàn)的?

DeepSeek-OCR的架構(gòu)由兩部分組成:一個核心的編碼器DeepEncoder,和一個解碼器DeepSeek3B-MoE-A570M


解碼器采用了高效的MoE(Mixture-of-Experts)架構(gòu),而整個系統(tǒng)的創(chuàng)新關(guān)鍵在于DeepEncoder

為了在處理高分辨率圖像時,依然能保持較低的計算激活和可控的視覺token數(shù)量,DeepEncoder的架構(gòu)設(shè)計非常巧妙,它串聯(lián)了三個關(guān)鍵組件:

1.SAM-base (ViTDet):利用窗口注意力(window attention)機制處理局部感知,將輸入圖像(如1024x1024)分割成大量patch(如4096個)。由于是窗口注意力且模型規(guī)模不大(80M),激活值是可控的

2.16倍卷積壓縮器:在特征進入全局注意力模塊前,通過一個2層卷積網(wǎng)絡(luò)進行16倍的下采樣,將視覺token數(shù)量從4096個銳減到256個

3.CLIP-large (ViT):利用密集的全局注意力(dense global attention)機制提取視覺知識。由于輸入的token數(shù)量已經(jīng)大幅減少,這里的計算開銷也變得可以接受

這種“先局部處理,再壓縮,后全局理解”的串行設(shè)計,使得DeepEncoder能夠在處理高清圖像的同時,生成數(shù)量極少的視覺token,實現(xiàn)了內(nèi)存和token的雙重壓縮

效果炸裂,token用得還少

在權(quán)威的文檔理解基準(zhǔn) OmniDocBench 上,DeepSeek-OCR展現(xiàn)了其卓越的實用性能。


從上圖的性能對比中可以看出,DeepSeek-OCR(紅色圓點)在“平均每張圖的視覺token數(shù)”(橫軸)上處于最左側(cè)區(qū)域,意味著它使用的token數(shù)量最少。而在“整體性能(編輯距離)”(縱軸,越低越好)上,它卻達到了SOTA水平

具體來看:

僅用100個視覺token(Small模式),就超越了使用256個token的 GOT-OCR2.0

使用不到800個視覺token(Gundam模式),性能就超過了需要 6000+ token的 MinerU2.0

這充分證明,DeepSeek-OCR在實際應(yīng)用中非常強大,并且由于其極高的token壓縮率,為未來的研究留下了更高的想象空間

不止于OCR的“深度解析”

除了常規(guī)的OCR能力,DeepSeek-OCR還具備對文檔內(nèi)圖像進行深度解析的能力

無論是金融研報里的圖表


還是化學(xué)文獻里的分子式


甚至是數(shù)學(xué)題中的幾何圖形,它都能進行結(jié)構(gòu)化的解析和轉(zhuǎn)換


此外,得益于其多語言的訓(xùn)練數(shù)據(jù),模型還能處理包括阿拉伯語、僧伽羅語在內(nèi)的近百種語言的文檔

未來構(gòu)想:模擬人類記憶遺忘

這項研究最引人遐想的部分,是它為實現(xiàn)LLM的記憶遺忘機制提供了一種可能的路徑

研究人員將上下文光學(xué)壓縮與人類記憶的衰退過程進行了類比:


近期記憶 (Recent Contexts):就像近處的物體,清晰可見。可以將其渲染成高分辨率圖像,用較多的視覺token來保留高保真信息

遠(yuǎn)期記憶 (Older Contexts):就像遠(yuǎn)處的物體,逐漸模糊??梢詫⑵錆u進式地縮放成更小、更模糊的圖像,用更少的視覺token來表示,從而實現(xiàn)信息的自然遺忘和壓縮

通過這種方式,模型可以在處理超長對話或文檔時,動態(tài)地為不同時期的上下文分配不同數(shù)量的計算資源,從而可能構(gòu)建出一種理論上無限長上下文的架構(gòu)。

總而言之,DeepSeek-OCR不僅驗證了“上下文光學(xué)壓縮”這一新穎想法的可行性,還提供了一個性能強大、極具實用價值的開源模型,為解決LLM的長上下文難題開辟了一個全新的、充滿希望的方向。

論文地址:

http://github.com/deepseek-ai/DeepSeek-OCR

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
內(nèi)賈德沒有死,秘書公布遇襲細(xì)節(jié)

內(nèi)賈德沒有死,秘書公布遇襲細(xì)節(jié)

世家寶
2026-03-02 14:06:27
內(nèi)塔尼亞胡辦公室遭猛烈襲擊!伊朗:摧毀美國一總領(lǐng)館及一軍事基地,擊落3架美軍機

內(nèi)塔尼亞胡辦公室遭猛烈襲擊!伊朗:摧毀美國一總領(lǐng)館及一軍事基地,擊落3架美軍機

新民晚報
2026-03-02 19:04:01
令人擔(dān)心的事發(fā)生,多位明星全家被困中東,甄子丹的話,有人信了

令人擔(dān)心的事發(fā)生,多位明星全家被困中東,甄子丹的話,有人信了

墨印齋
2026-03-02 13:44:53
三名美國士兵喪生,特朗普發(fā)誓要復(fù)仇,放話"何時停戰(zhàn)由伊方?jīng)Q定"

三名美國士兵喪生,特朗普發(fā)誓要復(fù)仇,放話"何時停戰(zhàn)由伊方?jīng)Q定"

派大星紀(jì)錄片
2026-03-02 10:34:38
美國中央司令部:美軍三架F-15E戰(zhàn)機在科威特“明顯遭友軍誤擊”墜毀

美國中央司令部:美軍三架F-15E戰(zhàn)機在科威特“明顯遭友軍誤擊”墜毀

環(huán)球網(wǎng)資訊
2026-03-02 19:32:13
對話鄭永年:斬首哈梅內(nèi)伊后,特朗普究竟想要什么?

對話鄭永年:斬首哈梅內(nèi)伊后,特朗普究竟想要什么?

大灣區(qū)評論
2026-03-01 21:23:33
黃金都靠邊站!2026年最瘋漲的,竟是你隨手扔的舊東西

黃金都靠邊站!2026年最瘋漲的,竟是你隨手扔的舊東西

小陸搞笑日常
2026-03-02 01:34:50
伊朗4枚彈道導(dǎo)彈“突襲”美軍航母,卻變成一場“昂貴的煙花秀”

伊朗4枚彈道導(dǎo)彈“突襲”美軍航母,卻變成一場“昂貴的煙花秀”

矚望云霄
2026-03-02 10:49:12
巴拿馬運河兩端港口運營恢復(fù),MSC完成首船裝卸

巴拿馬運河兩端港口運營恢復(fù),MSC完成首船裝卸

海事服務(wù)網(wǎng)CNSS
2026-03-02 19:58:04
《大西洋月刊》丨所有人的目光都投向了古巴

《大西洋月刊》丨所有人的目光都投向了古巴

邸報
2026-03-02 10:33:45
以情報部門被曝滲透到伊朗安全高層,伊朗曾組建反間諜機構(gòu),查來查去沒發(fā)現(xiàn)問題,最后發(fā)現(xiàn)負(fù)責(zé)人就是以間諜,其手下還有至少20名雙重間諜

以情報部門被曝滲透到伊朗安全高層,伊朗曾組建反間諜機構(gòu),查來查去沒發(fā)現(xiàn)問題,最后發(fā)現(xiàn)負(fù)責(zé)人就是以間諜,其手下還有至少20名雙重間諜

揚子晚報
2026-03-02 17:41:48
突發(fā)! 內(nèi)賈德沒死? 親信稱: 他一切安好

突發(fā)! 內(nèi)賈德沒死? 親信稱: 他一切安好

每日經(jīng)濟新聞
2026-03-02 12:32:06
科威特“一戰(zhàn)封神”:擊落3架F-15!美軍司令部已承認(rèn)損失

科威特“一戰(zhàn)封神”:擊落3架F-15!美軍司令部已承認(rèn)損失

戰(zhàn)風(fēng)
2026-03-02 20:13:20
新華時評:當(dāng)炸彈落在校園,文明底線何在

新華時評:當(dāng)炸彈落在校園,文明底線何在

澎湃新聞
2026-03-01 22:32:48
涉美伊局勢,復(fù)旦教授、人大教授雙雙發(fā)聲,“外網(wǎng)和國內(nèi)的一些自媒體造謠,這些人臉都不要了”

涉美伊局勢,復(fù)旦教授、人大教授雙雙發(fā)聲,“外網(wǎng)和國內(nèi)的一些自媒體造謠,這些人臉都不要了”

都市快報橙柿互動
2026-03-02 15:33:41
英國、法國和德國聯(lián)合聲明

英國、法國和德國聯(lián)合聲明

澎湃新聞
2026-03-02 10:11:31
美國中央司令部透露對伊朗動武全部武器裝備清單

美國中央司令部透露對伊朗動武全部武器裝備清單

參考消息
2026-03-02 19:38:24
中方制裁后日方反應(yīng)強烈,日導(dǎo)彈逼近臺島,高市還想賭一把?

中方制裁后日方反應(yīng)強烈,日導(dǎo)彈逼近臺島,高市還想賭一把?

兵說
2026-03-01 21:11:31
重大進展!伊朗作出“前所未有”承諾:同意永遠(yuǎn)不擁有可制造核武器的核材料,將實現(xiàn)“零積累、零庫存”,并接受全面核查!特朗普最新表態(tài)

重大進展!伊朗作出“前所未有”承諾:同意永遠(yuǎn)不擁有可制造核武器的核材料,將實現(xiàn)“零積累、零庫存”,并接受全面核查!特朗普最新表態(tài)

每日經(jīng)濟新聞
2026-02-28 10:40:45
新勢力2月銷量:零跑理想前兩名,小米問界跌慘了

新勢力2月銷量:零跑理想前兩名,小米問界跌慘了

定焦One
2026-03-02 09:59:17
2026-03-02 23:08:49
AI寒武紀(jì) incentive-icons
AI寒武紀(jì)
專注于人工智能,科技領(lǐng)域
1034文章數(shù) 396關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

美記者詢問就伊朗局勢中方會采取什么行動 外交部回應(yīng)

頭條要聞

美記者詢問就伊朗局勢中方會采取什么行動 外交部回應(yīng)

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

教育
時尚
健康
游戲
手機

教育要聞

石室小學(xué)育賢分校:騏驥少年馭“機”而上 科技體育點亮校園新程

女人“會穿衣”才更美,看看這些穿搭就知道,穿對了真顯氣質(zhì)

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

《寶可夢Pokopia》GS 9分!動森+創(chuàng)世小玩家

手機要聞

首款機器人手機!榮耀Robot Phone上手:攝像頭竟會跳舞

無障礙瀏覽 進入關(guān)懷版