国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek王炸:10倍壓縮率,97%解碼精度!上下文光學(xué)壓縮登場

0
分享至


來自DeepSeek的最新研究:DeepSeek-OCR,一種探索通過光學(xué)2D映射來壓縮長上下文的新方法

LLM處理長文本的計算成本,又有了新的破解思路。把長長的上下文,直接渲染成一張圖片,再喂給模型,這樣做的好處是,原本數(shù)千上萬個文本token,現(xiàn)在可能只需要幾百個視覺token就能表示,實現(xiàn)了信息的高效壓縮

實驗結(jié)果相當(dāng)驚人:

在壓縮率小于10倍時(即文本token數(shù)是視覺token數(shù)的10倍以內(nèi)),模型OCR解碼準(zhǔn)確率高達97%

即使在20倍的超高壓縮率下,準(zhǔn)確率依然能保持在60% 左右

在主流的文檔解析基準(zhǔn)測試 OmniDocBench 上,DeepSeek-OCR 用更少的視覺token,實現(xiàn)了超越SOTA模型的性能

更重要的是,這項技術(shù)不僅是科研探索,還具備極高的實用價值。在生產(chǎn)環(huán)境中,單臺A100-40G GPU每天就能處理超過20萬頁的文檔,為大模型訓(xùn)練提供海量數(shù)據(jù)

目前,相關(guān)的代碼和模型權(quán)重均已開源

https://github.com/deepseek-ai/DeepSeek-OCR/

https://huggingface.co/deepseek-ai/DeepSeek-OCR

什么是“上下文光學(xué)壓縮”?

LLM在處理長文本時,面臨的核心挑戰(zhàn)是其固有的二次方計算復(fù)雜度。隨著序列長度的增加,計算資源和時間會急劇增長。

DeepSeek研究人員提出了一個反直覺卻又合乎邏輯的想法:利用視覺模態(tài)作為文本信息的壓縮媒介

相比于一長串的數(shù)字文本token,一張包含同樣內(nèi)容的文檔圖像,可以用遠少于前者的視覺token來表示。這就好比將一本書的內(nèi)容拍成一張照片,這張照片本身就包含了所有的文字和排版信息

這種“文本→圖像→視覺token”的轉(zhuǎn)換過程,就是所謂的上下文光學(xué)壓縮(Contexts Optical Compression)

為了驗證這一想法,團隊構(gòu)建了DeepSeek-OCR模型。從圖(a)的壓縮實驗中可以看出,視覺token數(shù)量和OCR解碼精度之間的權(quán)衡關(guān)系:


64個視覺token(左側(cè)柱狀圖):當(dāng)文本token數(shù)在600-700之間(壓縮率約10.5倍)時,精度為96.5%。隨著文本量增加到1200-1300(壓縮率接近20倍),精度下降到59.1%

100個視覺token(右側(cè)柱狀圖):在600-700文本token(壓縮率6.7倍)時,精度高達98.5%。即使文本量增加,壓縮率達到12.6倍時,精度仍有87.1%

這意味著,在10倍壓縮的范圍內(nèi),模型幾乎可以“無損”地從圖像中解碼出原文

DeepSeek-OCR是如何實現(xiàn)的?

DeepSeek-OCR的架構(gòu)由兩部分組成:一個核心的編碼器DeepEncoder,和一個解碼器DeepSeek3B-MoE-A570M


解碼器采用了高效的MoE(Mixture-of-Experts)架構(gòu),而整個系統(tǒng)的創(chuàng)新關(guān)鍵在于DeepEncoder

為了在處理高分辨率圖像時,依然能保持較低的計算激活和可控的視覺token數(shù)量,DeepEncoder的架構(gòu)設(shè)計非常巧妙,它串聯(lián)了三個關(guān)鍵組件:

1.SAM-base (ViTDet):利用窗口注意力(window attention)機制處理局部感知,將輸入圖像(如1024x1024)分割成大量patch(如4096個)。由于是窗口注意力且模型規(guī)模不大(80M),激活值是可控的

2.16倍卷積壓縮器:在特征進入全局注意力模塊前,通過一個2層卷積網(wǎng)絡(luò)進行16倍的下采樣,將視覺token數(shù)量從4096個銳減到256個

3.CLIP-large (ViT):利用密集的全局注意力(dense global attention)機制提取視覺知識。由于輸入的token數(shù)量已經(jīng)大幅減少,這里的計算開銷也變得可以接受

這種“先局部處理,再壓縮,后全局理解”的串行設(shè)計,使得DeepEncoder能夠在處理高清圖像的同時,生成數(shù)量極少的視覺token,實現(xiàn)了內(nèi)存和token的雙重壓縮

效果炸裂,token用得還少

在權(quán)威的文檔理解基準(zhǔn) OmniDocBench 上,DeepSeek-OCR展現(xiàn)了其卓越的實用性能。


從上圖的性能對比中可以看出,DeepSeek-OCR(紅色圓點)在“平均每張圖的視覺token數(shù)”(橫軸)上處于最左側(cè)區(qū)域,意味著它使用的token數(shù)量最少。而在“整體性能(編輯距離)”(縱軸,越低越好)上,它卻達到了SOTA水平

具體來看:

僅用100個視覺token(Small模式),就超越了使用256個token的 GOT-OCR2.0

使用不到800個視覺token(Gundam模式),性能就超過了需要 6000+ token的 MinerU2.0

這充分證明,DeepSeek-OCR在實際應(yīng)用中非常強大,并且由于其極高的token壓縮率,為未來的研究留下了更高的想象空間

不止于OCR的“深度解析”

除了常規(guī)的OCR能力,DeepSeek-OCR還具備對文檔內(nèi)圖像進行深度解析的能力

無論是金融研報里的圖表


還是化學(xué)文獻里的分子式


甚至是數(shù)學(xué)題中的幾何圖形,它都能進行結(jié)構(gòu)化的解析和轉(zhuǎn)換


此外,得益于其多語言的訓(xùn)練數(shù)據(jù),模型還能處理包括阿拉伯語、僧伽羅語在內(nèi)的近百種語言的文檔

未來構(gòu)想:模擬人類記憶遺忘

這項研究最引人遐想的部分,是它為實現(xiàn)LLM的記憶遺忘機制提供了一種可能的路徑

研究人員將上下文光學(xué)壓縮與人類記憶的衰退過程進行了類比:


近期記憶 (Recent Contexts):就像近處的物體,清晰可見??梢詫⑵滗秩境筛叻直媛蕡D像,用較多的視覺token來保留高保真信息

遠期記憶 (Older Contexts):就像遠處的物體,逐漸模糊??梢詫⑵錆u進式地縮放成更小、更模糊的圖像,用更少的視覺token來表示,從而實現(xiàn)信息的自然遺忘和壓縮

通過這種方式,模型可以在處理超長對話或文檔時,動態(tài)地為不同時期的上下文分配不同數(shù)量的計算資源,從而可能構(gòu)建出一種理論上無限長上下文的架構(gòu)。

總而言之,DeepSeek-OCR不僅驗證了“上下文光學(xué)壓縮”這一新穎想法的可行性,還提供了一個性能強大、極具實用價值的開源模型,為解決LLM的長上下文難題開辟了一個全新的、充滿希望的方向。

論文地址:

http://github.com/deepseek-ai/DeepSeek-OCR

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
我國將啟動新一輪“雙一流”建設(shè)

我國將啟動新一輪“雙一流”建設(shè)

新華社
2026-01-08 18:03:04
典型安東尼奧式勝利!U23國足首次連場零封,李昊鎖定未來國門

典型安東尼奧式勝利!U23國足首次連場零封,李昊鎖定未來國門

奧拜爾
2026-01-11 21:29:43
火遍網(wǎng)上的“酸黃瓜”,到底是什么梗,大冬天的要真應(yīng)景

火遍網(wǎng)上的“酸黃瓜”,到底是什么梗,大冬天的要真應(yīng)景

西樓知趣雜談
2026-01-09 20:53:48
德國總理:向烏克蘭部署多國部隊需獲俄羅斯同意

德國總理:向烏克蘭部署多國部隊需獲俄羅斯同意

俄羅斯衛(wèi)星通訊社
2026-01-11 16:08:09
斬首馬杜羅的“支奴干”直升機中國也有,為什么至今沒仿制成功?

斬首馬杜羅的“支奴干”直升機中國也有,為什么至今沒仿制成功?

軍武次位面
2026-01-08 18:51:19
演員閆某晶之子林某霏曾就讀“新疆班”?中戲回應(yīng):2012年未招“新疆班”,其以戶籍地北京生源報考

演員閆某晶之子林某霏曾就讀“新疆班”?中戲回應(yīng):2012年未招“新疆班”,其以戶籍地北京生源報考

每日經(jīng)濟新聞
2026-01-11 21:14:06
閆學(xué)晶賬號被封!兒子入學(xué)黑料被扒,官媒介入,趙家班多人受牽連

閆學(xué)晶賬號被封!兒子入學(xué)黑料被扒,官媒介入,趙家班多人受牽連

好賢觀史記
2026-01-10 16:23:03
特朗普高調(diào)訪華安排陷入全面尷尬

特朗普高調(diào)訪華安排陷入全面尷尬

達文西看世界
2026-01-09 14:10:08
皇馬發(fā)布西超杯決賽國家德比預(yù)熱海報:維尼修斯單人出鏡

皇馬發(fā)布西超杯決賽國家德比預(yù)熱海報:維尼修斯單人出鏡

懂球帝
2026-01-11 17:45:17
極目政情?10名干部學(xué)習(xí)違規(guī)吃喝,5個人喝掉4瓶白酒致1人死亡,飯局組織者“一把手”為隱瞞真相,給死者家屬的90萬元補償金,全是找當(dāng)?shù)匾簧倘私璧?>
    </a>
        <h3>
      <a href=極目新聞
2026-01-11 22:05:07
被網(wǎng)友們的“平替智慧”驚到了!花很少的錢解決問題,值得學(xué)習(xí)

被網(wǎng)友們的“平替智慧”驚到了!花很少的錢解決問題,值得學(xué)習(xí)

摳搜俠
2026-01-10 14:54:26
58歲妮可·基德曼正式離婚,不要男方1分錢!前夫阿湯哥私下評價

58歲妮可·基德曼正式離婚,不要男方1分錢!前夫阿湯哥私下評價

頭號電影院
2026-01-11 12:48:08
突發(fā),603359或終止重大資產(chǎn)重組!科技巨頭獲爆買超50億港元

突發(fā),603359或終止重大資產(chǎn)重組!科技巨頭獲爆買超50億港元

數(shù)據(jù)寶
2026-01-11 12:53:31
沒有一個人敢上前的,都躲的遠遠的!

沒有一個人敢上前的,都躲的遠遠的!

太急張三瘋
2026-01-07 04:08:36
官方:利物浦后衛(wèi)布拉德利嚴(yán)重膝傷將接受手術(shù),歸期未定

官方:利物浦后衛(wèi)布拉德利嚴(yán)重膝傷將接受手術(shù),歸期未定

懂球帝
2026-01-11 20:24:07
2025年,內(nèi)娛最賺錢的10位明星,劉德華第四,第一名讓人意外

2025年,內(nèi)娛最賺錢的10位明星,劉德華第四,第一名讓人意外

林雁飛
2026-01-06 13:15:06
伊朗媒體:“大量人員”在騷亂中死亡

伊朗媒體:“大量人員”在騷亂中死亡

揚子晚報
2026-01-11 20:22:41
李澤楷被她迷得瘋狂,林丹為她不顧孕妻,她究竟有什么魅力?

李澤楷被她迷得瘋狂,林丹為她不顧孕妻,她究竟有什么魅力?

豐譚筆錄
2026-01-11 07:25:08
西方越想越害怕!俄軍榛樹高超不用彈頭,170億立方米天然氣泄漏

西方越想越害怕!俄軍榛樹高超不用彈頭,170億立方米天然氣泄漏

小宸說歷史
2026-01-11 08:20:06
俄專家警告:一旦美軍與中國開戰(zhàn),一周內(nèi)或損失超十萬人

俄專家警告:一旦美軍與中國開戰(zhàn),一周內(nèi)或損失超十萬人

Ck的蜜糖
2026-01-08 01:49:06
2026-01-11 22:39:01
AI寒武紀(jì) incentive-icons
AI寒武紀(jì)
專注于人工智能,科技領(lǐng)域
1027文章數(shù) 393關(guān)注度
往期回顧 全部

科技要聞

“我們與美國的差距也許還在拉大”

頭條要聞

4.5萬株草莓苗停止生長 果農(nóng)急求助1小時后獲專家回應(yīng)

頭條要聞

4.5萬株草莓苗停止生長 果農(nóng)急求助1小時后獲專家回應(yīng)

體育要聞

U23國足形勢:末輪不負泰國即確保晉級

娛樂要聞

留幾手為閆學(xué)晶叫屈?稱網(wǎng)友自卑敏感

財經(jīng)要聞

外賣平臺"燒錢搶存量市場"迎來終局?

汽車要聞

2026款宋Pro DM-i長續(xù)航補貼后9.98萬起

態(tài)度原創(chuàng)

家居
健康
時尚
游戲
手機

家居要聞

木色留白 演繹現(xiàn)代自由

這些新療法,讓化療不再那么痛苦

當(dāng)一個57歲的女人,決定從零開始

《堡壘之夜》聯(lián)動鬧誤會!老外竟不知VTuber老祖

手機要聞

曝三星Galaxy S26 Ultra支持?eSIM,新機下月見

無障礙瀏覽 進入關(guān)懷版