国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek-OCR 發(fā)布:1個視覺token,抵得上10個文本token

0
分享至

之前和 OpenAI 的做交流,突然提了一個問題
文字,是信息壓縮的最好方式嗎?

當(dāng)時沒想太多,直到今天
DeepSeek 開源了 DeepSeek-OCR
用 10 個視覺 token,表達(dá) 100 個文本 token


github.com/deepseek-ai/DeepSeek-OCR

我突然意識到:這個問題可能有答案了
具體對比:

  • ? DeepSeek-OCR 用 100 個 token ,超過了 GOT-OCR2.0 的 256 個 token

  • ? DeepSeek-OCR 用 800 個 token ,超過了 MinerU2.0 的 6000+ token

  • ? 即使壓縮到 20 倍 ,準(zhǔn)確率還有 60%

DeepSeek-OCR在不同壓縮比下的準(zhǔn)確率 為什么重要

現(xiàn)在所有的多模態(tài)大模型都面臨一個瓶頸:
token 消耗太多了

處理一頁 PDF 就要消耗幾千個 token
如果你想處理一本書、一份研究報告、一堆財務(wù)文檔
context window 立刻就爆了
每個 token 都要算錢、消耗顯存、拖慢推理速度

DeepSeek-OCR 用數(shù)據(jù)告訴你
10 倍壓縮,幾乎無損

信息論視角

對于這個問題
Hacker News 上展開了很大的討論


是當(dāng)前 Hacker News 上的最火話題

"為什么這種方法有效?"
"是不是文本 token 太粒狀了,沒接近理想的熵編碼?"
"切換到視覺 token 是不是逃脫了'一次一個詞'的限制?"


Hacker News 評論第一條

有個回答說的很有意思
文本 token 本質(zhì)上是離散的查找表
你有個小整數(shù)(token ID)
然后查表得到一個向量

但視覺 token 是連續(xù)值向量
沒有查找表
直接從圖像編碼成向量

這意味著什么?
文本 token 的「token 空間」是有限的
通常就 10 萬個可能的 token
每個 token 對應(yīng)一小段 UTF-8 字節(jié)
而且大多數(shù)分詞器不會創(chuàng)建跨越詞邊界的 token

視覺 token 的「token 空間」要大得多
它是高維浮點數(shù)向量,每個維度都可以取很多值
所以視覺 token 能傳達(dá)更多的 bits per token
這才是壓縮的關(guān)鍵


圖片

另一個人補(bǔ)充
文本 token 是子詞單元
視覺 token 在語義空間
語義空間顯然比子詞切片壓縮得多


免責(zé)聲明:我不懂

還有人從視覺角度解釋
人類就是通過視覺看文本的
所以文本必須有適應(yīng)視覺噪聲的機(jī)制
看起來相似的詞不能出現(xiàn)在相似的上下文
否則會混淆

挺有意思的
文本為了適應(yīng)視覺識別
反而在編碼上有些"冗余"
而視覺 token 直接在語義空間工作
可以更高效
所以 10 倍的壓縮比

從信息論角度看
其實挺合理的
DeepSeek-OCR 做的事情
是把這個直覺量化了
用實驗數(shù)據(jù)證明:
一圖確實勝千言

當(dāng)然,我并不是這個領(lǐng)域的,評價不到正確與否,有懂的兄弟,還請評論區(qū)指導(dǎo)

怎么做到的

DeepSeek 這個東西的核心
是一個叫 DeepEncoder 的架構(gòu)
380M 參數(shù)

這東西的設(shè)計很講究
它由三部分組成
80M 的 SAM-base + 16 倍的卷積壓縮器 + 300M 的 CLIP-large


DeepEncoder架構(gòu)流程圖

這個設(shè)計有兩個關(guān)鍵

第一個關(guān)鍵是「低激活」
大部分 VLM 的視覺編碼器激活值特別大
InternVL2-76B 的激活參數(shù)是 76B
Qwen2.5-VL-72B 的激活參數(shù)是 72B
DeepSeek-OCR 的解碼器雖然是 3B 參數(shù)
但激活參數(shù)只有 570M
因為它用了 MoE 架構(gòu)
每次只激活一部分專家
這意味著推理時顯存占用小、速度快

第二個關(guān)鍵是「多分辨率統(tǒng)一」
它設(shè)計了 6 種模式
Tiny 模式的 64 個 token
Gundam 模式的 800+ 個 token
你可以根據(jù)文檔復(fù)雜度選擇
幻燈片用 Tiny 就夠了
報紙得用 Gundam

另外值得一提的是
DeepSeek-OCR 不只能識別文字
還能「深度解析」文檔里的圖表、幾何圖形、化學(xué)式
論文里叫這個能力 OCR 2.0
比如金融報告里的圖表
它能直接轉(zhuǎn)成結(jié)構(gòu)化數(shù)據(jù)
化學(xué)文檔里的結(jié)構(gòu)式
它能轉(zhuǎn)成 SMILES 格式


化學(xué)結(jié)構(gòu),也不在話下

這對金融、科研、教育領(lǐng)域太關(guān)鍵了

最有想象力的部分

論文最后有個很酷的設(shè)想

用降低圖像分辨率來模擬人類的記憶遺忘

這個類比特別有意思
人類記憶有個特點
越久遠(yuǎn)的事情,記得越模糊
剛發(fā)生的事,記得清清楚楚

一小時前的事,還很清晰
一天前的事,開始模糊
一周前的事,已經(jīng)很模糊
一年前的事,幾乎忘光了

視覺感知也是這樣
10cm 的東西看得清清楚楚
20m 的東西幾乎看不清
DeepSeek-OCR 提出
可以用分辨率來模擬這種衰減

DeepSeek-OCR 提出了一個對應(yīng)關(guān)系
他們把不同的分辨率模式
對應(yīng)到人類記憶和視覺感知的清晰度等級
這個類比是這樣的

  • ? 一小時前的事,還很清晰,對應(yīng) Gundam 模式(800+ tokens)

  • ? 一周前的事,已經(jīng)很模糊,對應(yīng) Base 模式(256 tokens)

  • ? 一年前的事,幾乎忘光了,對應(yīng) Tiny 模式(64 tokens)

記憶遺忘機(jī)制:時間維度、距離維度、分辨率維度

最近的對話用高分辨率
更早的對話逐漸降低分辨率
這樣既保留了歷史信息
又控制了 token 數(shù)量
遠(yuǎn)期記憶自然「淡化」
就像人類遺忘一樣

這個設(shè)想論文里說還是早期階段
但想象空間很大
如果真的能做到
就能實現(xiàn)「理論上無限的 context window」

因為你不需要保持所有信息的高保真度
只需要讓信息隨時間衰減
就像人類記憶一樣

開源和局限

整個項目采用 MIT 許可證開源
代碼、模型權(quán)重、技術(shù)論文全部公開


GitHub:

github.com/deepseek-ai/DeepSeek-OCR

Hugging Face:

huggingface.co/deepseek-ai/DeepSeek-OCR

說回來
這個模型也有局限
它不是聊天機(jī)器人
因為沒有 SFT 階段
某些能力需要用特定的 prompt 才能激活

超過 10 倍的壓縮
準(zhǔn)確率會明顯下降
記憶遺忘機(jī)制還只是設(shè)想
真正驗證它在長上下文場景的效果
需要更多實驗

但即使有這些局限
DeepSeek-OCR 已經(jīng)證明了一件事
視覺-文本壓縮這條路是走得通的

最后

DeepSeek-OCR 最有價值的地方
不在于它是一個好用的 OCR 工具
而在于它用數(shù)據(jù)驗證了一個假設(shè)
視覺 token 確實可以更高效地表達(dá)信息

現(xiàn)在所有的 VLM 都是幾千個 token 起步
推理慢、顯存占用大、長文檔處理困難
如果能把視覺 token 壓縮 10 倍還幾乎無損
整個多模態(tài)系統(tǒng)的效率都能提升一個量級

記憶遺忘機(jī)制的設(shè)想也很有意思
人類會遺忘
不是因為大腦容量不夠
而是因為遺忘本身是一種優(yōu)化策略

你不需要記住所有細(xì)節(jié)
只需要記住重要的、近期的信息
如果這條路真的走通了
可能會改變我們對長上下文問題的理解
不是無限擴(kuò)大 context window
而是讓信息自然衰減
就像人類記憶一樣

回到開頭 OpenAI 朋友的那個問題
文字,是信息壓縮的最好方式嗎?
DeepSeek-OCR 用數(shù)據(jù)給出了答案

而且,它是開源的
任何人都可以用、可以改進(jìn)、可以基于它做研究

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
謝春濤率中共代表團(tuán)赴柬埔寨、老撾宣介中共二十屆四中全會精神

謝春濤率中共代表團(tuán)赴柬埔寨、老撾宣介中共二十屆四中全會精神

新華社
2025-12-26 17:00:06
極目政情丨蘇州市委書記范波(湖北洪湖人),添新職!

極目政情丨蘇州市委書記范波(湖北洪湖人),添新職!

極目新聞
2025-12-26 16:00:36
洪森提出4大?;饤l件,泰柬談判失敗,汪文斌終于表態(tài),措辭特殊

洪森提出4大停火條件,泰柬談判失敗,汪文斌終于表態(tài),措辭特殊

時時有聊
2025-12-26 15:09:40
21歲男子趁表姐熟睡欲與其發(fā)生關(guān)系未得逞,家屬賠償10萬獲諒解 一審被判三緩四

21歲男子趁表姐熟睡欲與其發(fā)生關(guān)系未得逞,家屬賠償10萬獲諒解 一審被判三緩四

紅星新聞
2025-12-26 17:20:10
詭異!各地博物館流感式閉館

詭異!各地博物館流感式閉館

不正確
2025-12-26 11:47:45
網(wǎng)購“10-9”枚鹵蛋實得1枚顧客最新發(fā)聲:蛋已吃,并獲10倍賠償;律師:商家強(qiáng)詞奪理涉嫌欺詐

網(wǎng)購“10-9”枚鹵蛋實得1枚顧客最新發(fā)聲:蛋已吃,并獲10倍賠償;律師:商家強(qiáng)詞奪理涉嫌欺詐

極目新聞
2025-12-26 19:33:46
首富馬斯克最新身家7519億美元,超第二近5000億美元

首富馬斯克最新身家7519億美元,超第二近5000億美元

魯中晨報
2025-12-26 17:05:03
悲催!惠州一年入10億工廠停工,是三星、華為、小米等巨頭供應(yīng)商

悲催!惠州一年入10億工廠停工,是三星、華為、小米等巨頭供應(yīng)商

火山詩話
2025-12-26 06:39:54
一家五口駕車在江門施工棧橋墜江遇難 老家村委會負(fù)責(zé)人:車上有7歲小孩和六旬老人

一家五口駕車在江門施工棧橋墜江遇難 老家村委會負(fù)責(zé)人:車上有7歲小孩和六旬老人

紅星新聞
2025-12-26 13:15:16
價值50萬元!陜西360克“無主黃金”,至今仍沒找到主人

價值50萬元!陜西360克“無主黃金”,至今仍沒找到主人

封面新聞
2025-12-26 15:09:05
嘉興市原市長李軍調(diào)任浙江省海洋經(jīng)濟(jì)發(fā)展廳黨組書記,曾在湖南工作27年

嘉興市原市長李軍調(diào)任浙江省海洋經(jīng)濟(jì)發(fā)展廳黨組書記,曾在湖南工作27年

上觀新聞
2025-12-26 20:49:34
江蘇省委常委、省紀(jì)委書記張忠最新署名文章:激勵干部在中國式現(xiàn)代化新征程上挺膺擔(dān)當(dāng)

江蘇省委常委、省紀(jì)委書記張忠最新署名文章:激勵干部在中國式現(xiàn)代化新征程上挺膺擔(dān)當(dāng)

無錫發(fā)布
2025-12-26 10:54:58
外交部回應(yīng)日本領(lǐng)導(dǎo)人或參拜靖國神社:日方不要錯上加錯

外交部回應(yīng)日本領(lǐng)導(dǎo)人或參拜靖國神社:日方不要錯上加錯

環(huán)球網(wǎng)資訊
2025-12-26 15:30:50
美媒扒愛德華茲離場前爆笑細(xì)節(jié):指著3個裁判一頓痛罵 沒放過一人

美媒扒愛德華茲離場前爆笑細(xì)節(jié):指著3個裁判一頓痛罵 沒放過一人

Emily說個球
2025-12-26 16:07:48
價格飆升,多地零售價突破10元/斤!年初一斤僅一兩元,網(wǎng)友:雞蛋都快配不上它了……

價格飆升,多地零售價突破10元/斤!年初一斤僅一兩元,網(wǎng)友:雞蛋都快配不上它了……

每日經(jīng)濟(jì)新聞
2025-12-26 10:01:26
獨家:南博前院長徐湖平“監(jiān)守自盜”,工人逆襲院長發(fā)跡史曝光!

獨家:南博前院長徐湖平“監(jiān)守自盜”,工人逆襲院長發(fā)跡史曝光!

微評社
2025-12-26 12:59:10
格力市場總監(jiān)朱磊曬工廠圖:銅管堆成山!堅決不用鋁代銅

格力市場總監(jiān)朱磊曬工廠圖:銅管堆成山!堅決不用鋁代銅

快科技
2025-12-26 17:57:08
外交部:中方堅決反對日本在網(wǎng)絡(luò)領(lǐng)域的危險舉動

外交部:中方堅決反對日本在網(wǎng)絡(luò)領(lǐng)域的危險舉動

界面新聞
2025-12-26 15:24:02
平安夜奇跡!18億美元大獎一票獨得!中彩票巨獎后,有人站在超市門口免費發(fā)錢,見人就送

平安夜奇跡!18億美元大獎一票獨得!中彩票巨獎后,有人站在超市門口免費發(fā)錢,見人就送

華人生活網(wǎng)
2025-12-26 02:53:35
爆砍56+16+15+2!抱歉哈登:你從歷史第一變成了歷史第二

爆砍56+16+15+2!抱歉哈登:你從歷史第一變成了歷史第二

籃球大視野
2025-12-26 18:37:16
2025-12-26 21:11:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
225文章數(shù) 12關(guān)注度
往期回顧 全部

科技要聞

收割3000億!拼多多"土辦法"熬死所有巨頭

頭條要聞

寶馬網(wǎng)紅銷冠推行"一口價"賣車:來回談價累 8天賣11輛

頭條要聞

寶馬網(wǎng)紅銷冠推行"一口價"賣車:來回談價累 8天賣11輛

體育要聞

開翻航母之后,他決定親手造一艘航母

娛樂要聞

王傳君生病后近照變化大,面部浮腫

財經(jīng)要聞

投資巨鱷羅杰斯最新持倉:只留四種資產(chǎn)

汽車要聞

兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

態(tài)度原創(chuàng)

本地
房產(chǎn)
親子
旅游
教育

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

房產(chǎn)要聞

炸裂,三亞360億超級清單發(fā)布,又一批重大配套要來了!

親子要聞

62歲懷二胎后續(xù):妹妹發(fā)視頻曝光真相,醫(yī)生擔(dān)心,惡心的一幕出現(xiàn)

旅游要聞

第三屆新疆公路文化節(jié)網(wǎng)絡(luò)主題活動啟動

教育要聞

教育部公布重要名單!上海10所學(xué)校上榜

無障礙瀏覽 進(jìn)入關(guān)懷版