国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek新論文被稱“硅基生命進化論”,海量文字壓縮成圖,模仿人腦重塑AI視覺記憶邊界,贏硅谷大佬力挺

0
分享至



出品|搜狐科技

作者|鄭松毅

DeepSeek再次“低調(diào)”震驚世界!

他們新發(fā)布并開源的OCR模型,從根本上改變了AI游戲規(guī)則。Github開源項目DeepSeek-OCR,一夜收獲超4k星。相關(guān)論文(《DeepSeek OCR:上下文光學壓縮》)解釋了這一研究成果。

很多人好奇,什么是OCR?

傳統(tǒng)OCR如同“文字掃描儀”,通過光學技術(shù)將圖像中的文字提取轉(zhuǎn)換為計算機和人都能理解的格式。比如,在將大量票據(jù)、證件、表單等數(shù)據(jù)電子化時,OCR發(fā)揮關(guān)鍵作用。

但DeepSeek卻反其道而行之——將文本信息“繪制”為視覺圖像,再通過視覺模型實現(xiàn)高效理解。如此創(chuàng)新嘗試就是為了解決大模型的核心痛點——處理長文本時面臨的計算挑戰(zhàn)。

效果有多驚艷?10頁密密麻麻的文本報告,被壓縮成一張圖片,AI能夠一眼讀懂它。這樣的信息處理效率意味著大幅降低了計算復(fù)雜度,用最直接的方式節(jié)約成本。

論文發(fā)布后,意料之內(nèi)的好評如潮,有網(wǎng)友直接將其稱為“硅基生命進化論”。

最近還在銳評AI發(fā)展的OpenAI創(chuàng)始團隊成員、特斯拉前AI總監(jiān)Karpathy,對DeepSeek新成果直言喜愛,并指出“早就該讓視覺成為AI核心,而非依賴爛透了的文本分詞器?!?/p>

更有業(yè)內(nèi)大佬感嘆,“當文本能被轉(zhuǎn)化為視覺可理解的結(jié)構(gòu),語言與視覺的統(tǒng)一或許不再是理論。這可能是通往 AGI(通用人工智能)的關(guān)鍵一步?!?/p>


DeepSeek新研究:

把大量文字壓縮到圖片,讓模型直接看圖理解

本質(zhì)上來說,DeepSeek-OCR是將視覺與語言模態(tài)深度融合,通過“視覺-文本壓縮”建立自然映射關(guān)系,為多模態(tài)大模型提供了新的技術(shù)路徑。

之前的大模型可以說是“帶著腳銬的舞者”,雖有強大的語言理解能力,卻被低效的信息輸入方式嚴重束縛。

拿模型閱讀長篇文本來說,每頁財報、論文都包含數(shù)千個token,傳統(tǒng)方式下只能逐字逐句識別,導(dǎo)致計算量爆炸。這種低效作業(yè)讓大模型在法律、金融等領(lǐng)域的應(yīng)用舉步維艱。

而DeepSeek這次用到了一個巧妙思維——既然一張圖片能裝下成千上萬的文字,那是不是大量文字信息也能被壓縮到一張圖片里,讓模型直接看圖理解就好了。

為實現(xiàn)這一設(shè)想,DeepSeek為OCR模型配備了三件套——圖像編碼器、映射層和文本解碼器。其中,圖像編碼器DeepEncoder(負責把圖片轉(zhuǎn)成高度壓縮的視覺token)參數(shù)為380M,文本解碼器(負責從壓縮的視覺token里重建文字)是一個deepseekv2-3b的模型,參數(shù)為3B。

整體訓練數(shù)據(jù)由4部分組成,包括OCR1.0數(shù)據(jù)(傳統(tǒng)OCR任務(wù),如圖像OCR和文檔OCR)、OCR2.0數(shù)據(jù)(復(fù)雜圖像解析任務(wù),如幾何、圖表等)、通用視覺數(shù)據(jù)(用于注入通用圖像理解能力)、及純文本數(shù)據(jù)(用于確保模型的語言能力)。

別看模型參數(shù)不大,但就研究結(jié)果發(fā)現(xiàn),當文本壓縮率小于10倍時,模型OCR解碼準確率高達97%,及時壓縮率高達20倍時,準確率依舊能保持在60%。在A100-40G顯卡環(huán)境下,單日可生成超過20萬頁的模型訓練數(shù)據(jù)。

也就是說,如果普通 OCR 需要 10,000 個 token 才能讀完整篇文檔,這個模型可能只用 1,000 個就能搞定,且能高準確度地理解信息。

受益于訓練數(shù)據(jù)多樣性,論文提到DeepSeek-OCR不僅能識別文字,還能理解文檔布局、圖表結(jié)構(gòu)。從某種角度說,這已經(jīng)不是傳統(tǒng)的OCR,而更接近“文檔理解引擎”。

論文中提到的一個基準叫OmniDocBench,就是專門用來測試復(fù)雜文檔理解能力的。DeepSeek-OCR 在這個基準上,用更少的視覺 token 數(shù)量就超過了 GOT-OCR 2.0 和 MinerU 2.0,這倆都是目前較頂尖的開源 OCR 模型,可謂十分能打。



讓AI記憶模式更像人類

在論文中,DeepSeek還談到了一直困擾業(yè)界的AI“記憶”和“遺忘”機制。

深度學習模型的記憶以分布式參數(shù)形式存儲,這種非結(jié)構(gòu)化存儲導(dǎo)致傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在學習新任務(wù)時,舊知識的參數(shù)空間會被新知識覆蓋,模型無法做到像人類一樣進行連貫推理。

而DeepSeek的想法是,通過視覺-文本壓縮范式和動態(tài)分層遺忘機制,讓AI“記住該記住的,忘記該忘記的”。

其核心思路是將文本信息轉(zhuǎn)化為視覺token,通過光學壓縮實現(xiàn)高效記憶管理,同時模擬人類遺忘曲線動態(tài)調(diào)整信息留存。


在這個過程中,核心組件DeepEncoder發(fā)揮關(guān)鍵作用,50-100個視覺tokens即可還原1000字文本,實現(xiàn)近 10 倍的計算量節(jié)省。

這種壓縮并非簡單的信息降維,而是通過“注意力機制+結(jié)構(gòu)化訓練”,優(yōu)先保留對模型推理最關(guān)鍵的信息。類似人類閱讀時“先抓標題再看細節(jié)”的認知模式,去除不重要的信息噪聲。

關(guān)于如何讓模型的記憶模式更像人類,研究者做了進一步解釋:對于近期記憶,可以將其渲染成高分辨率圖像,用多token數(shù)量保留高保真信息。而對于遠期記憶,可以縮放成更小、更模糊的圖像,用少量token來保留信息,從而實現(xiàn)信息的自然遺忘和壓縮。

雖然當前還僅是研究前期探索階段,但DeepSeek的創(chuàng)新思路,確實讓AI越來越像人類了。


三名作者

本篇論文共有3名作者:Haoran Wei、Yaofeng Sun、Yukun Li。

論文一作Haoran Wei曾主導(dǎo)開發(fā)爆火項目GOT-OCR2.0,此次的DeepSeek-OCR也可以說是延續(xù)了此前項目的創(chuàng)新技術(shù)路徑。根據(jù)此前論文信息顯示,Haoran Wei還曾就職于階躍星辰。


Yaofeng Sun畢業(yè)于北京大學圖靈班計算機科學專業(yè),于2023年加入DeepSeek,先后參與DeepSeek-r1、DeepSeek-v3、DeepSeek-v2等模型的研究。


Yukun Li也參與了包括DeepSeek-v2/v3在內(nèi)的多款模型研究,谷歌學術(shù)論文引用量近萬。




運營編輯 |曹倩審核|孟莎莎




特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
國行iPhone對比滿血版差距太明顯,深扒蘋果在國內(nèi)消失的30項功能

國行iPhone對比滿血版差距太明顯,深扒蘋果在國內(nèi)消失的30項功能

小8說科技
2025-12-24 14:26:17
我們只知南京大屠殺,卻不知日軍當年占領(lǐng)香港后,都做了些什么?

我們只知南京大屠殺,卻不知日軍當年占領(lǐng)香港后,都做了些什么?

大千世界觀
2025-12-24 19:35:49
突發(fā)!金價巨震

突發(fā)!金價巨震

中吳網(wǎng)
2025-12-25 14:06:56
關(guān)系藏不住了!樊振東放著世界冠軍陳夢不選,原來他喜歡這樣的

關(guān)系藏不住了!樊振東放著世界冠軍陳夢不選,原來他喜歡這樣的

誮惜顏a
2025-12-24 05:53:10
泰軍警告柬方:若敢用中國戰(zhàn)略武器,將直接打擊其縱深,中方表態(tài)

泰軍警告柬方:若敢用中國戰(zhàn)略武器,將直接打擊其縱深,中方表態(tài)

歷史求知所
2025-12-24 19:50:03
18歲全紅嬋最新造型曝光,長發(fā)披肩少女感拉滿,眼神太干凈了

18歲全紅嬋最新造型曝光,長發(fā)披肩少女感拉滿,眼神太干凈了

暖心萌阿菇?jīng)?/span>
2025-12-25 07:51:19
排水量8700噸!金正恩視察朝鮮首艘戰(zhàn)略導(dǎo)彈核潛艇:這么大的圍殼,到底裝了什么導(dǎo)彈?

排水量8700噸!金正恩視察朝鮮首艘戰(zhàn)略導(dǎo)彈核潛艇:這么大的圍殼,到底裝了什么導(dǎo)彈?

軍武速遞
2025-12-25 19:38:05
雖遠必誅,永不忘記——以色列抓捕與羅恩·阿拉德有關(guān)的黎巴嫩前軍官

雖遠必誅,永不忘記——以色列抓捕與羅恩·阿拉德有關(guān)的黎巴嫩前軍官

老王說正義
2025-12-25 00:07:02
向太曝馬伊琍已再婚:當年文章過不了心理那關(guān)

向太曝馬伊琍已再婚:當年文章過不了心理那關(guān)

娛樂看阿敞
2025-12-12 15:50:00
定居臺灣的姑姑回大陸,顯擺自己住150平豪宅,我:去我家看看

定居臺灣的姑姑回大陸,顯擺自己住150平豪宅,我:去我家看看

紅豆講堂
2025-06-27 10:54:06
孫中山預(yù)言,中國若是遷都到這3座城,則有望稱霸亞洲,是哪三座

孫中山預(yù)言,中國若是遷都到這3座城,則有望稱霸亞洲,是哪三座

抽象派大師
2025-12-23 01:27:51
下月起,你的房貸利率有調(diào)整!

下月起,你的房貸利率有調(diào)整!

六安新周報
2025-12-25 11:31:13
上?;輪T師從王汝剛,45歲成上海老年大學老師,還帶貨賣大米

上海滑稽演員師從王汝剛,45歲成上海老年大學老師,還帶貨賣大米

趣文說娛
2025-12-25 17:45:21
外交部:堅決反對美方報告挑撥中國同其他國家關(guān)系

外交部:堅決反對美方報告挑撥中國同其他國家關(guān)系

新京報
2025-12-25 15:48:03
老同志借而不還的畫,現(xiàn)估價8800萬現(xiàn)身拍賣會這個老東西究竟是誰

老同志借而不還的畫,現(xiàn)估價8800萬現(xiàn)身拍賣會這個老東西究竟是誰

深度報
2025-12-22 22:36:02
周琦一家近照,大6歲妻子身材好,兒子也愛籃球,29歲身家過億

周琦一家近照,大6歲妻子身材好,兒子也愛籃球,29歲身家過億

大西體育
2025-12-23 16:37:16
"崩老頭"火了!年輕女性在網(wǎng)上釣中年男性,索要小額紅包節(jié)日大紅包

"崩老頭"火了!年輕女性在網(wǎng)上釣中年男性,索要小額紅包節(jié)日大紅包

互聯(lián)網(wǎng)大觀
2025-12-12 15:14:03
醫(yī)生提醒:若長期一天只吃兩頓飯,用不了半年,或患上這4種疾病

醫(yī)生提醒:若長期一天只吃兩頓飯,用不了半年,或患上這4種疾病

瑛派兒老黃
2025-12-24 08:05:26
“妖股”直擊:三花智控業(yè)績預(yù)增50%引爆行情,全球熱管理龍頭獲機構(gòu)買入評級,港股基石解禁后股價強勢

“妖股”直擊:三花智控業(yè)績預(yù)增50%引爆行情,全球熱管理龍頭獲機構(gòu)買入評級,港股基石解禁后股價強勢

金融界
2025-12-25 15:38:27
樊振東陳夢沒想到,退出世界排名一年后,央視狠狠替他們出一口氣

樊振東陳夢沒想到,退出世界排名一年后,央視狠狠替他們出一口氣

阿纂看事
2025-12-24 21:08:13
2025-12-25 21:44:49
搜狐科技 incentive-icons
搜狐科技
搜狐科技官方賬號
4618文章數(shù) 9175關(guān)注度
往期回顧 全部

科技要聞

小米17Ultra發(fā)布,徠卡2億像素 ,6999元起

頭條要聞

韓國"最毒"財閥千金被捕 韓國人稱"經(jīng)過她身邊就會死"

頭條要聞

韓國"最毒"財閥千金被捕 韓國人稱"經(jīng)過她身邊就會死"

體育要聞

單賽季11冠,羽壇“安洗瑩時代”真的來了

娛樂要聞

朱孝天把阿信好意當球踢!

財經(jīng)要聞

時隔15月,人民幣升破7,三大推手曝光

汽車要聞

速來!智界在上海西岸準備了年末潮流盛典

態(tài)度原創(chuàng)

本地
時尚
手機
數(shù)碼
公開課

本地新聞

這輩子要積多少德,下輩子才能投胎到德國當狗

迎好運的30套紅色穿搭,美到不行!

手機要聞

realme真我手機回應(yīng)“大規(guī)模裁員”:系年底正常的人員變動

數(shù)碼要聞

小米Buds 6耳機發(fā)布 支持智能錄音翻譯功能 售價699元

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版