国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek開源的新東西到底強(qiáng)在哪?我?guī)湍阏覍<覇柫藛?/h1>
0
分享至



本周,DeepSeek 新開源的 DeepSeek-OCR 在開源社區(qū)的熱度持續(xù)發(fā)酵。

人們興奮的點(diǎn)是:它不僅是一款新的光學(xué)字符識別模型,還更像是一次對 “ 大模型記憶機(jī)制 ” 的重新設(shè)計(jì)。

在 DeepSeek-OCR 的架構(gòu)中,圖像不再只是文字的載體,而是成為一種語義壓縮的中間語言。文字被渲染成圖像后,經(jīng)由 DeepEncoder 轉(zhuǎn)換為緊湊的視覺表征;這些視覺 token 既可以通過 DeepSeek 3B-MoE 模型還原為原始文本(這也是標(biāo)準(zhǔn)的 OCR 機(jī)制),也可以與其他輸入 token 與 prompt 結(jié)合,執(zhí)行問答、摘要、檢索等復(fù)雜任務(wù)。

通俗來說,就是我們可以把大量文字打包壓縮成一張圖片來節(jié)省空間,等需要使用的時候再解壓出來,甚至在一部分使用場景中,你甚至不需要解壓,直接用壓縮包就可以達(dá)成目的。



DeepSeek-OCR 模型架構(gòu)。圖源:
https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

即便在 10× 壓縮比的條件下,模型的文本還原精度仍可達(dá) 97%。隨著大模型逐漸向越來越復(fù)雜的場景嵌入,上下文長度資源遠(yuǎn)不夠用甚至越來越不夠用,而基座模型在此參數(shù)上升級頗為緩慢的當(dāng)下,DeepSeek-OCR 的發(fā)布瞬間帶來很大的想象空間。

研究團(tuán)隊(duì)甚至還進(jìn)一步提出 “ 遺忘機(jī)制 ” 的構(gòu)想,模型可依據(jù)信息的 “ 時序遠(yuǎn)近 ”,在視覺壓縮階段主動衰減細(xì)節(jié),從而實(shí)現(xiàn)一種類人記憶式的上下文管理。

那么,視覺 token 為何能在信息量不損失太多的情況下,比文本 token 少一個數(shù)量級?模型記憶能否完全用視覺邏輯來替代?DeepSeek-OCR 是否為解決大模型上下文長度受限的問題提供了一條現(xiàn)實(shí)可行的途徑?DeepSeek-OCR 反映了多模態(tài)大模型的什么發(fā)展趨勢?

帶著這些問題,知危與 Sand.ai 聯(lián)合創(chuàng)始人、首席科學(xué)家、《 Swin Transformer 》作者張拯進(jìn)行了簡單的對話。

知危:

同一段輸入,為什么視覺 token 可以比文本 token 的數(shù)量少得多,有沒有直觀或本質(zhì)的解釋?

張拯:

有兩種觀點(diǎn)。第一種,視覺是一個 2D 表達(dá),因此可以比 1D 的表達(dá)更高效。

第二種,高效的原因不是視覺 v.s. 文本,而是兩邊采用的 token 表達(dá)方式不同:做視覺表達(dá)的時候,我們是在一個高維的連續(xù)空間中做信息壓縮( 把 image patch 映射為一個高維特征 ),之前 LLM 里常用的 tokenizer( 把文本數(shù)據(jù)向量化的工具,通俗理解是一種把自然語言翻譯為機(jī)器能理解的語言的工具 )則實(shí)際上可以被認(rèn)為是在一個一維空間中做壓縮( 把文本映射為 id )。高維連續(xù)空間本來就有更好的表達(dá)能力,因此可以用更少的 token 數(shù)量來表達(dá)更多信息。其實(shí)文本也可以做成連續(xù)表達(dá),來大幅度減少文本 token,但是目前應(yīng)該沒有被很廣泛地用到 LLM 里。

這兩種觀點(diǎn),我 buy-in 第二種。

知危:

DeepSeek-OCR 相比過往的 OCR 模型,除了效率提升方面,還有哪些獨(dú)創(chuàng)性?

張拯:

我最近沒有特別研究過 OCR 模型的進(jìn)展,但基于我看過的一些信息,我覺得 DeepSeek-OCR 的技術(shù)本身好像并沒有非常特別的部分。但是在觀點(diǎn)上,“ 把視覺作為文本長上下文的壓縮介質(zhì) ”,這個 idea 還是很棒的。這個 idea 有路線上的啟發(fā)意義,相較于現(xiàn)在的多模態(tài)模型,DeepSeek-OCR 會使用兩種不同的 tokenizer 機(jī)制,這種路線也許會啟發(fā)更好的多模態(tài)模型設(shè)計(jì)方案。

知危:

這項(xiàng)技術(shù)對于基礎(chǔ)模型上下文長度難以擴(kuò)展的當(dāng)下,可以帶來多大的成本效益?對上下文工程的優(yōu)化有哪些好處?

張拯:

理論上最多能拿到 N^2 倍的收益,N 是 Vision Token 相較于 Text Token 的壓縮率。對于上下文工程的優(yōu)化,最大的好處應(yīng)該就是不用那么仔細(xì)地管理上下文長度了。

知危:

DeepSeek 設(shè)想的遺忘機(jī)制是否過于簡化?忽略了語義的重要性排序?

張拯:

這種設(shè)想肯定還是很初步的,但是也能腦洞出很多改進(jìn)的空間,比如語義重要的部分可以渲染成更大的字體?

知危:

Andrej Karpathy 認(rèn)為視覺 token 有潛力可以完全替代文本 token,因?yàn)樾畔嚎s、多模態(tài)、可雙向注意力處理、無需 tokenizer 等優(yōu)勢,您怎么看?

張拯:

大部分都同意,但是 “ 可雙向注意力處理 ” 這里有待探討,“ 可雙向注意力處理 ” 很大程度上和 training objective( 訓(xùn)練目標(biāo) )有關(guān)。

另外,如果后面都是處理視覺 token 了,是不是有機(jī)會讓模型能在一個 2D 的空間里做思考?從而帶來更高效的推理( 類似 GPT-4o 的 thinking with image )?這個我覺得還是挺有意思的。

知危:近期 Meta 也提出了一個無需 tokenizer 的模型架構(gòu) Byte Latent Transformer ,可以跳過 tokenization ,直接學(xué)習(xí)原始字節(jié)流。結(jié)合以上討論和領(lǐng)域現(xiàn)狀,您認(rèn)為這體現(xiàn)了多模態(tài)大模型的哪些發(fā)展趨勢?

張拯:

宏觀一點(diǎn)來看,不同模態(tài)模型的范式還是有機(jī)會持續(xù)進(jìn)化的。

更細(xì)節(jié)一點(diǎn)的話,我初步想到的有兩個:

  • 現(xiàn)在的多模態(tài)大模型的主流做法基本上可以認(rèn)為在捏合各種不同的模態(tài)的模塊,整個訓(xùn)練 pipeline 其實(shí)還是有點(diǎn)復(fù)雜( 不優(yōu)雅 )的。大家肯定希望有更簡單、更統(tǒng)一的方式來處理。類似 DeepSeek-OCR 這樣的工作對我們開發(fā)更好的多模態(tài)模型范式還是挺有啟發(fā)的。
  • 離散表達(dá)和連續(xù)表達(dá)之間的關(guān)系,以及是否有更好的組合方式,可能也挺重要的。

( 對話全文完 )

總體來看,DeepSeek-OCR 更多是基于效率上的大幅提升啟發(fā)了一個新的路線。

當(dāng)模型的 “ 思考空間 ” 從一維文本拓展至二維視覺,思考和推理也可能變得更加高效和簡潔。而在技術(shù)層面,則指向當(dāng)前多模態(tài)大模型領(lǐng)域正等待一把 “ 奧卡姆剃刀 ” 簡化模型范式的時刻。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
2-0!世界第11勁旅進(jìn)非洲杯4強(qiáng),皇馬名將5連斬,5冠王喀麥隆出局

2-0!世界第11勁旅進(jìn)非洲杯4強(qiáng),皇馬名將5連斬,5冠王喀麥隆出局

我愛英超
2026-01-10 06:27:30
讓白宮心驚肉跳!中方推出星鏈終端干擾設(shè)備,而且大大方方展出!

讓白宮心驚肉跳!中方推出星鏈終端干擾設(shè)備,而且大大方方展出!

我心縱橫天地間
2026-01-08 22:42:39
隱私部位全被切,一男子瞬間崩潰!醫(yī)生:不能拖啊

隱私部位全被切,一男子瞬間崩潰!醫(yī)生:不能拖啊

深圳晚報(bào)
2026-01-09 23:51:10
領(lǐng)導(dǎo)30萬員工1萬,申萬期貨員工質(zhì)疑年終獎分配遭停職,和總經(jīng)理起沖突,雙方已報(bào)警

領(lǐng)導(dǎo)30萬員工1萬,申萬期貨員工質(zhì)疑年終獎分配遭停職,和總經(jīng)理起沖突,雙方已報(bào)警

紅星新聞
2026-01-09 19:12:18
全部開除!小米事情鬧大了!雷軍怒了!

全部開除!小米事情鬧大了!雷軍怒了!

財(cái)經(jīng)要參
2026-01-10 00:30:03
閆學(xué)晶兒子上新疆班風(fēng)波升級!大量博主吐槽其違規(guī),網(wǎng)友義憤填膺

閆學(xué)晶兒子上新疆班風(fēng)波升級!大量博主吐槽其違規(guī),網(wǎng)友義憤填膺

小徐講八卦
2026-01-09 10:41:44
現(xiàn)場騰起巨大火球!美空軍一架F16C戰(zhàn)機(jī)墜毀 ,飛行員彈射逃生

現(xiàn)場騰起巨大火球!美空軍一架F16C戰(zhàn)機(jī)墜毀 ,飛行員彈射逃生

每日經(jīng)濟(jì)新聞
2026-01-09 16:38:02
美國三角洲部隊(duì)抵達(dá)伊朗邊境,教士集團(tuán)和抗議者開始最后決戰(zhàn)

美國三角洲部隊(duì)抵達(dá)伊朗邊境,教士集團(tuán)和抗議者開始最后決戰(zhàn)

史政先鋒
2026-01-09 20:39:18
2首輪+2次輪!回看阿夫迪亞交易,開拓者贏麻了?

2首輪+2次輪!回看阿夫迪亞交易,開拓者贏麻了?

籃球?qū)嶄?/span>
2026-01-09 17:41:04
洗碗機(jī)砸家后續(xù):丈夫降薪,妻子愛美,每月多次海底撈,朋友發(fā)聲

洗碗機(jī)砸家后續(xù):丈夫降薪,妻子愛美,每月多次海底撈,朋友發(fā)聲

李健政觀察
2026-01-09 17:44:57
玄彬哭紅眼李政宰捧遺像,韓國半個影壇為噎死的老影帝長跪不起

玄彬哭紅眼李政宰捧遺像,韓國半個影壇為噎死的老影帝長跪不起

安寧007
2026-01-09 19:28:49
2025年,這些廣東的大廠停工停產(chǎn)了。。

2025年,這些廣東的大廠停工停產(chǎn)了。。

微微熱評
2026-01-10 00:19:12
沖突升級!美抓捕影子油輪與俄核潛艇大西洋對峙,強(qiáng)行登船扣船

沖突升級!美抓捕影子油輪與俄核潛艇大西洋對峙,強(qiáng)行登船扣船

史政先鋒
2026-01-08 12:50:30
鬧大了!閆學(xué)晶兒子是中戲新疆班,網(wǎng)友呼吁嚴(yán)查,這下她真要哭了

鬧大了!閆學(xué)晶兒子是中戲新疆班,網(wǎng)友呼吁嚴(yán)查,這下她真要哭了

非常先生看娛樂
2026-01-09 17:10:34
伊朗斷網(wǎng)之夜:一場數(shù)字鐵幕下的中東暗戰(zhàn)

伊朗斷網(wǎng)之夜:一場數(shù)字鐵幕下的中東暗戰(zhàn)

民言民語
2026-01-09 09:05:50
成都飛廣州機(jī)票80元?海航回應(yīng):系統(tǒng)故障,售出機(jī)票全部有效

成都飛廣州機(jī)票80元?海航回應(yīng):系統(tǒng)故障,售出機(jī)票全部有效

封面新聞
2026-01-09 16:01:03
給我跪下,你給我跪下!

給我跪下,你給我跪下!

布衣亂彈
2026-01-09 19:32:23
央國企的兩大弊端:領(lǐng)導(dǎo)層載歌載舞底層員工無米下鍋,關(guān)系戶橫行

央國企的兩大弊端:領(lǐng)導(dǎo)層載歌載舞底層員工無米下鍋,關(guān)系戶橫行

黯泉
2026-01-08 23:02:21
彭清華會見伊朗確定國家利益委員會考察團(tuán)

彭清華會見伊朗確定國家利益委員會考察團(tuán)

新華社
2026-01-09 20:27:05
曝灰熊聽取莫蘭特交易報(bào)價!考慮在截止日前送走他 多隊(duì)表達(dá)興趣

曝灰熊聽取莫蘭特交易報(bào)價!考慮在截止日前送走他 多隊(duì)表達(dá)興趣

羅說NBA
2026-01-10 03:22:08
2026-01-10 08:48:49

知危 incentive-icons
知危
投資不立危墻之下
517文章數(shù) 1829關(guān)注度
往期回顧 全部

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

1年奪8冠的30歲健美冠軍猝死 其師父去年死于心臟驟停

頭條要聞

1年奪8冠的30歲健美冠軍猝死 其師父去年死于心臟驟停

體育要聞

金元時代最后的外援,來中國8年了

娛樂要聞

關(guān)曉彤鹿晗風(fēng)波后露面 不受影響狀態(tài)佳

財(cái)經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

助跑三年的奇瑞 接下來是加速還是起跳?

態(tài)度原創(chuàng)

家居
數(shù)碼
本地
公開課
軍事航空

家居要聞

木色留白 演繹現(xiàn)代自由

數(shù)碼要聞

銘凡CES 2026新聞稿提及英特爾酷睿Ultra 9 290HX Plus處理器

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:已開始從委石油資源中賺錢

無障礙瀏覽 進(jìn)入關(guān)懷版