国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek開源的新東西到底強在哪?我?guī)湍阏覍<覇柫藛?/h1>
0
分享至



本周,DeepSeek 新開源的 DeepSeek-OCR 在開源社區(qū)的熱度持續(xù)發(fā)酵。

人們興奮的點是:它不僅是一款新的光學字符識別模型,還更像是一次對 “ 大模型記憶機制 ” 的重新設計。

在 DeepSeek-OCR 的架構中,圖像不再只是文字的載體,而是成為一種語義壓縮的中間語言。文字被渲染成圖像后,經(jīng)由 DeepEncoder 轉換為緊湊的視覺表征;這些視覺 token 既可以通過 DeepSeek 3B-MoE 模型還原為原始文本(這也是標準的 OCR 機制),也可以與其他輸入 token 與 prompt 結合,執(zhí)行問答、摘要、檢索等復雜任務。

通俗來說,就是我們可以把大量文字打包壓縮成一張圖片來節(jié)省空間,等需要使用的時候再解壓出來,甚至在一部分使用場景中,你甚至不需要解壓,直接用壓縮包就可以達成目的。



DeepSeek-OCR 模型架構。圖源:
https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

即便在 10× 壓縮比的條件下,模型的文本還原精度仍可達 97%。隨著大模型逐漸向越來越復雜的場景嵌入,上下文長度資源遠不夠用甚至越來越不夠用,而基座模型在此參數(shù)上升級頗為緩慢的當下,DeepSeek-OCR 的發(fā)布瞬間帶來很大的想象空間。

研究團隊甚至還進一步提出 “ 遺忘機制 ” 的構想,模型可依據(jù)信息的 “ 時序遠近 ”,在視覺壓縮階段主動衰減細節(jié),從而實現(xiàn)一種類人記憶式的上下文管理。

那么,視覺 token 為何能在信息量不損失太多的情況下,比文本 token 少一個數(shù)量級?模型記憶能否完全用視覺邏輯來替代?DeepSeek-OCR 是否為解決大模型上下文長度受限的問題提供了一條現(xiàn)實可行的途徑?DeepSeek-OCR 反映了多模態(tài)大模型的什么發(fā)展趨勢?

帶著這些問題,知危與 Sand.ai 聯(lián)合創(chuàng)始人、首席科學家、《 Swin Transformer 》作者張拯進行了簡單的對話。

知危:

同一段輸入,為什么視覺 token 可以比文本 token 的數(shù)量少得多,有沒有直觀或本質的解釋?

張拯:

有兩種觀點。第一種,視覺是一個 2D 表達,因此可以比 1D 的表達更高效。

第二種,高效的原因不是視覺 v.s. 文本,而是兩邊采用的 token 表達方式不同:做視覺表達的時候,我們是在一個高維的連續(xù)空間中做信息壓縮( 把 image patch 映射為一個高維特征 ),之前 LLM 里常用的 tokenizer( 把文本數(shù)據(jù)向量化的工具,通俗理解是一種把自然語言翻譯為機器能理解的語言的工具 )則實際上可以被認為是在一個一維空間中做壓縮( 把文本映射為 id )。高維連續(xù)空間本來就有更好的表達能力,因此可以用更少的 token 數(shù)量來表達更多信息。其實文本也可以做成連續(xù)表達,來大幅度減少文本 token,但是目前應該沒有被很廣泛地用到 LLM 里。

這兩種觀點,我 buy-in 第二種。

知危:

DeepSeek-OCR 相比過往的 OCR 模型,除了效率提升方面,還有哪些獨創(chuàng)性?

張拯:

我最近沒有特別研究過 OCR 模型的進展,但基于我看過的一些信息,我覺得 DeepSeek-OCR 的技術本身好像并沒有非常特別的部分。但是在觀點上,“ 把視覺作為文本長上下文的壓縮介質 ”,這個 idea 還是很棒的。這個 idea 有路線上的啟發(fā)意義,相較于現(xiàn)在的多模態(tài)模型,DeepSeek-OCR 會使用兩種不同的 tokenizer 機制,這種路線也許會啟發(fā)更好的多模態(tài)模型設計方案。

知危:

這項技術對于基礎模型上下文長度難以擴展的當下,可以帶來多大的成本效益?對上下文工程的優(yōu)化有哪些好處?

張拯:

理論上最多能拿到 N^2 倍的收益,N 是 Vision Token 相較于 Text Token 的壓縮率。對于上下文工程的優(yōu)化,最大的好處應該就是不用那么仔細地管理上下文長度了。

知危:

DeepSeek 設想的遺忘機制是否過于簡化?忽略了語義的重要性排序?

張拯:

這種設想肯定還是很初步的,但是也能腦洞出很多改進的空間,比如語義重要的部分可以渲染成更大的字體?

知危:

Andrej Karpathy 認為視覺 token 有潛力可以完全替代文本 token,因為信息壓縮、多模態(tài)、可雙向注意力處理、無需 tokenizer 等優(yōu)勢,您怎么看?

張拯:

大部分都同意,但是 “ 可雙向注意力處理 ” 這里有待探討,“ 可雙向注意力處理 ” 很大程度上和 training objective( 訓練目標 )有關。

另外,如果后面都是處理視覺 token 了,是不是有機會讓模型能在一個 2D 的空間里做思考?從而帶來更高效的推理( 類似 GPT-4o 的 thinking with image )?這個我覺得還是挺有意思的。

知危:近期 Meta 也提出了一個無需 tokenizer 的模型架構 Byte Latent Transformer ,可以跳過 tokenization ,直接學習原始字節(jié)流。結合以上討論和領域現(xiàn)狀,您認為這體現(xiàn)了多模態(tài)大模型的哪些發(fā)展趨勢?

張拯:

宏觀一點來看,不同模態(tài)模型的范式還是有機會持續(xù)進化的。

更細節(jié)一點的話,我初步想到的有兩個:

  • 現(xiàn)在的多模態(tài)大模型的主流做法基本上可以認為在捏合各種不同的模態(tài)的模塊,整個訓練 pipeline 其實還是有點復雜( 不優(yōu)雅 )的。大家肯定希望有更簡單、更統(tǒng)一的方式來處理。類似 DeepSeek-OCR 這樣的工作對我們開發(fā)更好的多模態(tài)模型范式還是挺有啟發(fā)的。
  • 離散表達和連續(xù)表達之間的關系,以及是否有更好的組合方式,可能也挺重要的。

( 對話全文完 )

總體來看,DeepSeek-OCR 更多是基于效率上的大幅提升啟發(fā)了一個新的路線。

當模型的 “ 思考空間 ” 從一維文本拓展至二維視覺,思考和推理也可能變得更加高效和簡潔。而在技術層面,則指向當前多模態(tài)大模型領域正等待一把 “ 奧卡姆剃刀 ” 簡化模型范式的時刻。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗宣布斬首以色列空軍司令,摧毀法國海軍基地!

伊朗宣布斬首以色列空軍司令,摧毀法國海軍基地!

勝研集
2026-03-02 00:05:34
NBA中國官網(wǎng):楊瀚森最近有個“不成文義務”,給傷員當“陪練”

NBA中國官網(wǎng):楊瀚森最近有個“不成文義務”,給傷員當“陪練”

懂球帝
2026-03-02 15:23:08
任意球世界波!梅西70球追平貝利,2射1傳獲9.5分,5數(shù)據(jù)居首

任意球世界波!梅西70球追平貝利,2射1傳獲9.5分,5數(shù)據(jù)居首

奧拜爾
2026-03-02 10:28:16
重磅消息:數(shù)架美國戰(zhàn)機墜毀!

重磅消息:數(shù)架美國戰(zhàn)機墜毀!

占豪
2026-03-02 17:32:13
大量食用油被檢測出致癌物!自查廚房是否有這3種油,可別再吃了

大量食用油被檢測出致癌物!自查廚房是否有這3種油,可別再吃了

讀懂世界歷史
2026-03-01 18:09:06
官宣!17歲新星前鋒,獲中國足球金童獎,U17亞預賽狂轟5場9球

官宣!17歲新星前鋒,獲中國足球金童獎,U17亞預賽狂轟5場9球

小金體壇大視野
2026-03-02 17:08:27
又有兩國參戰(zhàn)中東!關鍵時刻,美媒曝出消息:沙特把中國也騙了?

又有兩國參戰(zhàn)中東!關鍵時刻,美媒曝出消息:沙特把中國也騙了?

讓心靈得以棲息
2026-03-02 17:31:20
美軍瞞不住了!炸航母基地,炸11億美元雷達,幾十萬噸燃油被點燃

美軍瞞不住了!炸航母基地,炸11億美元雷達,幾十萬噸燃油被點燃

夢史
2026-03-01 11:22:23
美國防部將就針對伊朗的軍事行動召開新聞發(fā)布會

美國防部將就針對伊朗的軍事行動召開新聞發(fā)布會

界面新聞
2026-03-02 10:30:00
NBA排名大亂!火箭第3,湖人掉第6;騎士坐4望3,黃蜂沖前7

NBA排名大亂!火箭第3,湖人掉第6;騎士坐4望3,黃蜂沖前7

麥子的籃球故事
2026-03-02 18:25:41
彈跳驚人,謝什科慶祝時跳得太高在鏡頭前出畫了

彈跳驚人,謝什科慶祝時跳得太高在鏡頭前出畫了

懂球帝
2026-03-02 01:05:13
日本玩大了!P-3C首闖臺島咽喉,解放軍當場翻臉,全程貼臉硬剛!

日本玩大了!P-3C首闖臺島咽喉,解放軍當場翻臉,全程貼臉硬剛!

古史青云啊
2026-03-02 10:36:50
從設計院到包子店:一位45歲建筑師靠“打零工”重啟人生

從設計院到包子店:一位45歲建筑師靠“打零工”重啟人生

北青深一度
2026-02-28 16:09:26
300萬在上海買得了什么樣的房?

300萬在上海買得了什么樣的房?

真叫盧俊
2026-03-02 10:14:16
臨死之前,哈梅內伊做對了此生最后一件事!讓特朗普無法如愿以償

臨死之前,哈梅內伊做對了此生最后一件事!讓特朗普無法如愿以償

青煙小先生
2026-03-02 11:03:39
真相大白!王曼昱丟冠原因曝光,是打不過莎莎嗎?張繼科早有預言

真相大白!王曼昱丟冠原因曝光,是打不過莎莎嗎?張繼科早有預言

曹說體育
2026-03-01 22:16:15
美國媒體:因芯片含有中國稀土,臺積電無法向美國供應半導體芯片

美國媒體:因芯片含有中國稀土,臺積電無法向美國供應半導體芯片

Thurman在昆明
2026-03-02 01:17:58
上海富人家保姆狂偷戶主奢侈品,監(jiān)控流出評論區(qū)嚇傻了

上海富人家保姆狂偷戶主奢侈品,監(jiān)控流出評論區(qū)嚇傻了

不二表姐
2026-02-24 22:17:15
美國警方承認谷愛凌曾遭毆打,手臂抓傷嚴重,未來人身安全存隱患

美國警方承認谷愛凌曾遭毆打,手臂抓傷嚴重,未來人身安全存隱患

削桐作琴
2026-03-01 14:27:41
CME:紐約商交所原油期貨開盤時觸發(fā)熔斷機制

CME:紐約商交所原油期貨開盤時觸發(fā)熔斷機制

每日經(jīng)濟新聞
2026-03-02 09:27:05
2026-03-02 18:43:00

知危 incentive-icons
知危
投資不立危墻之下
540文章數(shù) 1833關注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

伊朗曾組建反間諜機構 結果最后發(fā)現(xiàn)負責人就是以間諜

頭條要聞

伊朗曾組建反間諜機構 結果最后發(fā)現(xiàn)負責人就是以間諜

體育要聞

“想要我簽名嗎” 梅西逆轉后嘲諷對手主帥

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財經(jīng)要聞

金銀大漲 市場仍在評估沖突會否長期化

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

親子
教育
游戲
本地
公開課

親子要聞

阿寶和藏區(qū)老二居然就差一天的生日時間,今天我們給他們過生日哦

教育要聞

250都會的解方程,你不會?

騰訊又要養(yǎng)蠱?《雪中悍刀行》IP新游過審!盤點2026年2月版號

本地新聞

津南好·四時總相宜

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版