国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

<samp id="sqwko"><kbd id="sqwko"></kbd></samp>

<table id="sqwko"><dl id="sqwko"></dl></table>

<samp id="sqwko"></samp>

<blockquote id="xodzc"><tfoot id="xodzc"></tfoot></blockquote>

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴選
郵箱大師
網(wǎng)易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網(wǎng)易官方手機郵箱應用

移動端
網(wǎng)易公開課
網(wǎng)易嚴選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

DeepSeek開源的新東西到底強在哪？我?guī)湍阏覍＜覇柫藛?/h1>
2025-10-23 18:40:30　來源: 知危浙江舉報

0

分享至

用微信掃碼二維碼

分享至好友和朋友圈

本周，DeepSeek 新開源的 DeepSeek-OCR 在開源社區(qū)的熱度持續(xù)發(fā)酵。
人們興奮的點是：它不僅是一款新的光學字符識別模型，還更像是一次對 “ 大模型記憶機制 ” 的重新設計。
在 DeepSeek-OCR 的架構中，圖像不再只是文字的載體，而是成為一種語義壓縮的中間語言。文字被渲染成圖像后，經(jīng)由 DeepEncoder 轉換為緊湊的視覺表征；這些視覺 token 既可以通過 DeepSeek 3B-MoE 模型還原為原始文本（這也是標準的 OCR 機制），也可以與其他輸入 token 與 prompt 結合，執(zhí)行問答、摘要、檢索等復雜任務。
通俗來說，就是我們可以把大量文字打包壓縮成一張圖片來節(jié)省空間，等需要使用的時候再解壓出來，甚至在一部分使用場景中，你甚至不需要解壓，直接用壓縮包就可以達成目的。

DeepSeek-OCR 模型架構。圖源：
https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
即便在 10× 壓縮比的條件下，模型的文本還原精度仍可達 97%。隨著大模型逐漸向越來越復雜的場景嵌入，上下文長度資源遠不夠用甚至越來越不夠用，而基座模型在此參數(shù)上升級頗為緩慢的當下，DeepSeek-OCR 的發(fā)布瞬間帶來很大的想象空間。
研究團隊甚至還進一步提出 “ 遺忘機制 ” 的構想，模型可依據(jù)信息的 “ 時序遠近 ”，在視覺壓縮階段主動衰減細節(jié)，從而實現(xiàn)一種類人記憶式的上下文管理。
那么，視覺 token 為何能在信息量不損失太多的情況下，比文本 token 少一個數(shù)量級？模型記憶能否完全用視覺邏輯來替代？DeepSeek-OCR 是否為解決大模型上下文長度受限的問題提供了一條現(xiàn)實可行的途徑？DeepSeek-OCR 反映了多模態(tài)大模型的什么發(fā)展趨勢？
帶著這些問題，知危與 Sand.ai 聯(lián)合創(chuàng)始人、首席科學家、《 Swin Transformer 》作者張拯進行了簡單的對話。
知危：
同一段輸入，為什么視覺 token 可以比文本 token 的數(shù)量少得多，有沒有直觀或本質的解釋？
張拯：
有兩種觀點。第一種，視覺是一個 2D 表達，因此可以比 1D 的表達更高效。
第二種，高效的原因不是視覺 v.s. 文本，而是兩邊采用的 token 表達方式不同：做視覺表達的時候，我們是在一個高維的連續(xù)空間中做信息壓縮（把 image patch 映射為一個高維特征），之前 LLM 里常用的 tokenizer（把文本數(shù)據(jù)向量化的工具，通俗理解是一種把自然語言翻譯為機器能理解的語言的工具）則實際上可以被認為是在一個一維空間中做壓縮（把文本映射為 id ）。高維連續(xù)空間本來就有更好的表達能力，因此可以用更少的 token 數(shù)量來表達更多信息。其實文本也可以做成連續(xù)表達，來大幅度減少文本 token，但是目前應該沒有被很廣泛地用到 LLM 里。
這兩種觀點，我 buy-in 第二種。
知危：
DeepSeek-OCR 相比過往的 OCR 模型，除了效率提升方面，還有哪些獨創(chuàng)性？
張拯：
我最近沒有特別研究過 OCR 模型的進展，但基于我看過的一些信息，我覺得 DeepSeek-OCR 的技術本身好像并沒有非常特別的部分。但是在觀點上，“ 把視覺作為文本長上下文的壓縮介質 ”，這個 idea 還是很棒的。這個 idea 有路線上的啟發(fā)意義，相較于現(xiàn)在的多模態(tài)模型，DeepSeek-OCR 會使用兩種不同的 tokenizer 機制，這種路線也許會啟發(fā)更好的多模態(tài)模型設計方案。
知危：
這項技術對于基礎模型上下文長度難以擴展的當下，可以帶來多大的成本效益？對上下文工程的優(yōu)化有哪些好處？
張拯：
理論上最多能拿到 N^2 倍的收益，N 是 Vision Token 相較于 Text Token 的壓縮率。對于上下文工程的優(yōu)化，最大的好處應該就是不用那么仔細地管理上下文長度了。
知危：
DeepSeek 設想的遺忘機制是否過于簡化？忽略了語義的重要性排序？
張拯：
這種設想肯定還是很初步的，但是也能腦洞出很多改進的空間，比如語義重要的部分可以渲染成更大的字體？
知危：
Andrej Karpathy 認為視覺 token 有潛力可以完全替代文本 token，因為信息壓縮、多模態(tài)、可雙向注意力處理、無需 tokenizer 等優(yōu)勢，您怎么看？
張拯：
大部分都同意，但是 “ 可雙向注意力處理 ” 這里有待探討，“ 可雙向注意力處理 ” 很大程度上和 training objective（訓練目標）有關。
另外，如果后面都是處理視覺 token 了，是不是有機會讓模型能在一個 2D 的空間里做思考？從而帶來更高效的推理（類似 GPT-4o 的 thinking with image ）？這個我覺得還是挺有意思的。
知危：近期 Meta 也提出了一個無需 tokenizer 的模型架構 Byte Latent Transformer ，可以跳過 tokenization ，直接學習原始字節(jié)流。結合以上討論和領域現(xiàn)狀，您認為這體現(xiàn)了多模態(tài)大模型的哪些發(fā)展趨勢？
張拯：
宏觀一點來看，不同模態(tài)模型的范式還是有機會持續(xù)進化的。
更細節(jié)一點的話，我初步想到的有兩個：
現(xiàn)在的多模態(tài)大模型的主流做法基本上可以認為在捏合各種不同的模態(tài)的模塊，整個訓練 pipeline 其實還是有點復雜（不優(yōu)雅）的。大家肯定希望有更簡單、更統(tǒng)一的方式來處理。類似 DeepSeek-OCR 這樣的工作對我們開發(fā)更好的多模態(tài)模型范式還是挺有啟發(fā)的。
離散表達和連續(xù)表達之間的關系，以及是否有更好的組合方式，可能也挺重要的。
（對話全文完）
總體來看，DeepSeek-OCR 更多是基于效率上的大幅提升啟發(fā)了一個新的路線。
當模型的 “ 思考空間 ” 從一維文本拓展至二維視覺，思考和推理也可能變得更加高效和簡潔。而在技術層面，則指向當前多模態(tài)大模型領域正等待一把 “ 奧卡姆剃刀 ” 簡化模型范式的時刻。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁 下載網(wǎng)易新聞客戶端

相關推薦

熱點推薦

VFMTok: Visual Foundation Models驅動的Tokenizer時代來臨

機器之心Pro 2025-10-28 18:00:47
1 跟貼 1

編程已死，鍵盤長草！Claude Code之父對談Kaparthy，全程爆金句

新智元 2026-02-04 11:41:01
66 跟貼 66

性能真的不重要了嗎？Jeff Dean給出反常答案

新智元 2025-12-28 17:20:51
0 跟貼 0

支持遠程操控和通用GUI操作，開源版桌面虛擬同事Open Cowork來

機器之心Pro 2026-03-02 14:16:59
0 跟貼 0

OpenClaw最佳工具榜來了！這6款龍蝦最受歡迎

量子位 2026-03-02 18:07:33
0 跟貼 0

FOCUS 關鍵幀提?。洪L視頻理解能力提升11.9%，只需采樣<2% 幀

機器之心Pro 2026-02-28 14:36:23
0 跟貼 0

CL-Bench的故事沒有結束，生成式CL-Bench：GENIUS來了

機器之心Pro 2026-03-02 17:46:26
0 跟貼 0

上交大和輝羲把LLM刻進ROM！推理性能沖2萬token/s，GPU時代終結？

新智元 2026-03-02 17:08:30
0 跟貼 0

GPT-5.4據(jù)傳下周上線！200萬上下文窗口+持久化狀態(tài)，告別頻繁遺忘

新智元 2026-03-02 12:34:52
1 跟貼 1

Claude祭出「記憶搬家」，60秒搬空ChatGPT靈魂！70萬用戶退訂OpenAI

新智元 2026-03-02 12:35:56
1 跟貼 1

1000 塊/年的輸入法，我用它習慣了「口噴」，再也回不去打字了 | AI 器物志

愛范兒 2026-02-21 18:39:19
6 跟貼 6

站在花雞坡上，就能俯瞰三峽大壩全景的最佳免費觀景臺網(wǎng)友：這視覺效果簡直了

營天下 2026-02-26 18:27:11
259 跟貼 259

白車行駛時突然旁邊的衣架倒了，“最后衣服主人還來找車主理論”，網(wǎng)友：還好有視頻不然都說不清楚

童話鶴壁 2026-03-02 12:47:46
0 跟貼 0

OpenAI要跳過5.3，直接邁向GPT-5.4了？

機器之心Pro 2026-03-02 11:24:04
2 跟貼 2

Cursor：AI編程「第三時代」來了

機器之心Pro 2026-03-02 17:07:37
0 跟貼 0

熱錢追逐，具身智能要先過異構計算這一關丨ToB產(chǎn)業(yè)觀察

鈦媒體APP 2026-03-02 13:18:09
0 跟貼 0

Seedance2.0從“地表最強”變“排隊最長”，記者實測：基礎會員要排10小時

每日經(jīng)濟新聞 2026-03-01 18:05:05
0 跟貼 0

誰在決定AI手機的未來：模型、系統(tǒng)，還是生態(tài)？

DeepTech深科技 2026-01-13 16:16:47
0 跟貼 0

一周資訊 | DeepSeek將發(fā)布最新大模型V4；小米雙門超跑概念車首發(fā)亮相，這些大事幫你總結！

《中國廣告》 2026-03-02 13:17:17
3 跟貼 3

MIT新方法讓兩顆芯片共享唯一“指紋”，重寫硬件安全規(guī)則

DeepTech深科技 2026-02-25 17:32:10
13 跟貼 13

用楊楠視覺打開何賽飛意外懷孕真相，張國榮一句話，成轉折的關鍵

迪迪娛廳 2026-02-27 14:26:56
3 跟貼 3

極氪公布春節(jié)十大獵裝旅行路線，揭秘深度自駕游版圖

魯中晨報 2026-02-26 12:29:41
15583 跟貼 15583

4個月燒掉30億Token，這位「菜鳥」程序員做出50多個產(chǎn)品

機器之心Pro 2026-01-04 14:53:09
88 跟貼 88

撕開 6G 演進的底牌，MWC 2026 ：算力奪權、頻譜極限與開源暗戰(zhàn)

鈦媒體APP 2026-03-02 16:49:07
1 跟貼 1

網(wǎng)友分享自己設計的創(chuàng)意美術字體，網(wǎng)友：每個都不重樣，最強大腦

重慶觀天下 2026-02-28 14:01:37
0 跟貼 0

美媒：白宮下令暫緩推進對臺軍售

環(huán)球網(wǎng)資訊 2026-03-02 06:27:47
110 跟貼 110

寧波一旅游團所乘郵輪滯留迪拜，船上有約200名中國游客

上觀新聞 2026-03-02 16:05:11
10 跟貼 10

瓷藝的巔峰狂想，視覺與心靈盛宴，天津自駕游（二）

天涯筆談 2026-02-26 13:12:48
6 跟貼 6

大模型告別技術奇觀：日活飆升背后，如何幫用戶玩轉AI？

經(jīng)濟觀察報 2026-03-02 13:00:36
0 跟貼 0

范式躍遷:LLM+EC重構算法設計范式,華為&港城大奪冠CVRP頂級賽事

機器之心Pro 2026-03-02 16:13:58
0 跟貼 0

惹不起就躲，這套理論太實用了

半夏微涼qvq 2026-02-28 00:50:18
4 跟貼 4

天津凌晨發(fā)暴雪預警！降雪持續(xù)！

瀟湘晨報 2026-03-02 10:05:14
44 跟貼 44

20萬以內買油車還是電車，啥都不用看，只說一點邏輯你就懂了

領笑之家 2026-02-27 16:54:58
15 跟貼 15

DPO「只看總分不看細節(jié)」？TI-DPO用Token重要性重塑大模型對齊

機器之心Pro 2026-02-11 13:45:57
0 跟貼 0

從匹配困境到推理突破：阿里REG4Rec 激活生成式推薦的個性化潛力

機器之心Pro 2026-03-02 16:10:32
0 跟貼 0

年前100多元一斤，年后價格腰斬！有湖北人已迫不及待下單

環(huán)球網(wǎng)資訊 2026-02-27 09:52:19
526 跟貼 526

男子爬到何仙姑雕像頭頂拍照，山東蓬萊閣景區(qū)回應：“八仙過?！笔駥儆诠矃^(qū)域無人值守，后續(xù)會加強巡邏

三湘都市報 2026-02-28 13:37:39
1148 跟貼 1148

山東省濟南市政府黨組成員、副市長謝堃接受紀律審查和監(jiān)察調查

中央紀委國家監(jiān)委網(wǎng)站 2026-03-02 10:06:45
2 跟貼 2

渦輪風扇發(fā)動機模型套件(1)

制造科技 2026-02-27 19:30:03
0 跟貼 0

新華時評：當炸彈落在校園，文明底線何在

澎湃新聞 2026-03-01 22:32:48
1916 跟貼 1916

伊朗宣布斬首以色列空軍司令，摧毀法國海軍基地！
勝研集
2026-03-02 00:05:34

NBA中國官網(wǎng)：楊瀚森最近有個“不成文義務”，給傷員當“陪練”
懂球帝
2026-03-02 15:23:08

任意球世界波！梅西70球追平貝利，2射1傳獲9.5分，5數(shù)據(jù)居首
奧拜爾
2026-03-02 10:28:16

重磅消息：數(shù)架美國戰(zhàn)機墜毀！
占豪
2026-03-02 17:32:13

大量食用油被檢測出致癌物！自查廚房是否有這3種油，可別再吃了
讀懂世界歷史
2026-03-01 18:09:06

官宣！17歲新星前鋒，獲中國足球金童獎，U17亞預賽狂轟5場9球
小金體壇大視野
2026-03-02 17:08:27

又有兩國參戰(zhàn)中東！關鍵時刻，美媒曝出消息：沙特把中國也騙了？
讓心靈得以棲息
2026-03-02 17:31:20

美軍瞞不住了！炸航母基地，炸11億美元雷達，幾十萬噸燃油被點燃
夢史
2026-03-01 11:22:23

美國防部將就針對伊朗的軍事行動召開新聞發(fā)布會
界面新聞
2026-03-02 10:30:00

NBA排名大亂！火箭第3，湖人掉第6；騎士坐4望3，黃蜂沖前7
麥子的籃球故事
2026-03-02 18:25:41

彈跳驚人，謝什科慶祝時跳得太高在鏡頭前出畫了
懂球帝
2026-03-02 01:05:13

日本玩大了！P-3C首闖臺島咽喉，解放軍當場翻臉，全程貼臉硬剛！
古史青云啊
2026-03-02 10:36:50

從設計院到包子店：一位45歲建筑師靠“打零工”重啟人生
北青深一度
2026-02-28 16:09:26

300萬在上海買得了什么樣的房？
真叫盧俊
2026-03-02 10:14:16

臨死之前，哈梅內伊做對了此生最后一件事！讓特朗普無法如愿以償
青煙小先生
2026-03-02 11:03:39

真相大白！王曼昱丟冠原因曝光，是打不過莎莎嗎？張繼科早有預言
曹說體育
2026-03-01 22:16:15

美國媒體：因芯片含有中國稀土，臺積電無法向美國供應半導體芯片
Thurman在昆明
2026-03-02 01:17:58

上海富人家保姆狂偷戶主奢侈品，監(jiān)控流出評論區(qū)嚇傻了
不二表姐
2026-02-24 22:17:15

美國警方承認谷愛凌曾遭毆打，手臂抓傷嚴重，未來人身安全存隱患
削桐作琴
2026-03-01 14:27:41

CME：紐約商交所原油期貨開盤時觸發(fā)熔斷機制
每日經(jīng)濟新聞
2026-03-02 09:27:05

2026-03-02 18:43:00

投資不立危墻之下

540文章數(shù) 1833關注度

往期回顧全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

伊朗曾組建反間諜機構結果最后發(fā)現(xiàn)負責人就是以間諜

頭條要聞

伊朗曾組建反間諜機構結果最后發(fā)現(xiàn)負責人就是以間諜

體育要聞

“想要我簽名嗎” 梅西逆轉后嘲諷對手主帥

娛樂要聞

美伊以沖突爆發(fā)，多位明星被困中東

財經(jīng)要聞

金銀大漲市場仍在評估沖突會否長期化

汽車要聞

國民SUV再添一員瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

教育

游戲

本地

公開課

親子要聞

阿寶和藏區(qū)老二居然就差一天的生日時間，今天我們給他們過生日哦

教育要聞

250都會的解方程，你不會？

騰訊又要養(yǎng)蠱？《雪中悍刀行》IP新游過審！盤點2026年2月版號

本地新聞

津南好·四時總相宜

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產(chǎn)30天

© 1997-2026 網(wǎng)易公司版權所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<span id="wochk"></span>