網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek與智譜同日出手，將語(yǔ)言壓縮成視覺(jué)是下一個(gè)擴(kuò)展方向

2025-10-21 23:59:04　來(lái)源: 未盡研究

上海舉報(bào)

分享至

就在硅谷還在為大模型像不像松鼠爭(zhēng)論不休時(shí)，來(lái)自中國(guó)的DeepSeek與智譜，只干不說(shuō)，幾乎同時(shí)拋出了自己如何教會(huì)大模型，像人類(lèi)一樣“看懂”文本的模型與論文。

“松鼠”是強(qiáng)化學(xué)習(xí)之父薩頓對(duì)大模型是否具備真實(shí)的感知與理解能力的隱喻。讓大模型“看懂文本”，已經(jīng)有點(diǎn)類(lèi)似意味了。人類(lèi)感知與理解世界，一條重要的路徑，就是通過(guò)大腦視覺(jué)皮層處理通過(guò)眼睛傳遞進(jìn)來(lái)的視覺(jué)信號(hào)。

無(wú)論是DeepSeek還是智譜的方案，核心都在于用少量的視覺(jué)token，表達(dá)原本需要大量文本token才能覆蓋的信息。前者提出了DeepSeek-OCR模型，概念核心是“上下文光學(xué)壓縮”（Context Optical Compression）；后者的Glyph框架，則以“視覺(jué)–文本壓縮”（Visual–Text Compression）為中心思想。

兩者都在重新審視“視覺(jué)模型”在自然語(yǔ)言壓縮與解壓映射中的角色，讓傳統(tǒng)的OCR(光學(xué)字符識(shí)別)不再只是識(shí)別文字的工具，而成為連接大型語(yǔ)言模型（LLM）與視覺(jué)語(yǔ)言模型（VLM）之間的關(guān)鍵中間模態(tài)。

這顯著提高了信息密度與計(jì)算效率。如果能順利將壓縮成圖像的文本信息重新解碼出來(lái)，就能大幅降低內(nèi)存與算力成本。參數(shù)規(guī)模僅為3B的DeepSeek-OCR，在文本token數(shù)量不超過(guò)視覺(jué)token數(shù)量的10倍（即壓縮比<10）時(shí)，仍可實(shí)現(xiàn)不低于97%的解碼精度；智譜的Glyph框架則實(shí)現(xiàn)了3至4倍的上下文壓縮，同時(shí)保持與同規(guī)模領(lǐng)先語(yǔ)言模型（如Qwen3-8B）相當(dāng)?shù)男阅堋?/p>

具體而言，DeepSeek-OCR是一個(gè)全新的端到端統(tǒng)一架構(gòu)，由兩個(gè)核心組件構(gòu)成：負(fù)責(zé)將圖像轉(zhuǎn)換為高度壓縮視覺(jué) token的編碼器DeepEncoder，以及從這些視覺(jué)token中重建文字的解碼器DeepSeek-3B-MoE-A570M。其設(shè)計(jì)目標(biāo)是在保持高分辨率輸入的同時(shí)，生成盡可能少的視覺(jué)token，將激活內(nèi)存消耗控制在較低水平。相比之下，現(xiàn)有的三類(lèi)主流視覺(jué)語(yǔ)言模型（各自以Vary、InternVL2.0與Qwen2-VL為代表）都無(wú)法一一滿足上述要求。

模型首先利用僅包含“窗口注意力”機(jī)制的SAM-base（約8000萬(wàn)參數(shù)），在高分辨率圖像上執(zhí)行細(xì)粒度的局部特征提取，生成約4096個(gè)token；隨后通過(guò)一個(gè)16倍卷積壓縮器，將這些局部特征進(jìn)一步降維至256個(gè)token；最后引入具備“全局注意力”機(jī)制的CLIP-large（約3億參數(shù)），在低分辨率語(yǔ)義空間中整合全局信息。整個(gè)編碼過(guò)程完成后，解碼器DeepSeek-3B-MoE負(fù)責(zé)順序重建上下文，精確復(fù)述。

值得注意的是，同一個(gè)模型可以根據(jù)任務(wù)需求靈活調(diào)整其“壓縮強(qiáng)度”。為此，DeepSeek人為設(shè)定了四種原生分辨率（Native Resolutions），用于平衡精度與計(jì)算效率。最低精度的Tiny模式使用約64個(gè)token來(lái)表示一張512×512的圖像；最高精度的Large模式則需要約400個(gè)token來(lái)表示1280×1280的圖像。此外，團(tuán)隊(duì)還設(shè)計(jì)了一種 “高達(dá)模式”（Gundam Mode），由兩種原生分辨率組合而成，用于特定的超高分辨率應(yīng)用場(chǎng)景。

智譜的Glyph框架也是類(lèi)似的思路，但在策略上有所不同。它的整個(gè)訓(xùn)練流程分為三個(gè)緊密耦合的階段：持續(xù)預(yù)訓(xùn)練、渲染搜索與后期的監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)。所謂大型語(yǔ)言模型驅(qū)動(dòng)的渲染搜索機(jī)制（LLM-driven Rendering Search），就是不再依賴(lài)人工設(shè)計(jì)，而是利用遺傳算法(Genetic Algorithm)，讓系統(tǒng)在不斷的進(jìn)化迭代中，自動(dòng)發(fā)現(xiàn)最優(yōu)渲染配置，實(shí)現(xiàn)壓縮率與視覺(jué)清晰度之間的動(dòng)態(tài)平衡。

在硅谷大神卡帕西（Andrej Karpathy）看來(lái)，也許DeepSeek-OCR算不上最好的OCR工具，但這并不重要。他提到了dots，也許指的是同為中國(guó)團(tuán)隊(duì)小紅書(shū)發(fā)布的開(kāi)源工具dots.ocr，它的文檔解析準(zhǔn)確率接近100%。對(duì)于DeepSeek-OCR來(lái)說(shuō)，重要的是，它是否揭示了大模型研發(fā)的新路徑：像素是否比文本更適合大型語(yǔ)言模型的輸入。

這種方式對(duì)信息的壓縮更高效，信息流也更為通用，可以包括不同的空間語(yǔ)義與異構(gòu)符號(hào)體系，比如粗體文本與彩色文本，以及化學(xué)符號(hào)等等。卡帕西還認(rèn)為，它能夠輕松使用雙向注意力機(jī)制，并最終讓模型擺脫那套“糟糕的、割裂的”分詞體系。傳統(tǒng)的自回歸語(yǔ)言建模是單向的，而分詞器（tokenizer）則阻礙了模型走向端到端的統(tǒng)一表示。

也許文本并非信息的最佳載體，像素才是更高效、更統(tǒng)一的輸入形式。自稱(chēng)“骨子里的計(jì)算機(jī)視覺(jué)研究者”的卡帕西，甚至更激進(jìn)地認(rèn)為，所有向大型語(yǔ)言模型的輸入，都應(yīng)該先被渲染成圖像。同樣來(lái)自視覺(jué)領(lǐng)域、提出了擴(kuò)散Transformer（DiT）的謝賽寧，也給予了DeepSeek高度評(píng)價(jià)。

讓大模型像生物一樣“看懂”文本，不是DeepSeek與智譜的突發(fā)奇想。幾年前，學(xué)界就提出過(guò)“基于像素的語(yǔ)言建模”（Language Modelling with Pixels）的設(shè)想。

但是，中國(guó)的開(kāi)源模型團(tuán)隊(duì)率先將它工程化與實(shí)用化。也許，這樣的團(tuán)隊(duì)不只是DeepSeek或智譜。DeepSeek-OCR核心作者Haoran Wei，此前在以多模態(tài)模型見(jiàn)長(zhǎng)的階躍星辰，就已經(jīng)和他的同事們，嘗試過(guò)對(duì)“通用OCR理論”（General OCR Theory）的初步探索。

全球都缺算力，中國(guó)尤其如此。同時(shí)，隨著多智能體協(xié)同的逐步到來(lái)，上下文將越來(lái)越長(zhǎng)，如何合理與高效的記憶與遺忘，是大模型研究的前沿課題。以往，中國(guó)團(tuán)隊(duì)的努力主要集中在對(duì)傳統(tǒng)注意力機(jī)制的優(yōu)化，試圖引入稀疏或線性注意力，降低計(jì)算復(fù)雜度。這一次，它們終于越過(guò)了文本token的表示瓶頸。

DeepSeek還有更大的野心。它的DeepSeek-OCR不僅關(guān)乎“看懂”，還關(guān)乎“記憶”與“遺忘”。

當(dāng)我們回憶一本讀過(guò)的書(shū)時(shí)，往往會(huì)依靠視覺(jué)印象來(lái)定位記憶：時(shí)間越近的內(nèi)容，在腦海中的“分辨率”越高；而那些久遠(yuǎn)的記憶，則會(huì)被逐漸“壓縮”為關(guān)鍵信息，成為再次檢索時(shí)的視覺(jué)錨點(diǎn)。DeepSeek-OCR的不同分辨率的設(shè)計(jì)，正好契合了這一思路。也許，它可以通過(guò)逐級(jí)壓縮信息，直至邊際遺忘，或內(nèi)化為更深層的表征。

“記憶”與“遺忘”，意味著更高效的計(jì)算、通信與儲(chǔ)存，對(duì)于智能體完成多輪對(duì)話的長(zhǎng)程任務(wù)，甚至未來(lái)大模型自進(jìn)化，都至關(guān)重要。如果說(shuō)，現(xiàn)在的大模型更像卡帕西所說(shuō)的“幽靈”而不是“松鼠”，也正是缺少感知與理解、記憶與遺忘的關(guān)鍵循環(huán)。

在論文的最后，DeepSeek團(tuán)隊(duì)致辭說(shuō)，這一思路“為構(gòu)建一種理論上無(wú)限上下文長(zhǎng)度的模型架構(gòu)(unlimited context architectures)提供了新的可能”，是一個(gè)很有前景的新方向；智譜團(tuán)隊(duì)致辭說(shuō)，這是一種很有前景的“擴(kuò)展長(zhǎng)上下文大模型（scaling long-context LLMs）”的新范式，在深度方面仍有很大的探索空間。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.