国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek與智譜同日出手,將語(yǔ)言壓縮成視覺(jué)是下一個(gè)擴(kuò)展方向

0
分享至

就在硅谷還在為大模型像不像松鼠爭(zhēng)論不休時(shí),來(lái)自中國(guó)的DeepSeek與智譜,只干不說(shuō),幾乎同時(shí)拋出了自己如何教會(huì)大模型,像人類(lèi)一樣“看懂”文本的模型與論文。

“松鼠”是強(qiáng)化學(xué)習(xí)之父薩頓對(duì)大模型是否具備真實(shí)的感知與理解能力的隱喻。讓大模型“看懂文本”,已經(jīng)有點(diǎn)類(lèi)似意味了。人類(lèi)感知與理解世界,一條重要的路徑,就是通過(guò)大腦視覺(jué)皮層處理通過(guò)眼睛傳遞進(jìn)來(lái)的視覺(jué)信號(hào)。

無(wú)論是DeepSeek還是智譜的方案,核心都在于用少量的視覺(jué)token,表達(dá)原本需要大量文本token才能覆蓋的信息。前者提出了DeepSeek-OCR模型,概念核心是“上下文光學(xué)壓縮”(Context Optical Compression);后者的Glyph框架,則以“視覺(jué)–文本壓縮”(Visual–Text Compression)為中心思想。

兩者都在重新審視“視覺(jué)模型”在自然語(yǔ)言壓縮與解壓映射中的角色,讓傳統(tǒng)的OCR(光學(xué)字符識(shí)別)不再只是識(shí)別文字的工具,而成為連接大型語(yǔ)言模型(LLM)與視覺(jué)語(yǔ)言模型(VLM)之間的關(guān)鍵中間模態(tài)。

這顯著提高了信息密度與計(jì)算效率。如果能順利將壓縮成圖像的文本信息重新解碼出來(lái),就能大幅降低內(nèi)存與算力成本。參數(shù)規(guī)模僅為3B的DeepSeek-OCR,在文本token數(shù)量不超過(guò)視覺(jué)token數(shù)量的10倍(即壓縮比<10)時(shí),仍可實(shí)現(xiàn)不低于97%的解碼精度;智譜的Glyph框架則實(shí)現(xiàn)了3至4倍的上下文壓縮,同時(shí)保持與同規(guī)模領(lǐng)先語(yǔ)言模型(如Qwen3-8B)相當(dāng)?shù)男阅堋?/p>

具體而言,DeepSeek-OCR是一個(gè)全新的端到端統(tǒng)一架構(gòu),由兩個(gè)核心組件構(gòu)成:負(fù)責(zé)將圖像轉(zhuǎn)換為高度壓縮視覺(jué) token的編碼器DeepEncoder,以及從這些視覺(jué)token中重建文字的解碼器DeepSeek-3B-MoE-A570M。其設(shè)計(jì)目標(biāo)是在保持高分辨率輸入的同時(shí),生成盡可能少的視覺(jué)token,將激活內(nèi)存消耗控制在較低水平。相比之下,現(xiàn)有的三類(lèi)主流視覺(jué)語(yǔ)言模型(各自以Vary、InternVL2.0與Qwen2-VL為代表)都無(wú)法一一滿足上述要求。


模型首先利用僅包含“窗口注意力”機(jī)制的SAM-base(約8000萬(wàn)參數(shù)),在高分辨率圖像上執(zhí)行細(xì)粒度的局部特征提取,生成約4096個(gè)token;隨后通過(guò)一個(gè)16倍卷積壓縮器,將這些局部特征進(jìn)一步降維至256個(gè)token;最后引入具備“全局注意力”機(jī)制的CLIP-large(約3億參數(shù)),在低分辨率語(yǔ)義空間中整合全局信息。整個(gè)編碼過(guò)程完成后,解碼器DeepSeek-3B-MoE負(fù)責(zé)順序重建上下文,精確復(fù)述。

值得注意的是,同一個(gè)模型可以根據(jù)任務(wù)需求靈活調(diào)整其“壓縮強(qiáng)度”。為此,DeepSeek人為設(shè)定了四種原生分辨率(Native Resolutions),用于平衡精度與計(jì)算效率。最低精度的Tiny模式使用約64個(gè)token來(lái)表示一張512×512的圖像;最高精度的Large模式則需要約400個(gè)token來(lái)表示1280×1280的圖像。此外,團(tuán)隊(duì)還設(shè)計(jì)了一種 “高達(dá)模式”(Gundam Mode),由兩種原生分辨率組合而成,用于特定的超高分辨率應(yīng)用場(chǎng)景。

智譜的Glyph框架也是類(lèi)似的思路,但在策略上有所不同。它的整個(gè)訓(xùn)練流程分為三個(gè)緊密耦合的階段:持續(xù)預(yù)訓(xùn)練、渲染搜索與后期的監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)。所謂大型語(yǔ)言模型驅(qū)動(dòng)的渲染搜索機(jī)制(LLM-driven Rendering Search),就是不再依賴(lài)人工設(shè)計(jì),而是利用遺傳算法(Genetic Algorithm),讓系統(tǒng)在不斷的進(jìn)化迭代中,自動(dòng)發(fā)現(xiàn)最優(yōu)渲染配置,實(shí)現(xiàn)壓縮率與視覺(jué)清晰度之間的動(dòng)態(tài)平衡。


在硅谷大神卡帕西(Andrej Karpathy)看來(lái),也許DeepSeek-OCR算不上最好的OCR工具,但這并不重要。他提到了dots,也許指的是同為中國(guó)團(tuán)隊(duì)小紅書(shū)發(fā)布的開(kāi)源工具dots.ocr,它的文檔解析準(zhǔn)確率接近100%。對(duì)于DeepSeek-OCR來(lái)說(shuō),重要的是,它是否揭示了大模型研發(fā)的新路徑:像素是否比文本更適合大型語(yǔ)言模型的輸入。

這種方式對(duì)信息的壓縮更高效,信息流也更為通用,可以包括不同的空間語(yǔ)義與異構(gòu)符號(hào)體系,比如粗體文本與彩色文本,以及化學(xué)符號(hào)等等。卡帕西還認(rèn)為,它能夠輕松使用雙向注意力機(jī)制,并最終讓模型擺脫那套“糟糕的、割裂的”分詞體系。傳統(tǒng)的自回歸語(yǔ)言建模是單向的,而分詞器(tokenizer)則阻礙了模型走向端到端的統(tǒng)一表示。

也許文本并非信息的最佳載體,像素才是更高效、更統(tǒng)一的輸入形式。自稱(chēng)“骨子里的計(jì)算機(jī)視覺(jué)研究者”的卡帕西,甚至更激進(jìn)地認(rèn)為,所有向大型語(yǔ)言模型的輸入,都應(yīng)該先被渲染成圖像。同樣來(lái)自視覺(jué)領(lǐng)域、提出了擴(kuò)散Transformer(DiT)的謝賽寧,也給予了DeepSeek高度評(píng)價(jià)。

讓大模型像生物一樣“看懂”文本,不是DeepSeek與智譜的突發(fā)奇想。幾年前,學(xué)界就提出過(guò)“基于像素的語(yǔ)言建模”(Language Modelling with Pixels)的設(shè)想。

但是,中國(guó)的開(kāi)源模型團(tuán)隊(duì)率先將它工程化與實(shí)用化。也許,這樣的團(tuán)隊(duì)不只是DeepSeek或智譜。DeepSeek-OCR核心作者Haoran Wei,此前在以多模態(tài)模型見(jiàn)長(zhǎng)的階躍星辰,就已經(jīng)和他的同事們,嘗試過(guò)對(duì)“通用OCR理論”(General OCR Theory)的初步探索。

全球都缺算力,中國(guó)尤其如此。同時(shí),隨著多智能體協(xié)同的逐步到來(lái),上下文將越來(lái)越長(zhǎng),如何合理與高效的記憶與遺忘,是大模型研究的前沿課題。以往,中國(guó)團(tuán)隊(duì)的努力主要集中在對(duì)傳統(tǒng)注意力機(jī)制的優(yōu)化,試圖引入稀疏或線性注意力,降低計(jì)算復(fù)雜度。這一次,它們終于越過(guò)了文本token的表示瓶頸。

DeepSeek還有更大的野心。它的DeepSeek-OCR不僅關(guān)乎“看懂”,還關(guān)乎“記憶”與“遺忘”。

當(dāng)我們回憶一本讀過(guò)的書(shū)時(shí),往往會(huì)依靠視覺(jué)印象來(lái)定位記憶:時(shí)間越近的內(nèi)容,在腦海中的“分辨率”越高;而那些久遠(yuǎn)的記憶,則會(huì)被逐漸“壓縮”為關(guān)鍵信息,成為再次檢索時(shí)的視覺(jué)錨點(diǎn)。DeepSeek-OCR的不同分辨率的設(shè)計(jì),正好契合了這一思路。也許,它可以通過(guò)逐級(jí)壓縮信息,直至邊際遺忘,或內(nèi)化為更深層的表征。


“記憶”與“遺忘”,意味著更高效的計(jì)算、通信與儲(chǔ)存,對(duì)于智能體完成多輪對(duì)話的長(zhǎng)程任務(wù),甚至未來(lái)大模型自進(jìn)化,都至關(guān)重要。如果說(shuō),現(xiàn)在的大模型更像卡帕西所說(shuō)的“幽靈”而不是“松鼠”,也正是缺少感知與理解、記憶與遺忘的關(guān)鍵循環(huán)。

在論文的最后,DeepSeek團(tuán)隊(duì)致辭說(shuō),這一思路“為構(gòu)建一種理論上無(wú)限上下文長(zhǎng)度的模型架構(gòu)(unlimited context architectures)提供了新的可能”,是一個(gè)很有前景的新方向;智譜團(tuán)隊(duì)致辭說(shuō),這是一種很有前景的“擴(kuò)展長(zhǎng)上下文大模型(scaling long-context LLMs)”的新范式,在深度方面仍有很大的探索空間。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
19億王者級(jí)肉簽公布中簽結(jié)果,股民中簽難,但中到就能偷著樂(lè)!

19億王者級(jí)肉簽公布中簽結(jié)果,股民中簽難,但中到就能偷著樂(lè)!

數(shù)據(jù)挖掘分析
2026-01-25 09:16:10
蕭美娘乳白寫(xiě)真合集(2)

蕭美娘乳白寫(xiě)真合集(2)

情感大頭說(shuō)說(shuō)
2026-01-24 15:26:40
羊肉湯,煙火人間

羊肉湯,煙火人間

張佳瑋寫(xiě)字的地方
2026-01-21 18:53:10
不敢置信!女子十二樂(lè)坊成員直播養(yǎng)不活自己,一晚上打賞不到3000

不敢置信!女子十二樂(lè)坊成員直播養(yǎng)不活自己,一晚上打賞不到3000

云中浮生
2026-01-24 21:37:46
特朗普暴跳如雷,短短兩天他領(lǐng)教了:歐俄的精明、中國(guó)的頂級(jí)陽(yáng)謀

特朗普暴跳如雷,短短兩天他領(lǐng)教了:歐俄的精明、中國(guó)的頂級(jí)陽(yáng)謀

娛樂(lè)督察中
2026-01-24 05:54:28
林肯號(hào)就位,以色列子彈上膛,澤連斯基給伊朗壓最后一捆稻草

林肯號(hào)就位,以色列子彈上膛,澤連斯基給伊朗壓最后一捆稻草

移光幻影
2026-01-24 17:14:08
工作室回應(yīng)“潦草小馬”走紅:正全力投入制作,30人一天能做50個(gè)左右

工作室回應(yīng)“潦草小馬”走紅:正全力投入制作,30人一天能做50個(gè)左右

環(huán)球網(wǎng)資訊
2026-01-22 08:55:15
紅米Turbo 5 Max正式官宣,國(guó)補(bǔ)后1869元,終于等到“真香價(jià)”!

紅米Turbo 5 Max正式官宣,國(guó)補(bǔ)后1869元,終于等到“真香價(jià)”!

小柱解說(shuō)游戲
2026-01-24 03:07:21
《紅樓夢(mèng)》:襲人敢和寶玉“初試云雨”,為何不擔(dān)心懷孕被趕走?

《紅樓夢(mèng)》:襲人敢和寶玉“初試云雨”,為何不擔(dān)心懷孕被趕走?

一丈青
2026-01-25 16:45:03
特朗普終結(jié)了兩大家族的總統(tǒng)夢(mèng)

特朗普終結(jié)了兩大家族的總統(tǒng)夢(mèng)

文史茶館2020
2026-01-20 10:56:37
哈馬斯正式放下槍?zhuān)?000公里隧道圖換免死金牌,以色列立馬翻臉

哈馬斯正式放下槍?zhuān)?000公里隧道圖換免死金牌,以色列立馬翻臉

科普100克克
2026-01-24 18:11:25
俄國(guó)客商賒購(gòu)800臺(tái)挖掘機(jī),全廠高管反對(duì),廠長(zhǎng)力排眾議出貨

俄國(guó)客商賒購(gòu)800臺(tái)挖掘機(jī),全廠高管反對(duì),廠長(zhǎng)力排眾議出貨

白云故事
2026-01-06 04:30:03
國(guó)際奧委會(huì)主席,第三次找上門(mén),想讓中國(guó)辦2036年奧運(yùn)會(huì)。

國(guó)際奧委會(huì)主席,第三次找上門(mén),想讓中國(guó)辦2036年奧運(yùn)會(huì)。

南權(quán)先生
2026-01-19 15:43:28
《康熙來(lái)了》停播原因曝光:制作人B2坦言當(dāng)時(shí)自己不想做了,跟蔡康永、小S商量后隔天就決定告別“康熙”

《康熙來(lái)了》停播原因曝光:制作人B2坦言當(dāng)時(shí)自己不想做了,跟蔡康永、小S商量后隔天就決定告別“康熙”

魯中晨報(bào)
2026-01-24 18:03:03
陳建斌曝李亞鵬大學(xué)宿舍趣事!30年前的頂流李亞鵬,曾是盛世美顏

陳建斌曝李亞鵬大學(xué)宿舍趣事!30年前的頂流李亞鵬,曾是盛世美顏

露珠聊影視
2026-01-25 12:32:00
何超瓊沒(méi)想到,倒貼14億嫁東北小伙的何超盈,如今竟給她狠狠長(zhǎng)臉

何超瓊沒(méi)想到,倒貼14億嫁東北小伙的何超盈,如今竟給她狠狠長(zhǎng)臉

傾聽(tīng)風(fēng)語(yǔ)
2026-01-25 12:39:08
貝克漢姆家庭矛盾原因揭曉:長(zhǎng)子婚前協(xié)議涉約16億美元家產(chǎn),貝克漢姆夫婦擔(dān)心兒子未來(lái)被兒媳家族掌控

貝克漢姆家庭矛盾原因揭曉:長(zhǎng)子婚前協(xié)議涉約16億美元家產(chǎn),貝克漢姆夫婦擔(dān)心兒子未來(lái)被兒媳家族掌控

魯中晨報(bào)
2026-01-24 16:07:03
貝克漢姆仨兒子養(yǎng)育全翻車(chē)!金勺子喂大的孩子,為何活成豪門(mén)笑話

貝克漢姆仨兒子養(yǎng)育全翻車(chē)!金勺子喂大的孩子,為何活成豪門(mén)笑話

小椰的奶奶
2026-01-24 12:45:25
勇士比賽因槍擊案延遲!一周兩起,巴克利:庫(kù)里是鬧劇的最大輸家

勇士比賽因槍擊案延遲!一周兩起,巴克利:庫(kù)里是鬧劇的最大輸家

你的籃球頻道
2026-01-25 07:56:43
株洲殺豬宴失控!央視新華社接連怒批,句句戳心窩,這下麻煩大了

株洲殺豬宴失控!央視新華社接連怒批,句句戳心窩,這下麻煩大了

以茶帶書(shū)
2026-01-24 23:18:39
2026-01-25 17:24:49
未盡研究 incentive-icons
未盡研究
新能源、人工智能、合成生物、地緣X
292文章數(shù) 61關(guān)注度
往期回顧 全部

科技要聞

黃仁勛在上海逛菜市場(chǎng),可能惦記著三件事

頭條要聞

獲黃仁勛簽名紅包商戶:我開(kāi)始不認(rèn)識(shí)他 紅包里有600元

頭條要聞

獲黃仁勛簽名紅包商戶:我開(kāi)始不認(rèn)識(shí)他 紅包里有600元

體育要聞

中國(guó)足球不會(huì)一夜變強(qiáng),但他們已經(jīng)創(chuàng)造歷史

娛樂(lè)要聞

王玉雯方嚴(yán)正聲明 劇方回應(yīng):涉事人員已被開(kāi)除

財(cái)經(jīng)要聞

隋廣義等80人被公訴 千億騙局進(jìn)入末路

汽車(chē)要聞

別克至境E7內(nèi)飾圖曝光 新車(chē)將于一季度正式發(fā)布

態(tài)度原創(chuàng)

藝術(shù)
房產(chǎn)
時(shí)尚
數(shù)碼
本地

藝術(shù)要聞

全認(rèn)識(shí)這13個(gè)字的人,能否復(fù)印王羲之的作品?

房產(chǎn)要聞

正式官宣!三亞又一所名校要來(lái)了!

2025年度榜單|| 真金白銀票選出來(lái)的“真愛(ài)”,今天破價(jià)1.6折!

數(shù)碼要聞

華為FreeClip 2耳夾耳機(jī)確認(rèn)支持Android設(shè)備豆包App喚醒

本地新聞

云游中國(guó)|格爾木的四季朋友圈,張張值得你點(diǎn)贊

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版