国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek為什么不能處理音頻、視頻、圖像信息?

0
分享至

這其實(shí)是一個非常有意思的問題,那就是DeepSeek最出圈的模型其實(shí)有兩個,一個是DeepSeek-V3,另一個是DeepSeek-R1,巧了,這倆模型都只能處理文本信息。

什么是文本信息?你可以理解為數(shù)字、文字(中文英文意大利語非洲某個部落等都算)、標(biāo)點(diǎn)符號、甚至表情包等,絕大多數(shù) 能在鍵盤上敲出來的內(nèi)容都算文本信息。

可能你沒注意過,在DeepSeek的網(wǎng)頁版,有個「回形針」按鈕,它寫著「上傳附件(只識別文字)」,其實(shí)意思就是不管你上傳來的是什么內(nèi)容,它最多只能識別里面的文字部分。


可能有點(diǎn)兒難懂,那我們來做個實(shí)驗(yàn),這是一張西紅柿的照片,非常清楚。


扔給DeepSeek后給出提示「未提取到文字」。


再換一張,里面加上三個字「西紅柿是一種蔬菜」,再試試。


你看,這樣它就能被DeepSeek「處理了」,但從DeepSeek的結(jié)果來看,其實(shí)它根本理解不了圖片內(nèi)容,只是把我們加入的文字信息給識別出來了。


它的這種處理只是用了一種叫OCR的技術(shù),它的原理如下圖所示,把文字提取出來,其他的內(nèi)容一概處理不了,像車牌號識別之類的都用的這類型技術(shù)。


這也就說明了,DeepSeek V3/R1本身根本識別不了圖片,是個只懂文字的AI大模型。

那什么才算是真正的可以識別圖片的大模型?我們用老牌的大模型ChatGPT測試一下。

首先,這是一張只有西紅柿,沒有任何字的照片,ChatGPT很輕松且準(zhǔn)確的識別出來了。


然后上點(diǎn)難度,加點(diǎn)混淆內(nèi)容,也就是在西紅柿圖片上加一行字「這是黃瓜」


再問ChatGPT一次,你看它的回答,根本沒有掉進(jìn)我們預(yù)設(shè)的陷阱,它可以輕松的把圖片信息和文字都提取出來,但同時還保持著理性,沒有被圖中的文字所誤導(dǎo)。


這說明了,ChatGPT等標(biāo)明了可以識別圖像的,是的確可以理解圖片內(nèi)容的。

那是不是DeepSeek就沒辦法識別圖像,對于V3/R1模型來說是的,因?yàn)樗麄儽旧碓O(shè)計(jì)的時候就沒有圖像識別功能。

但是DeepSeek還有一個系列,叫DeepSeek VL,V代表單詞視覺Vision,L代表語言Language,這個模型是可以理解圖片信息的,早在去年已經(jīng)更新到第二個版本了,所以全名叫DeepSeek-VL2。


這是它的使用鏈接:

https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small

這里還有一個Colab可以免費(fèi)使用的攻略:

https://github.com/shobhitag11/DeepSeek-VL2-Run-On-Google-Colab

我們來做個測試,直接上混淆版的圖片,DeepSeek-VL2這個模型也沒問題,可以準(zhǔn)確的識別圖片的內(nèi)容,圖中有兩個番茄,一個被切開,還能識別到果肉和種子;以及“這是黃瓜”這幾個字。


所以,我們現(xiàn)在至少可以得出一個結(jié)論,那就是DeepSeek的VL2模型是可以處理圖像信息的。

那么為什么DeepSeek-V3/R1名聲這么大,卻沒有識別圖像的能力,更別說音頻和視頻了,其實(shí)最終要?dú)w到網(wǎng)絡(luò)結(jié)構(gòu)上。

要理解這個網(wǎng)絡(luò)結(jié)構(gòu)的差異,我們首先要明白一個根本性的問題:文字、圖片、視頻和音頻,這幾種信息在“本質(zhì)”上是完全不同的。

文字的表達(dá)雖然千變?nèi)f化,但其基礎(chǔ)是有限且離散的。簡單點(diǎn)理解,那就是全世界所有的漢字加起來不過幾萬個,英文單詞也是有限的。我們可以制作一本巨大的“詞典”(在AI里叫“詞表”或Vocabulary),把每個字、每個詞都編上號。

AI處理文字,就像是查字典和按語法規(guī)則“造句”。因此,像DeepSeek-V3/R1這樣的大模型,其整個“世界觀”就是建立在這本巨大的“文字詞典”上的,它只認(rèn)識詞典里的東西,所以并沒有處理多模態(tài)的功能。

DeepSeek V3/R1的模型結(jié)構(gòu)如下圖所示,它最核心的部件叫Transformer,這個東西在DeepSeek設(shè)計(jì)之初,就限定了只能處理文字信息。


要處理圖像、視頻和音頻就完全是另一回事了。它們是連續(xù)且無限的,就跟「世界上沒有完全相同的兩片樹葉」原理類似。

一張圖片由數(shù)百萬個像素點(diǎn)組成,每個點(diǎn)的顏色值都可能有細(xì)微差別。你不可能做一本“像素詞典”來收錄世界上所有的圖像組合。面對這種高維度的、連續(xù)的、充滿冗余信息的“模擬信號”,傳統(tǒng)的語言模型會徹底“短路”,因?yàn)樗恢涝撊绾巍安樽值洹薄?/p>

要讓DeepSeek這樣的文本大模型聽/看懂另一種模態(tài),必須先插入一個 Encoder(編碼器),這也是DeepSeek-VL系列的新增部件,如下圖所示。

你可以看到DeepSeek LLM這個東西也就是DeepSeek V3/R1,下面的兩個東西,就是把圖像信息轉(zhuǎn)換成語言的Encoder。


它的功能其實(shí)很好理解,編碼器的功能就像一個‘首席分析師’,它看完圖片后,并不會寫出人類能懂的報告,而是輸出一串只有語言模型(LLM)核心才能解讀的‘加密電報’或‘?dāng)?shù)學(xué)密碼’。這串密碼濃縮了圖片的一切,比如物體的形狀、顏色和空間關(guān)系。

比如我讓ChatGPT來模擬Encoder編碼器的能力,它會輸出下面的內(nèi)容(比如對于圖片的描述,還有圖中文字內(nèi)容與實(shí)際視覺對象(番茄)不符,具有幽默/諷刺意味),實(shí)際上它輸出的內(nèi)容并不是人類可以理解的文字,而是一堆數(shù)字,這里只是打個比方。


這個時候圖像信息已經(jīng)變成了文本信息,所以DeepSeek V3/R1可以處理了,這樣也就明朗了。

這下應(yīng)該可以徹底明白了,原本的DeepSeek設(shè)計(jì)就是「文本進(jìn)文本出」。


而DeepSeek VL能夠處理圖像的原理如下圖所示,本質(zhì)上還是對于文本的處理,只不過文本需要先經(jīng)過一道「翻譯」的步驟,視頻、音頻等其他類型的信息原理是共通的,只需要加相對應(yīng)的翻譯官即可。


理解了編碼器的作用,我們就能明白當(dāng)今主流的多模態(tài)大模型,其實(shí)主要分為兩種實(shí)現(xiàn)路徑:

第一種是“嫁接型”多模態(tài)模型。這也是目前最常見的方式,DeepSeek-VL就是這個路子。它就像是給一個已經(jīng)非常強(qiáng)大的“語言專家”(比如一個傳統(tǒng)的大語言模型),外聘了一位“視覺專家”(也就是上面說的視覺編碼器)。

當(dāng)需要處理圖片時,先讓“視覺專家”把圖片分析透徹,寫成一份“摘要報告”,然后通過一個“翻譯”交給“語言專家”去閱讀和整合。我們前面提到的DeepSeek-VL系列,就屬于這種“嫁接”模式。它的優(yōu)勢是能夠站在巨人的肩膀上,快速整合現(xiàn)有成果,效果有保障。

第二種則是更前沿的“原生多模態(tài)”模型。這種模型的思想是,與其外聘專家,不如從一開始就培養(yǎng)一個“全能通才”。它在設(shè)計(jì)之初就沒有區(qū)分視覺和語言,而是力求用一個統(tǒng)一的、端到端的網(wǎng)絡(luò)結(jié)構(gòu),在訓(xùn)練的最初階段就同時學(xué)習(xí)和理解混雜在一起的圖像、文本等多種信息。它認(rèn)為,無論是看圖還是讀字,對于一個足夠強(qiáng)大的“大腦”來說,本質(zhì)都是在處理信息。

后者典型例子就是OpenAI的GPT4o模型,它可以實(shí)現(xiàn)更為精細(xì)化的多模態(tài)信息處理,但是也有弊端,那就是模型的整體會非常龐大,以及訓(xùn)練的難度要比單一的文本大模型高很多。這種模型架構(gòu)更簡潔,理論上融合得也更深入,但其研發(fā)和訓(xùn)練成本也呈指數(shù)級增長,是未來發(fā)展的重要方向。

總而言之,下次當(dāng)你使用一個AI工具時,如果它無法識別圖片,請不要意外。這并不代表它“笨”,只說明它的設(shè)計(jì)目標(biāo)就只能處理文本。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
釘在恥辱柱上!國家文物局出手,這三個跳梁小丑,真的徹底涼涼了

釘在恥辱柱上!國家文物局出手,這三個跳梁小丑,真的徹底涼涼了

戶外阿嶄
2025-12-28 17:07:24
女卡車司機(jī)“半掛西施”去世后,網(wǎng)友分析網(wǎng)名,4個字竟字字應(yīng)驗(yàn)

女卡車司機(jī)“半掛西施”去世后,網(wǎng)友分析網(wǎng)名,4個字竟字字應(yīng)驗(yàn)

千言娛樂記
2025-12-28 20:02:42
苦等5年,蒙古熟鴨子還是飛了,中俄誰也不讓步,坐視大項(xiàng)目泡湯

苦等5年,蒙古熟鴨子還是飛了,中俄誰也不讓步,坐視大項(xiàng)目泡湯

科普100克克
2025-12-07 18:20:34
美國國務(wù)院發(fā)火,要求中國大陸“必須停止”,島內(nèi)一個時代或終結(jié)

美國國務(wù)院發(fā)火,要求中國大陸“必須停止”,島內(nèi)一個時代或終結(jié)

三石記
2025-12-27 15:03:24
米蘭20天首勝!暫登頂意甲,10戰(zhàn)維羅納全勝,連刷4大紀(jì)錄

米蘭20天首勝!暫登頂意甲,10戰(zhàn)維羅納全勝,連刷4大紀(jì)錄

奧拜爾
2025-12-28 21:33:44
杭州姑娘“兔子警官”主動回應(yīng)“哄孩子式執(zhí)法”:“他們需要外力推一下……”

杭州姑娘“兔子警官”主動回應(yīng)“哄孩子式執(zhí)法”:“他們需要外力推一下……”

都市快報橙柿互動
2025-12-28 14:07:18
保定大量商戶突然關(guān)閉,整個街道冷冷清清

保定大量商戶突然關(guān)閉,整個街道冷冷清清

映射生活的身影
2025-12-27 18:09:05
統(tǒng)治澳洲!韓旭26分鐘12中9高效22+5 加盟6戰(zhàn)全勝狂勝138分

統(tǒng)治澳洲!韓旭26分鐘12中9高效22+5 加盟6戰(zhàn)全勝狂勝138分

醉臥浮生
2025-12-28 18:09:56
瓜子二手車發(fā)布榜單,保值排名出乎意料

瓜子二手車發(fā)布榜單,保值排名出乎意料

ZAKER新聞
2025-12-26 15:23:34
1960年春節(jié),周總理請溥儀吃飯,酒桌上溥儀講了個慈禧的“笑話”,總理聽完,當(dāng)場陷入了沉思

1960年春節(jié),周總理請溥儀吃飯,酒桌上溥儀講了個慈禧的“笑話”,總理聽完,當(dāng)場陷入了沉思

歷史回憶室
2025-12-24 10:29:12
香港男子命喪天水圍橋底,嫌疑人在深圳灣口岸落網(wǎng)!押回現(xiàn)場

香港男子命喪天水圍橋底,嫌疑人在深圳灣口岸落網(wǎng)!押回現(xiàn)場

南方都市報
2025-12-28 12:18:04
直擊:日本發(fā)生重大交通事故,67輛車連環(huán)撞,幸存者顫抖回憶慘烈現(xiàn)場……

直擊:日本發(fā)生重大交通事故,67輛車連環(huán)撞,幸存者顫抖回憶慘烈現(xiàn)場……

日本物語
2025-12-27 20:32:22
閃評丨澤連斯基訪美之際 普京再就俄烏沖突局勢表態(tài)

閃評丨澤連斯基訪美之際 普京再就俄烏沖突局勢表態(tài)

國際在線
2025-12-28 15:07:02
畸形兒風(fēng)波反轉(zhuǎn)!醫(yī)院回應(yīng)透露2個關(guān)鍵信息 闞清子的沉默早有預(yù)兆

畸形兒風(fēng)波反轉(zhuǎn)!醫(yī)院回應(yīng)透露2個關(guān)鍵信息 闞清子的沉默早有預(yù)兆

觀察鑒娛
2025-12-28 10:26:06
201米!40億!騰訊西南總部,世界“第一扭”摩天樓

201米!40億!騰訊西南總部,世界“第一扭”摩天樓

GA環(huán)球建筑
2025-12-25 23:00:32
羽球天王杯:銅牌誕生!世界第8復(fù)仇喬納坦,石宇奇首局7-11落后

羽球天王杯:銅牌誕生!世界第8復(fù)仇喬納坦,石宇奇首局7-11落后

劉姚堯的文字城堡
2025-12-28 20:01:00
61歲奧巴馬夫人暴瘦后“逆生長”,與前總統(tǒng)丈夫合照笑開了花

61歲奧巴馬夫人暴瘦后“逆生長”,與前總統(tǒng)丈夫合照笑開了花

艷兒說電影
2025-12-27 21:11:14
甚至來不及準(zhǔn)備,湘超冠軍永州隊(duì)巡游花車為臨時切割公交車改造而成

甚至來不及準(zhǔn)備,湘超冠軍永州隊(duì)巡游花車為臨時切割公交車改造而成

懂球帝
2025-12-28 16:35:07
廣東一小伙,因入住毛坯房而走紅,花費(fèi)僅1萬,卻無一絲窮酸氣!

廣東一小伙,因入住毛坯房而走紅,花費(fèi)僅1萬,卻無一絲窮酸氣!

阿離家居
2025-12-28 10:19:49
沖上熱搜!黃子韜因腦淤血接受開顱手術(shù)縫了43針,本人回應(yīng)

沖上熱搜!黃子韜因腦淤血接受開顱手術(shù)縫了43針,本人回應(yīng)

半島晨報
2025-12-28 18:04:45
2025-12-28 21:52:49
平凡AI incentive-icons
平凡AI
高校AI從業(yè)者
54文章數(shù) 23關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動駕駛?記者求證→

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財(cái)經(jīng)要聞

英偉達(dá)的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

藝術(shù)
時尚
手機(jī)
本地
數(shù)碼

藝術(shù)要聞

驚艷!陳紅20年前沙發(fā)照曝光,宛如人間尤物!

2026年了,最好看還是這件大衣!

手機(jī)要聞

1486.41萬臺!iPhone17系列中國市場銷量刷新紀(jì)錄,力壓國產(chǎn)機(jī)!

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

數(shù)碼要聞

LG電子2026款OLED電視獲英偉達(dá)G-SYNC認(rèn)證,至高165Hz

無障礙瀏覽 進(jìn)入關(guān)懷版