国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

如何以DeepSeek為契機(jī)實(shí)現(xiàn)信息技術(shù)全面超美?

0
分享至

如果認(rèn)真讀完本文(90%以上普通讀者都可以理解清楚),您不僅是對人工智能,而且對整個信息技術(shù)的認(rèn)知就達(dá)到這個領(lǐng)域全球一切博士生導(dǎo)師,甚至院士的層次。

DeepSeek沖擊波意味著的是全球信息技術(shù)即將實(shí)現(xiàn)的基本架構(gòu)革命,這場革命有兩大特征:

  • 硬件體系從算力依賴型轉(zhuǎn)向存儲依賴型。

  • 整體架構(gòu)從硬件依賴型轉(zhuǎn)向編程依賴型。

一、DeepSeek沖擊波

一個月前,整個美國軍事圈在密集地討論中國六代機(jī)。

半個月前,整個媒體圈在討論小紅書上中美大對賬。

現(xiàn)在,整個全球科技圈又在密集地討論DeepSeek。

順便提一下,DeepSeek V3的發(fā)布日期也是在2024年12月26日,教員的誕辰紀(jì)念日。在DeepSeek V3發(fā)布后短短的一個月左右,又連續(xù)兩個大動作。2025年1月20日發(fā)布了DeepSeek R1,這是真正引爆全球的版本,其達(dá)到與OpenAI o1版本性能基本相同的程度,但訓(xùn)練成本僅為不到560萬美元,只是o1的3%-5%。

請注意,并不是說DeepSeek R1的技術(shù)性能遠(yuǎn)超過了OpenAI o1,而是在性能基本相同或略好的情況下,其訓(xùn)練成本、訓(xùn)練時間卻呈現(xiàn)數(shù)量級的下降,這兩者帶來的結(jié)果都是顛覆性的。原因在于:

訓(xùn)練成本極低的主要因素是對算力需求數(shù)量級的下降,這樣一來,英偉達(dá)人工智能算力卡市場需求就會受到極大的沖擊。

訓(xùn)練時間從過去6個月下降到只有6天,這會使人工智能軟件的迭代速度發(fā)生質(zhì)的變化。6個月的訓(xùn)練時間,簡直就是農(nóng)業(yè)領(lǐng)域種子大田實(shí)驗(yàn)的周期長度了,一粒水稻種子從發(fā)芽、插秧、抽穗、收割的時間也不過如此。早熟型的水稻全部生長周期甚至也就3個月。任何軟件都是需要不斷迭代演進(jìn)的,如果你的軟件需要6個月才能完整地運(yùn)行一次,而我的只要6天,那么你的軟件做一次升級后要進(jìn)行一下測試就得至少等6個月時間,而我的只要6天,那么即使我的軟件一開始比你的差很多,要不了幾個回合我已經(jīng)迭代10次了,你一次都還沒迭代完,那你還怎么玩?就算你有天大的編程本事也沒法和我競爭了。而且DeepSeek還完全開源,這么一搞,全世界所有公司的大模型軟件都不得不追隨這個技術(shù)路線,尤其是技術(shù)理念,否則就是農(nóng)業(yè)文明與工業(yè)文明相競爭了。

DeepSeek在美國的蘋果應(yīng)用商店上下載量瞬間排名第一。

2025年1月27日,Deepseek引發(fā)了美國納斯達(dá)克震動,尤其受沖擊最大的英偉達(dá)股價(jià)下跌16.97%,上一個交易日下跌3.12%。1月28日除夕,在美股重挫之后,DeepSeek又發(fā)布開源多模態(tài)模型Janus-Pro,其中70億參數(shù)版本的Janus-Pro-7B模型在使用文本提示的圖像生成排行榜中優(yōu)于OpenAI的 DALL-E 3和Stability AI的Stable Diffusion。

英偉達(dá)兩天內(nèi)蒸發(fā)7000多億美元,跌去了約五分之一的市值,27日一天跌去了約5900億美元,創(chuàng)下美國歷史上單日下跌幅度的歷史記錄。 也帶動納斯達(dá)克指數(shù)當(dāng)日跳空暴跌3.07%。 當(dāng)然,這種短期的波動不一定完全具有長期意義,1月28日英偉達(dá)反彈了8.93%,29日再次下跌4.10%。 但是,一個中國剛成立一年多、僅140人的小公司發(fā)布的產(chǎn)品,居然對整個美國納斯達(dá)克科技股板塊產(chǎn)生如此巨大的影響力,這是歷史上的第一次。

因?yàn)檎麄€美國科技界產(chǎn)生的恐慌,來自美國的一些特定的IP地址針對DeepSeek服務(wù)器發(fā)起了空前的惡意攻擊。這種惡意攻擊一直持續(xù)到現(xiàn)在還在繼續(xù)并且不斷升級。

特朗普也在個人賬號上發(fā)出哀嘆:

請注意特朗普個人賬號發(fā)這個信息的合集分別是#美國優(yōu)先#中國正殺死美國#AI#MAGA!?。?/p>

中國出現(xiàn)如此震撼性的科技進(jìn)展,也令整個中國社會沸騰。很多網(wǎng)友留言希望我談一下這個問題,很多媒體也向我約稿談相關(guān)問題。對于如此專業(yè)的技術(shù)領(lǐng)域,一般媒體人,甚至一些專業(yè)人士都可能很難抓住要害。

人們可能非常疑惑的一個問題是:為什么DeepSeek居然能在美國看起來如此領(lǐng)先的AI領(lǐng)域做出讓人炫目的巨大改進(jìn)?或者換個說法:為什么在看似美國領(lǐng)先的AI領(lǐng)域居然會存在如此巨大的改進(jìn)空間?如果沒有這種改進(jìn)空間存在,即使你有天大的本事也無濟(jì)于事。

其實(shí),這種巨大的改進(jìn)潛力不僅不是什么奇怪的事情,而且是整個信息技術(shù)領(lǐng)域存在的極為普遍的情況,只不過是DeepSeek把這層窗戶紙?jiān)谌鐣用嫱贝┝硕选R宄斫釪eepSeek為什么能做到這一點(diǎn),如果是專業(yè)的網(wǎng)友,可以直接去看以下這篇DeepSeek R1的論文,甚至直接去看開源的源代碼。

但對于絕大多數(shù)普通網(wǎng)友來說,如果完全陷到這些AI專業(yè)技術(shù)細(xì)節(jié)中去的話,肯定會頭大,即使想盡辦法進(jìn)行科普,可能也還是很難理解。并且,即使專業(yè)的網(wǎng)友去直接看DeepSeek的論文,或者分析清楚DeepSeek的所有算法,也未必能完全理解為什么他可能做出這么大的改進(jìn)。

所以,本文將盡可能采用90%以上的網(wǎng)友都能聽得懂的語言或科普知識,來讓人們理解為什么美國式的信息技術(shù)會存在如此巨大的提升空間,并且是幻方量化的創(chuàng)始人梁文峰的團(tuán)隊(duì)成功做到了。事實(shí)上,這種潛在改進(jìn)空間的存在是我窮其一生系統(tǒng)研究過,一直努力去進(jìn)行改進(jìn),并且獲得過不少成果的。所以,本文不僅是要讓普通網(wǎng)友聽明白,而且希望成為一篇信息技術(shù)領(lǐng)域的“討美檄文”,借此機(jī)會號召所有專業(yè)的網(wǎng)友、政府機(jī)構(gòu)相關(guān)人員和投資人看明白之后,從效率最優(yōu)化角度發(fā)起一場系統(tǒng)的中國式信息技術(shù)革命,徹底顛覆美國式的信息架構(gòu)和體系。我會在本文中枚舉出大量可以做出巨大改進(jìn)的重多技術(shù)細(xì)節(jié),但整個信息技術(shù)領(lǐng)域事實(shí)上可以改進(jìn)的地方太多了,本文最后會給出初步的總體建議。

二、認(rèn)識世界的兩種路徑

為了理解本文,我們不是像一般人那樣一上來就先鉆到技術(shù)細(xì)節(jié)中去,而是脫離出來,先站在盡可能最高層面的、科學(xué)認(rèn)識世界的兩種基本路徑的簡要比較上。一個是經(jīng)驗(yàn)的方法,另一個是理論的方法。這兩種方法大家都是比較熟悉的。

經(jīng)驗(yàn)的方法是什么呢?用信息技術(shù)的語言來說,就是存儲的歷史知識依賴型的方法。當(dāng)遇到一個新問題時,經(jīng)驗(yàn)的方法可能不是去深入系統(tǒng)地理解問題本身,而是瞬間就能給出答案,它是直接對比問題與存儲的歷史知識,找出差別最小的一個,只要對存在差別的地方進(jìn)行一下簡單的處理,就能給出結(jié)果。所以,這種方法也是算力依賴度相對最小的。它本質(zhì)上主要就是一種以經(jīng)驗(yàn)知識查詢和調(diào)用為主的算法。

另一種方法是理論的方法,發(fā)展到極致就是科學(xué)的理論,牛頓力學(xué)用極簡的四個定律的數(shù)學(xué)公式,就能描述世間所有的運(yùn)動規(guī)律。麥克斯韋方程也只是幾個極簡的數(shù)學(xué)公式,就能描述所有電磁學(xué)的規(guī)律。理論的方法存儲的知識量可以達(dá)到極小化,這是它的經(jīng)濟(jì)性體現(xiàn)。但是,當(dāng)用這種理論的方法去解決實(shí)際問題時,要用這些數(shù)學(xué)公式進(jìn)行大量的計(jì)算才能給出結(jié)果。所以,這種方法是算力依賴型的。

以上兩種方法是各有優(yōu)劣的,并不能絕對說哪一個就更好。

經(jīng)驗(yàn)的方法算力依賴度最小,速度極快,但不一定完備、準(zhǔn)確和深入,它也有可能搞不清因果關(guān)系。在計(jì)算機(jī)編程的時候可能通用性不是最好,要針對特定問題進(jìn)行定制。

理論的方法知識存儲量最小,完備,因果關(guān)系清晰,精確,編程相對簡單且通用性較強(qiáng),但實(shí)際解決問題時需要精確獲得所有邊界條件,必須要大量的計(jì)算。

現(xiàn)實(shí)生活中并不一定絕對分得清采用的是理論的方法還是經(jīng)驗(yàn)的方法,很多都是兩種方法的混合。例如很多經(jīng)驗(yàn)公式看起來是一個理論,也的確可能存在一定的因果關(guān)系成分,但事實(shí)上是界于理論和經(jīng)驗(yàn)之間的、不完備、也就是不完全清楚因果關(guān)系的數(shù)字統(tǒng)計(jì)結(jié)果。

現(xiàn)在的人工智能很大程度上也是界于理論和經(jīng)驗(yàn)之間的一種形態(tài)。

如果舉一些具體的例子來說明一下以上兩種方法在信息技術(shù)中的體現(xiàn),可能大家會更清晰一些。我在北郵上研究生期間的導(dǎo)師蔡學(xué)勛,他主要的一個貢獻(xiàn)是最早實(shí)現(xiàn)了將原來只能用巨型機(jī)處理的氣象衛(wèi)星數(shù)據(jù),轉(zhuǎn)換成在個人電腦上進(jìn)行處理。這個團(tuán)隊(duì)研究的成果之一是最先從衛(wèi)星云圖中發(fā)現(xiàn)了著名的1987年大興安嶺火災(zāi),就是那個當(dāng)年春晚小品節(jié)目中戲稱為被費(fèi)翔“冬天里的一把火”點(diǎn)燃的森林大火。要將衛(wèi)星云圖數(shù)據(jù)在算力很低的個人電腦上進(jìn)行處理,遇到的最大挑戰(zhàn)就是如何降低相關(guān)數(shù)據(jù)處理的算力需求。其中最大的運(yùn)算量之一,就是將原始衛(wèi)星云圖數(shù)據(jù)投影到平面圖上時,要進(jìn)行數(shù)據(jù)的投影轉(zhuǎn)換。它的原理并不復(fù)雜,也就是初中幾何知識就能明白的,這里不去討論,只是要說明這種投影轉(zhuǎn)換每一個像素點(diǎn)處理都要進(jìn)行三角函數(shù)的計(jì)算。

三角函數(shù)的公式書寫起來非常簡單,可是要在計(jì)算機(jī)中進(jìn)行計(jì)算的話就很麻煩。因?yàn)楝F(xiàn)代的電子計(jì)算機(jī)CPU事實(shí)上只能進(jìn)行二進(jìn)制的加法運(yùn)算。所以,一切數(shù)學(xué)計(jì)算事實(shí)上都是把它們通過一定的算法轉(zhuǎn)換成一系列加法運(yùn)算的累加。一般的方法是先將任何數(shù)學(xué)函數(shù)展開成只含有加減乘除的冪級數(shù)展開式,然后再把其中的乘、除、減法轉(zhuǎn)換成加法運(yùn)算。

上面就是一個初中生都可以理解的正弦函數(shù)的冪級數(shù)展開式案例。從純理論上說,上面這個展開式的運(yùn)算量是無限大的。但在不同的精度要求中,可以選擇一個有限的最大n取值就可以了,以此進(jìn)行可以保證一定精度的有限運(yùn)算量。最大的n取值不同,當(dāng)然運(yùn)算量就不一樣。

但這樣一轉(zhuǎn)換,表面看起來一個很簡單的數(shù)學(xué)函數(shù),在計(jì)算機(jī)中需要進(jìn)行的最基本二進(jìn)制加法運(yùn)算量就可能會擴(kuò)張到成千上萬次二進(jìn)制加法運(yùn)算。好在計(jì)算機(jī)過去按摩爾定律可以不斷地翻倍增長,所以計(jì)算量大點(diǎn)用計(jì)算機(jī)來算就不是問題。這就是算力依賴型的解決思路。

因?yàn)槊恳粋€像素點(diǎn)都要進(jìn)行這樣的處理,如果直接采用這種理論的算力依賴型的方法,在上個世紀(jì)80年代根本不可能在個人電腦上實(shí)現(xiàn)哪怕最簡單的衛(wèi)星圖像數(shù)據(jù)的平面投影處理。所以解決的方法就是:先計(jì)算出一個實(shí)際應(yīng)用中會用到的相對完整的三角函數(shù)表,并且存儲起來。下面是一個常用的三角函數(shù)表。

當(dāng)用到哪個角度的三角函數(shù)計(jì)算時,直接到這個表里面查就可以了。這就把前面那種算力依賴型的方法運(yùn)算量成千上萬倍地降低了。如果要計(jì)算的角度不能直接查到,是在表中的兩個角度之間,那就用相鄰的兩個表中的角度三角函數(shù)值進(jìn)行簡單的插值處理就可以得出結(jié)果了。這種方法就是存儲的歷史知識依賴型的方法。

原來我們聽說過中國兩彈一星的科學(xué)家們是用算盤算出了原子彈的模型,很多人感覺不可思議。事實(shí)上,他們肯定不會用和計(jì)算機(jī)完全一樣的算法來進(jìn)行計(jì)算,肯定是會尋求算力依賴度最小的方法。主要也是基于各種已經(jīng)算出來的函數(shù)表,諸如對數(shù)表、根號表、三角函數(shù)表等,在計(jì)算過程中盡可能依賴查表和插值處理,以此來盡最大可能地減少計(jì)算量,再用算盤來算,否則是不可能完成這個工作的。當(dāng)年祖沖之用算盤算一個圓周率都花了幾十年的時間,如果真的用算盤直接進(jìn)行各種函數(shù)的計(jì)算,肯定是不可能在有限時間內(nèi)算出原子彈相關(guān)模型的。

初中生實(shí)用的根號表

為什么我們要先談這些最基本的科學(xué)認(rèn)識方法論問題,因?yàn)橹灰斫饬诉@些,就會很容易理解DeepSeek為什么如此高效的最基本的算法:以“先期預(yù)訓(xùn)練為基礎(chǔ)”的純強(qiáng)化學(xué)習(xí)(Pure Reinforcement Learning)算法。雖然單純從強(qiáng)化學(xué)習(xí)算法本身來說可以從任何基礎(chǔ)開始,但前面有一個預(yù)訓(xùn)練的基礎(chǔ)還是非常重要的,簡單點(diǎn)說就是已經(jīng)訓(xùn)練過的內(nèi)容就不要再重復(fù)訓(xùn)練了。就像已經(jīng)計(jì)算過的三角函數(shù)就不要在每一個像素處理時重復(fù)計(jì)算。這就是節(jié)省大量算力的奧秘之一。強(qiáng)化學(xué)習(xí)算法主要以原來的訓(xùn)練結(jié)果為基礎(chǔ),只是不斷調(diào)整新的處理結(jié)果與目標(biāo)問題(強(qiáng)化學(xué)習(xí)算法本身的專業(yè)術(shù)語叫“環(huán)境”)之間的偏差(專業(yè)術(shù)語叫“獎勵”)。

我之所以盡量不用專業(yè)術(shù)語,而用一般人能理解的自然語言,不僅是理解起來會更為容易,還有更重要的一點(diǎn)是:很多專業(yè)術(shù)語事實(shí)上可能存在不一定完全合適的問題,很容易讓人產(chǎn)生誤解,后面會談到。

所以,簡單地說最新的DeepSeek版本訓(xùn)練成本只有560萬美元是不完全準(zhǔn)確的,DeepSeek過去投入的17億不能說在最新的版本中沒有任何體現(xiàn)。但在此基礎(chǔ)上,完全新的訓(xùn)練真的可以做到新增的成本就非常低了。所以,說它最新的訓(xùn)練成本只有560萬美元當(dāng)然是有道理的。

那其他很多大模型難道是每次新版本都是一次又一次重復(fù)去訓(xùn)練嗎?客觀地說,利用已經(jīng)有的訓(xùn)練結(jié)果這種經(jīng)驗(yàn)知識依賴的方法在其他大模型中也有體現(xiàn),但總體上說他們的確是存在大量一遍又一遍進(jìn)行重復(fù)訓(xùn)練的問題。這當(dāng)然對算力的消耗就數(shù)量級地增大了。

所以,信息技術(shù)雖然變化很快,但如果理解了最一般的科學(xué)認(rèn)識方法,就會發(fā)現(xiàn)幾乎沒什么新技術(shù)。一切所謂的創(chuàng)新技術(shù)都是原來已經(jīng)有的技術(shù)原理在新的技術(shù)條件下的再現(xiàn),別被那些所謂的“尖端技術(shù)”包裝唬住了。中國是如此,美國同樣是如此。

三、提升信息處理效率的最一般方法

1.去掉冗余

無論是理論的還是經(jīng)驗(yàn)的方法,要提升信息處理效率,其最基本的原則其實(shí)是一樣的,就是盡可能減少“重復(fù)” —— 或者用信息技術(shù)的語言叫減少“冗余”。

如果是在存儲中,已經(jīng)存了一份信息,完全相同的信息不用再重復(fù)地存儲,這就是存儲信息的壓縮。一切文本、圖像、視頻的壓縮技術(shù)和存儲器的壓縮技術(shù),都是通過各種途徑減少重復(fù)的信息,這就可以節(jié)省存儲空間。

如果是已經(jīng)計(jì)算過一遍的模型,就不要再重復(fù)地進(jìn)行計(jì)算了,這就是算法上運(yùn)算量的壓縮。

2.適當(dāng)降低精度

精度要求越高,一般來說對算力的需求就更大。尤其是一些關(guān)系不大的細(xì)節(jié),簡單地去掉,就可以節(jié)省大量的算力以及存儲量。例如,圖像處理中,因?yàn)槿藢︻伾募?xì)節(jié)敏感度遠(yuǎn)遠(yuǎn)低于亮度,所以一般是在相鄰的四個像素的色度信息中,只保留一個就可以了。這樣本來是每個像素一個亮度兩個色度共三個信息,四個像素3*4=12個信息,直接可以去掉6個(三個像素中的兩個色度信息),這樣就可以直接將圖像信息量減少一半。這種圖像格式就叫4:2:0,原始圖像格式是4:4:4。在圖像的有損壓縮中,也是將部分不重要的細(xì)節(jié)信息(信息量會更大)直接丟掉,從而極大減少存儲所需要的信息量。

在人工智能中,也存在這種適當(dāng)降低精度的方法,叫“量化”。我個人認(rèn)為這個術(shù)語起的名字很不好,尤其一般人可能不太好理解。所以,如果你是普通人,看不懂一些專業(yè)術(shù)語,不要自卑,可能不是你理解力不行,而是這個術(shù)語名字起得真是太差了,這種情況其實(shí)是非常普遍的。量化這個詞用得場合太多,大多都不太合適。例如DeepSeek這家公司最初所從事的行業(yè)就叫“量化交易”。這個“量化交易”中的量化一詞起得名字也不是太好。最好的詞是普通人第一眼看到的理解就是準(zhǔn)確的,并且與術(shù)語本身字面的意義最好一致。所謂“量化”是把原來不是“數(shù)量的”變化成“數(shù)量的”。例如模數(shù)轉(zhuǎn)換(A/D)電路中把原來的模擬量轉(zhuǎn)化成數(shù)字量,這個過程就叫“量化”。這也是“量化”這個專業(yè)術(shù)語最原始的正宗含義,其他領(lǐng)域的“量化”叫法都是借用的。我就是在大學(xué)里學(xué)電路專業(yè)出身的。所以這種術(shù)語唬別人可以,想唬住我行不通。

人工智能中所謂的“量化”是簡單地降低數(shù)據(jù)的精度,例如把4個字節(jié)的浮點(diǎn)數(shù)據(jù)減少成2個字節(jié)的浮點(diǎn)數(shù)據(jù),存儲量就簡單地降低了一半。原來的數(shù)據(jù)就是數(shù)量化的,只是精度減少了,這怎么能稱為“量化”呢?它是“粗略化”“低精度化”。但如果這么按真實(shí)含義來起名字,就顯得自己這個技術(shù)很Low。所以就起個“量化”這種聽起來高大上又讓人云里霧里的名字。

量化交易中的“量化”這個詞也是不太合適的。因?yàn)樵瓉淼耐顿Y交易也是依據(jù)大量數(shù)學(xué)模型和數(shù)據(jù)為基礎(chǔ)的。量化交易的關(guān)鍵,是把選股和買賣決策判斷,通過設(shè)定相應(yīng)的交易策略后,交給計(jì)算機(jī)程序自動實(shí)現(xiàn)了。所以,稱“計(jì)算機(jī)自動化交易”可能更容易理解一些。當(dāng)然,也可能最初搞這個交易的人就是不希望普通人搞明白,才起這種聽起來高大上又含糊不清的術(shù)語。既然最初的人起了名字,后面的人只好延續(xù)這個術(shù)語,好顯得自己是專業(yè)的。所以,不要以為你能講專業(yè)術(shù)語就能唬住人。

與量化交易相對應(yīng)的還有“高頻交易”。中國證監(jiān)會2024年5月11日發(fā)布的《證券市場程序化交易管理規(guī)定(試行)》第二十一條的規(guī)定,高頻交易是指具備以下特征的程序化交易:(一)短時間內(nèi)申報(bào)、撤單的筆數(shù)、頻率較高;(二)日內(nèi)申報(bào)、撤單的筆數(shù)較高;(三)證券交易所認(rèn)定的其他特征。其實(shí),這些定義都沒抓住要害,也是這個名稱中的“高頻”這個用詞不完全恰當(dāng)造成的。這種交易的關(guān)鍵要害是利用比一般交易所更低延時的通訊技術(shù)手段,因?yàn)槠溲訒r更低,這樣就可以在一個極短的時間內(nèi),相當(dāng)于提前可以獲知股價(jià)的變動,從而提前下單買進(jìn)和賣出,這就鐵定可以賺錢了,雖然一次賺得不一定很多。因此,這種交易的本質(zhì)是“短時提前交易”,而不一定絕對的頻度很高。當(dāng)然,因?yàn)槠涠虝r,股票的差價(jià)就不一定會大到那里去,為了獲得更多收益,它一般的確會進(jìn)行更多次的交易。多次可能“高頻”也可能不一定是“高頻”,而只是在相當(dāng)長的一個時間內(nèi)“多次”,頻度倒不一定很高。但無論如何,如果你不具備低時延的光纖通訊系統(tǒng)作支撐,比他人提前獲取股票價(jià)格和買賣雙方的下單信息,單純的程序化高頻只會死得很慘。

回到本節(jié)主題的降低精度減少硬件需求的方法,需要注意的是,簡單的降低精度也有可能導(dǎo)致最終效果不一定滿足要求。所以這里面也是有技巧的。

3.適當(dāng)簡化、降低問題復(fù)雜度

如果要計(jì)算的參數(shù)越多,當(dāng)然計(jì)算量就越大。如果對模型進(jìn)行適當(dāng)?shù)睾喕?,減少參數(shù)和復(fù)雜度,計(jì)算量一般就會相應(yīng)地下降。100億參數(shù)模型進(jìn)行數(shù)據(jù)訓(xùn)練,與1000億參數(shù)相比,簡單地來評估,在其他方面都一樣的情況下,計(jì)算量就會下降一到兩個數(shù)量級。但復(fù)雜度或參數(shù)減少了,可能其性能表現(xiàn)等也會有所降低。如果能夠很好地選擇參數(shù)和調(diào)整好各項(xiàng)系數(shù),有可能做到性能表現(xiàn)上差異極小。這種方法在人工智能中叫“蒸餾”(Distillation)。我同樣認(rèn)為這個術(shù)語很不好甚至非常糟糕。因?yàn)樗@然是引用化學(xué)中的蒸餾法這個術(shù)語。但化學(xué)中的蒸餾法是什么呢?

比如我們喝的蒸餾水,是通過把含有極少量雜質(zhì)的水加熱成蒸汽,然后在另一個冷凝器重新變成水。從中可知蒸餾法的特點(diǎn):目的是去除水中極少量的雜質(zhì),因此,蒸餾以后的水與之前的可能體積和重量變化都極小。一公斤含雜質(zhì)的水,蒸餾以后可能還是非常接近一公斤的純凈的水。

但人工智能中的蒸餾法想表達(dá)的過程,與化學(xué)中的蒸餾法顯然有比較大的差異。事實(shí)上它與“提純”更為接近:

  • 提純后體積重量一般會極大地變小。

  • 提純后的物質(zhì)可能還是有極少量雜質(zhì)。

  • 被提純過程丟棄的部分也可能含有少量未提純出來的有效物質(zhì)。

或者,也可以叫“裁減”等更準(zhǔn)確并更容易理解的術(shù)語表達(dá)。

但是,如果采用這些更通俗并更準(zhǔn)確和容易理解的術(shù)語的話,那就顯不出是尖端技術(shù)了。所以,叫“蒸餾”這種有點(diǎn)莫名其妙的術(shù)語,就會顯得比較牛掰。在技術(shù)甚至很多科學(xué)領(lǐng)域,其實(shí)都存在類似情況。我過去曾專門寫文章討論過分子生物學(xué)領(lǐng)域起的學(xué)術(shù)名字非常糟糕的大量案例。一旦搞清楚這些,讀者理解他們就不會那么困難了。

所以,本文為什么一開始就強(qiáng)調(diào)要站在更高的層面來看問題,因?yàn)橹挥羞@樣“看扁”那些專業(yè)術(shù)語,你才能很容易地真正理解它們的準(zhǔn)確含義。

OpenAI現(xiàn)在指責(zé)DeepSeek是對其對應(yīng)版本軟件的蒸餾。事實(shí)是否如此我們不去評論,但就算存在相應(yīng)的過程又能怎么的?這本身就是人工智能中通用的合理方法。況且,DeepSeek也未必只針對OpenAI為藍(lán)本去進(jìn)行優(yōu)化。還可以有更多自我優(yōu)化的過程。他也未必只是從OpenAI模型的參數(shù)中簡化出來的。

你可以去指責(zé)DeepSeek抄襲,但我可以告訴你,這個世界上幾乎就沒有幾個技術(shù)是絕對原創(chuàng)的??梢哉f美國幾乎所有的技術(shù)全是在新的基礎(chǔ)條件下,對完全相同技術(shù)原理的不同實(shí)現(xiàn)和綜合,只不過給了個不同的技術(shù)概念名稱,就以為是全新的頂尖科技了。整個現(xiàn)代的計(jì)算技術(shù)就是對中國算盤的抄襲和新技術(shù)條件下的細(xì)節(jié)改變,所有信息存儲技術(shù)全都是對中國造紙術(shù)在新技術(shù)條件下的發(fā)展,所有現(xiàn)代的數(shù)字編碼技術(shù)全是對周易八卦的抄襲和新技術(shù)條件下的發(fā)展。

有人指責(zé)鴻蒙系統(tǒng)中有Android的代碼,那你以為Android是谷歌原創(chuàng)的嗎?不是。并且,創(chuàng)立Android的安迪·魯賓在之前有在蘋果和微軟公司的工作經(jīng)歷。Android是在Linux、蘋果、微軟公司的大量技術(shù)資源基礎(chǔ)上發(fā)展起來的。谷歌不僅不是Android的原創(chuàng)者,而且它是把安迪·魯賓與其他人在2003年10月創(chuàng)立的Android公司,在2005年通過收購并入谷歌的。

微軟最初的DOS系統(tǒng),就是抄襲基爾·代爾的CP/M操作系統(tǒng),而且還不是微軟自己抄襲,是直接買的另一家抄襲的小公司產(chǎn)品,連其中基爾·代爾最初的語法錯誤“1 file(s) copied”都原封不動地抄襲過來,一直到微軟的DOS操作系統(tǒng)被視窗系統(tǒng)替代完了,這個語法錯誤都沒完全改過來。

只要法律上不違反專利,“抄襲”換個名字就叫“學(xué)習(xí)”。

所以,那些指責(zé)DeepSeek抄襲的人早點(diǎn)閉嘴吧,這唯一證明的只是你們壓根就不是這個圈子里的人。除了中國的算盤、造紙和周易是真正0到1的原創(chuàng)技術(shù)以外,此后的信息技術(shù)發(fā)展從始至終就全都是“抄襲”的。

四、DeepSeek的特色技術(shù)

1. 三個重要的特色技術(shù)

要理解DeepSeek為什么效率這么高,僅僅說它采用了蒸餾技術(shù)是差太遠(yuǎn)的。需要認(rèn)識到它的確有很多自己特色性的技術(shù)。從這些特色性的技術(shù)中可以看到,他們的出發(fā)點(diǎn)都是盡最大努力去減少人工智能中的各項(xiàng)成本。例如:

  • 不依賴于對用于訓(xùn)練的數(shù)據(jù)進(jìn)行人工打標(biāo)簽。

  • 混合專家架構(gòu)(Mixture of Experts:MoE)。

  • 多頭潛在注意力(Multi-Head Latent Attention,MLA)

2. 打標(biāo)簽是怎么回事

要理解DeepSeek不依賴于人工打標(biāo)簽,首先得理解打標(biāo)簽是怎么回事。人工智能軟件為什么能理解人類的文本和圖像等數(shù)據(jù)?這個如果不理解對數(shù)據(jù)打標(biāo)簽的話可能會感覺很神奇,但理解了這個后可能就沒有什么神秘感了。如果從一開始就是把互聯(lián)網(wǎng)上的數(shù)據(jù)直接輸入人工智能軟件里,要讓它準(zhǔn)確理解是極為困難的。所以,原始的數(shù)據(jù)并不是直接輸給軟件,而是先由人去判斷并打上標(biāo)簽。簡單來說,比如“美國”和“美圖”這兩個詞,前一個要理解成一個國家“美國”,后一個要理解成“美麗的圖片”簡稱。這類理解是首先由人工智能的工程師制定好一些規(guī)則,然后交由專門進(jìn)行打標(biāo)簽的人去干的活。所以,別以為大模型的人工智能真的那么神奇,真的有智能,其實(shí)還是人類智能的計(jì)算機(jī)化。但是,這么干的話有一個問題,就是人工打標(biāo)簽是一個成本很高,效率也比較低,而且工作量很大的事情。美國Scale AI公司就是專業(yè)給其他大模型公司做人工打標(biāo)簽的工作的。所以現(xiàn)在這個公司的創(chuàng)始人亞歷山大·王就馬上跑出來公開指責(zé)DeepSeek。原因很簡單,你DeepSeek要是這么搞,會讓Scale AI壓力山大,沒活干了。

那DeepSeek為什么可以不依賴于人工打標(biāo)簽?zāi)??最初的模型還是需要人工打標(biāo)簽的,但是我們前面說了,提升效率的方法就是去掉冗余——已經(jīng)打過標(biāo)簽的應(yīng)該就不用重復(fù)再打了呀!另外,采用強(qiáng)化學(xué)習(xí)的方法,事實(shí)上不是在事先對數(shù)據(jù)進(jìn)行人工理解的判斷并打標(biāo)簽,而是可以在模型運(yùn)行之后做出人工的判斷來調(diào)整之前訓(xùn)練的數(shù)據(jù),也起到與人工打標(biāo)簽類似的作用。如果整體上是在之前已經(jīng)采用人工打標(biāo)簽的方法訓(xùn)練過的基礎(chǔ)數(shù)據(jù)之上進(jìn)行強(qiáng)化學(xué)習(xí),就基本不需要再人工打標(biāo)簽了。

理解了我們前面鋪墊的基礎(chǔ)方法論層面的知識,這個奧秘是不是就可以一語道破了。

3. 混合專家架構(gòu)MoE

我在本文中盡量不深入技術(shù)細(xì)節(jié),尤其不深入DeepSeek具體是怎么實(shí)現(xiàn)的,原因在于對絕大多數(shù)人來說,不需要去了解那些細(xì)節(jié)。對其他專業(yè)的技術(shù)人員來說,如果你理解了最基本的原理,你也可以用不同的技術(shù)路線去實(shí)現(xiàn),甚至獲得更好的技術(shù)實(shí)現(xiàn)。對DeepSeek來說,他們本身就在天天修改代碼進(jìn)行各種改進(jìn),所以其他人太過于深入地追實(shí)現(xiàn)的細(xì)節(jié)永遠(yuǎn)也追不上的。

我個人事實(shí)上從了解通用人工智能技術(shù)的一開始就很推崇混合專家模型這個技術(shù)路線。那還是十多年前,連OpenAI都還沒有成立的時候,我就作為投資人在硅谷接觸到一些當(dāng)時頂尖的通用人工智能創(chuàng)業(yè)公司。我當(dāng)時就對“通用人工智能”這個概念非常有疑問,或者說非常不贊同。各種專業(yè)的人工智能技術(shù)早就有了,為什么不通過整合不同專家系統(tǒng)來實(shí)現(xiàn)通用的人工智能呢?當(dāng)時那些創(chuàng)業(yè)者的技術(shù)團(tuán)隊(duì)給我的回復(fù)是:這種思路業(yè)界不是沒人提,但要提前進(jìn)行數(shù)據(jù)的專業(yè)分類會非常麻煩,而且不同人的理解會不一樣。

“通用人工智能”這個概念本身也不是太合適的,誤導(dǎo)了社會大眾。事實(shí)上這個技術(shù)最初的Transformer最大貢獻(xiàn)是實(shí)現(xiàn)了一種比較通用的生成式人工智能算法。所以重點(diǎn)在“生成式”,而不是“通用”。目前人工智能熱點(diǎn)向混合專家架構(gòu)轉(zhuǎn)化,可以說與我最初的判斷是相符合的。當(dāng)年的神經(jīng)網(wǎng)絡(luò)技術(shù)也是有很大通用性的?。繛槭裁床徽f神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)算法也是通用人工智能呢?當(dāng)然,中間走一個大而全的通用人工智能過程也是有意義的,就是先摸索出一些新的模式出來。而且,不同專家模型的形成也是在這個過程中自然形成,這樣就不用提前去做專業(yè)數(shù)據(jù)分類的工作。這種提前進(jìn)行的分類可能也不一定合適。

人類也是分成各個領(lǐng)域?qū)<业模馔ㄓ玫膯栴}也是不同專家合在一起來實(shí)現(xiàn)。人工智能當(dāng)然也會走向這個模式。

混合專家架構(gòu)的好處是什么呢?這個需要結(jié)合前面所說的強(qiáng)化學(xué)習(xí)。因?yàn)橐呀?jīng)訓(xùn)練出來的數(shù)據(jù)需要在新的與環(huán)境的交流中不斷地進(jìn)化。設(shè)想一下,我們就以量化這個詞為例,因?yàn)樗诓煌膶I(yè)領(lǐng)域含義是不一樣的。如果不加任何區(qū)別,它就會在不同專業(yè)領(lǐng)域跳來跳去,差別較大。如果出現(xiàn)一個新的領(lǐng)域采用量化這個詞,產(chǎn)生的差異就更大了。這就會給已經(jīng)訓(xùn)練好的人工智能數(shù)據(jù)產(chǎn)生比較大的干擾。但是,如果分成各個不同的專業(yè)領(lǐng)域,那么它們相互之間就不會產(chǎn)生干擾了。新的環(huán)境變化越小,對模型產(chǎn)生的干擾就越小,也越容易趨于穩(wěn)定、計(jì)算量也越小。

通用人工智能的技術(shù)路線,所有的數(shù)據(jù)與其他數(shù)據(jù)都可能有相關(guān)性(被稱為“稠密模型”),這個計(jì)算量就太龐大了。但通過混合專家系統(tǒng)的專業(yè)分類(被稱為“稀疏模型”),大多數(shù)的相關(guān)性計(jì)算可以只與自己專家模型內(nèi)的數(shù)據(jù)進(jìn)行,這就極大地降低了總體的計(jì)算量。很多會議為什么要分組討論,其實(shí)也是同樣的原理,沒多大關(guān)系的就不要在一起浪費(fèi)時間。

多個專業(yè)模型合在一起,表現(xiàn)得像是一個什么都懂的通用人工智能,就需要在一開始先分清楚新的輸入屬于哪個專家模型的,從而好交給它來處理。這就需要一個“門控”的判斷機(jī)制。但凡是學(xué)過編程的人是不是馬上會想起Switch(英文含義是轉(zhuǎn)換、開關(guān)等)這個幾乎所有編程語言都常用的語句?它就是一個門控機(jī)制。最簡化的只有兩個選擇的門控編程語句是if。所以,真正的技術(shù)原理其實(shí)都是差不多的,只是不同條件下不同的實(shí)現(xiàn)而已。Switch這個語句就是會提供一個判斷的條件,當(dāng)判斷出不同結(jié)果時,就交給不同條件下的子程序去處理。它就像是一個大公司的前臺,來的客人說明自己的來意,前臺就會判斷他要找的是哪個部門的人,然后就會給你引導(dǎo)到這個部門去具體處理。

混合專家架構(gòu)MoE可以看成是一個高度放大版的Switch編程語句。

4.多頭潛在注意力MLA

我同樣再強(qiáng)調(diào)一下別被表面深奧的技術(shù)概念搞暈頭了。簡單來說,當(dāng)很多人去用人工智能軟件如DeepSeek或豆包等進(jìn)行查詢的時候,輸入的查詢要變成計(jì)算機(jī)的語言,它叫鍵(Key)和相應(yīng)的值(Value)。記住我們前面說的基本原理,你馬上就可以想到,那么多查詢肯定有大量重復(fù)的。如果所有查詢?nèi)仟?dú)立地在內(nèi)存中存儲,當(dāng)然會占用大量寶貴的內(nèi)存。那么,如果把那些重復(fù)的查詢整合在一起,實(shí)現(xiàn)壓縮,那內(nèi)存占用是不是就非常小了?MLA其實(shí)就這么簡單。實(shí)際進(jìn)行查詢的時候解壓縮出來就和原來是一樣處理過程了。

這個就如同我們在網(wǎng)上看直播的時候,視頻最初是經(jīng)過壓縮后才在網(wǎng)上傳的,等傳到用戶處再解壓縮后重現(xiàn)出來。

如果有人直接將原始視頻在網(wǎng)上傳,當(dāng)然占用的資源就大多了?!?美國的人工智能就是這么干的。所以不是DeepSeek效率太高,而是美國的技術(shù)路線實(shí)在是太 Low了。

五、為什么美國的信息技術(shù)會存在這么大的改進(jìn)空間?

美國引領(lǐng)了整個信息技術(shù)的進(jìn)程。這使得美國建立的信息架構(gòu)成了全世界的標(biāo)準(zhǔn)。其他國家的技術(shù)人員往往是不問為什么標(biāo)準(zhǔn)會這么建立,直接拿過來就用。即使發(fā)現(xiàn)一些看似很不合理的地方,也會認(rèn)為這里面肯定有什么我們不知道的原因才如此,人家美國肯定都想清楚了。事實(shí)上完全不是這樣的。

其實(shí)也可以說DeepSeek采用的技術(shù)沒有任何是真正原創(chuàng),美國全都有。信息技術(shù)實(shí)在是太多了,實(shí)現(xiàn)相同目標(biāo)的技術(shù)路徑和方案可以有非常非常多選擇。選擇不同的方案和技術(shù)路線不同,可能會體現(xiàn)出不同的文化。

1. 各種資源的成本平衡問題

第一個問題是:軟件的實(shí)現(xiàn)涉及到很多方面資源成本的平衡:

  • 計(jì)算能力成本。

  • 存儲能力成本。

  • 網(wǎng)絡(luò)帶寬成本。

  • 編程的人工成本。

  • 其他。

實(shí)際的產(chǎn)品實(shí)現(xiàn)中,需要根據(jù)不同資源的成本差異,設(shè)計(jì)不同的實(shí)現(xiàn)方案。

(1) 如果計(jì)算能力獲得很容易,存儲成本很高,那么在算法上就會傾向于算力依賴型,這樣更為經(jīng)濟(jì)。

(2) 反之,如果存儲成本很低,計(jì)算成本很高,就可以傾向于采用算力極小化,歷史經(jīng)驗(yàn)知識依賴型算法。

(3) 如果編程的人工成本和管理成本很高,計(jì)算和存儲能力的獲得都很容易且成本較低,就會傾向于用最簡單的編程算法去實(shí)現(xiàn),而不用太關(guān)注產(chǎn)品計(jì)算和存儲的成本消耗和效率。這就是一種硬件依賴型的算法。

(4) 如果硬件成本相對極高,就得通過更為復(fù)雜的編程去盡可能節(jié)省計(jì)算和存儲的硬件資源。

(5) 如果網(wǎng)絡(luò)帶寬成本很高,就會追求需要傳輸?shù)男畔⒏邏嚎s率。

所以,如果沒有以上各個方面成本的綜合平衡,是不能簡單地說哪種算法或策略更好的。

但是,美國在引領(lǐng)信息技術(shù)發(fā)展的過程中,逐步地形成了他們自己特定的文化。因?yàn)樾酒哪柖桑?jì)算和存儲能力是可以很容易獲得并迅速增長的,而美國的人工比較貴。所以,美國就形成不太關(guān)注計(jì)算和存儲效率的最優(yōu)化,而主要關(guān)注編程的方便性、簡潔性、可讀性等。這個雖然不那么絕對,但總體上是這樣。

20世紀(jì)90年代初,我在北郵上研究生期間有過很深的體會,我的課題是要做一個叫作潮涌填充的算法軟件。這個是被用作諸如衛(wèi)星云圖中任意不規(guī)則的如湖泊等水面確定以及面積計(jì)算。所謂潮涌填充算法是先由軟件操作人員從一個很明顯是湖面上的一點(diǎn)開始,然后計(jì)算機(jī)自己從這個像素點(diǎn)開始,通過判斷與其相鄰的像素是否有相同的顏色。如果是相同的,就打上標(biāo)簽,如果不是就放棄這個方向的繼續(xù)判斷。這樣到最后會把所有相鄰的(相互連通的)湖面像素全都找出來。這種潮涌填充最原始的算法是非常簡單的,就是一個像素點(diǎn)的處理是判斷其上、下、左、右四個像素,如果是相同的,就以這個新的像素為基礎(chǔ)進(jìn)行相同的處理過程。這種自己調(diào)用自己的方法被稱為“遞歸”方法。

這種最簡單像素判斷的“遞歸”算法帶來的一個問題是,它不去記住已經(jīng)判斷過的像素,每次遞歸調(diào)用都是上下左右四個像素都進(jìn)行判斷,這樣每個湖面的像素點(diǎn)很可能會被重復(fù)判斷四次。這種算法就是純粹算力依賴型的。我當(dāng)時就建立了一種“有向潮涌填充算法”,可以使湖面的每個像素點(diǎn)只要被判斷一次就可以了。其原理也就是歷史經(jīng)驗(yàn)知識依賴型的方法,把已經(jīng)判斷過的像素記?。▽?shí)際實(shí)現(xiàn)中是采用記信相同顏色的線段兩個端點(diǎn)),這樣就可以使所有湖面的像素基本上作一次判斷就可以了,這就使計(jì)算效率達(dá)到了最理想的程度。實(shí)現(xiàn)這個軟件后,我與美國當(dāng)時最先進(jìn)的同類軟件進(jìn)行了對比測試,的確效率成倍提高,與理論分析是一致的,達(dá)到了當(dāng)時世界上最高的計(jì)算效率。這個給我非常大的觸動 —— 啊,我怎么這么容易就搞出一個世界第一呢?而且改進(jìn)的幅度居然這么大?在此過程中,我對軟件系統(tǒng)的效率問題專門作過大量的研究。例如,將最常用到的變量(如計(jì)數(shù)器變量等)設(shè)置成CPU中的寄存器變量的話,因?yàn)榧拇嫫髟L問速度最快,所以即使其他部分不作變動,軟件所需要的計(jì)算時間也會顯著縮短。

研究生畢業(yè)后我作為王碼電腦惠州有限公司的總工程師,進(jìn)行過大量電腦硬件和軟件開發(fā)工作。在此期間我刻意研究過軟件系統(tǒng)的效率問題。例如,我曾將一個數(shù)據(jù)庫系統(tǒng)整個軟件和數(shù)據(jù)通過當(dāng)時的一個“虛擬硬盤”的軟件全部裝進(jìn)內(nèi)存里,就這么一個簡單的措施,居然讓運(yùn)算效率提升了一個數(shù)量級。

這些研究經(jīng)歷使我明白一個道理:美國因?yàn)槭荂PU芯片等計(jì)算能力生產(chǎn)的核心,它的產(chǎn)品研發(fā)理念是不缺計(jì)算能力,但軟件編程的工程師很貴。所以采用編程盡可能簡單、好管理,而不用太關(guān)注計(jì)算效率的信息技術(shù)文化。

2.商業(yè)因素

形成這種文化還有第二個方面的商業(yè)原因。因?yàn)镃PU是INTEL等公司生產(chǎn)的,他們嚴(yán)格按照摩爾定律不斷地成倍升級芯片性能。如果拋棄計(jì)算依賴型的算法,過多地提升計(jì)算效率,新的CPU就不會有那么強(qiáng)烈的需求了。在整個信息技術(shù)的硬件產(chǎn)品中,掌握CPU的公司無疑具有整個信息技術(shù)架構(gòu)最基本的標(biāo)準(zhǔn)控制能力。所以,在所有硬件中,掌握CPU的公司相比于存儲產(chǎn)品的公司,擁有更大的話語權(quán)。外設(shè)類的公司話語權(quán)就更弱了。

所謂的WINTEL聯(lián)盟,就是這兩家公司形成一種默契,INTEL會說服微軟根本不用過于關(guān)注軟件的計(jì)算效率,這個問題交給INTEL來解決就可以了。微軟也樂得將更多精力關(guān)注于編程的簡單性和用戶界面的更加友好。因此,這種文化長期演變下來,就會在計(jì)算效率上形成巨大的改進(jìn)空間。

這種計(jì)算效率非常低下的改進(jìn)空間,在人工智能時代也延續(xù)到英偉達(dá)與OpenAI等形成的軟硬件體系上。

事實(shí)上,所有那些技術(shù)改進(jìn),提升計(jì)算效率的方法美國人都知道,甚至大多數(shù)都是他們最先提出來的。但因?yàn)檫@種文化的形成他們,甚至因?yàn)樯虡I(yè)的人為因素,他們不會去充分利用這些技術(shù),在一定條件下還會人為地故意降低硬件的使用效率,甚至?xí)惯@種效率的人為降低達(dá)到令人感到匪夷所思的荒唐地步,僅此而已。

這就是為什么DeepSeek可以將人工智能的計(jì)算效率提升這么大的技術(shù)可能性所在。

六、中國式的“編程依賴型、硬件資源極小化”文化

1.中國歷史形成的硬件資源極小化的文化

中國共產(chǎn)黨從最初創(chuàng)立之始,就是在極度缺乏各種硬件資源的條件下發(fā)展起來的。所以,中國早就形成了“編程依賴型的、硬件資源極小化”的文化。這種文化體現(xiàn)在非常多的領(lǐng)域,例如抗美援朝戰(zhàn)場上,志愿軍能將武器裝備的資源利用效率,通過各種途徑發(fā)揮到極致,利用的是“人的主觀能動性”。但美國卻是一種簡單投入更多硬件資源的所謂“范弗里特彈藥量”文化。

硬件資源極小化,對應(yīng)的就是硬件資源利用率的極大化。

在信息技術(shù)領(lǐng)域,中國并不是從一開始就形成硬件資源極小化文化的。因?yàn)槊绹畛跽莆樟藥缀跛杏布?,給其他人留下的主要是應(yīng)用層的編程。如何去調(diào)用最底層硬件資源的算法,是通過各種“函數(shù)庫”、高級編程語言等給封裝起來的。單純應(yīng)用層的編程人員只知道程序在干什么,一般并不知道它具體在CPU、寄存器、內(nèi)存、緩存、硬盤、總線中是怎么存儲、傳輸和計(jì)算的。在這種情況下就很難去提升硬件效率。

但是,隨著中國產(chǎn)業(yè)鏈不斷地深入到底層的硬件,中國的工程師們也逐步了解了最底層的技術(shù)細(xì)節(jié)。要想充分地發(fā)揮硬件的能力,就需要在編程時采用更為底層的編程方法。采用匯編語言一般來說就很容易實(shí)現(xiàn)比高級語言的硬件效率更高。尤其中國公司做了更多軟硬件集成的系統(tǒng)工作,對充分發(fā)揮硬件能力的技術(shù)積累有很多的條件和機(jī)會。

DeepSeek主要采用的編程語言是PTX(Parallel Thread Execution)語言,接近于比較底層的匯編語言,它可以更好地在大算力需求的程序上直接調(diào)度硬件資源,從而實(shí)現(xiàn)更高的硬件效率。而一般常用的人工智能高級語言Python,主要被用于模型的建構(gòu)、訓(xùn)練和部署等硬件執(zhí)行效率不是那么高的部分。

因此,DeepSeek就是采用的抗美援朝戰(zhàn)場上志愿軍的打法,用遠(yuǎn)低于對手的硬件需求,超高的硬件使用效率,從而能將對手殺得丟盔卸甲。

2.后摩爾定律時代的大趨勢

現(xiàn)在社會很多對人工智能的觀念理解都是錯誤的。例如認(rèn)為發(fā)展人工智能一定要很大的電力消耗。如果真是這樣的話,人工智能是發(fā)展不下去的。

在過去摩爾定律正常有效的時代,用相同的電力消耗可以持續(xù)獲得成倍增加的算力。但是現(xiàn)在隨著摩爾定律越來越失效,要獲得成倍增加的算力,就得接近于成倍增加電力消耗。如果還是延續(xù)過去摩爾定律有效時代的算力依賴型編程文化,即使中國這樣電力發(fā)展非常好的國家也是承受不了的。

因此,算力提升的困難并不僅僅是中國會遇到,美國也會遇到的。只是中國因?yàn)槊绹鴮Ω叨诵酒闹撇枚崆罢J(rèn)清了算力不足將在未來成為長期的客觀事實(shí)。也造成了中國工程師和企業(yè)提前轉(zhuǎn)向算力極小化的策略。

因此,這一次DeepSeek的沖擊并不僅僅是一次特定產(chǎn)品技術(shù)的沖擊,而是一次兩種信息技術(shù)發(fā)展文化和理念的大對撞。

七、中國的戰(zhàn)略選擇

2024年8月份,DeepSeek的部分投資人和一些人工智能相關(guān)領(lǐng)域的專業(yè)人士,邀請我和華為負(fù)責(zé)戰(zhàn)略的一位朋友一起進(jìn)行非正式的餐敘,討論人工智能大模型的相關(guān)問題。雖然說是非正式的討論,但作為投資人當(dāng)然還是想尋求大模型、尤其DeepSeek的大模型是否可以找到某種商業(yè)模式賺錢。席間剛開始我是不太敢說話的,因?yàn)槲覍θ斯ぶ悄艿挠^點(diǎn)向來比較保守。華為的朋友一直很坦率地持否定的態(tài)度,認(rèn)為很難有什么成功的商業(yè)模式。我是在華為的朋友說了很多以后才敢說出自己基本認(rèn)同他的個人想法的。但是,這個餐敘談得大家都很郁悶和心情沉重,到后來我又不敢再說話了。作為DeepSeek的投資人甚至有些直白地表達(dá)出:汪老師,別再這么說了,如果再這么講下去,那就等同于完全否定掉這個項(xiàng)目了。席間我也試圖積極地提出各種商業(yè)模式的可能性,例如模仿Scale AI的打標(biāo)簽外包等,也提到既然沒有商業(yè)效益,不如完全開源獲得社會效益。

今天DeepSeek的社會效益的確達(dá)到了那天我們曾設(shè)想和討論過的所有局面。

這也是幻方量化這家公司可以干成這件事的原因所在,因?yàn)樗煌耆侵竿@個掙錢的。

我不能說那次非正式討論對今天的DeepSeek開源起到什么作用,但很欣慰在DeepSeek今天被公眾知道之前,就有機(jī)會深入研究過這家公司。

從中國目前特定階段的情況來看,我們已經(jīng)突破了隨機(jī)存儲(合肥長鑫等)與閃存(長江存儲等)硬件技術(shù)。從芯片技術(shù)本身來說,存儲的集成度天然地就高于計(jì)算,因?yàn)樵陔S機(jī)存儲器芯片中,存一個比特信息只需要一個晶體管;在閃存中,一個晶體管甚至可以存2個(MLC閃存芯片)、3個(TLC閃存芯片)、4個(QLC閃存芯片)比特的信息。而在CPU中,一個比特的信息單元至少需要四個晶體管實(shí)現(xiàn)。在人工智能算力的芯片領(lǐng)域,中國目前還稍微落后。所以:

在整個硬件的成本平衡中,中國應(yīng)當(dāng)采用算力極小化,存儲依賴型的策略。以往的計(jì)算體系,尤其在PC時代形成的計(jì)算體系架構(gòu)中,是以“內(nèi)存稀缺”為前提建立的。例如最初設(shè)計(jì)的“虛擬內(nèi)存”技術(shù),就是為解決內(nèi)存非常稀缺的問題而提出的。這種情況在內(nèi)存成本已經(jīng)大幅度降底,并且可以實(shí)現(xiàn)海量內(nèi)存以后依然延續(xù)。我曾在1998年就提出過“海量內(nèi)存計(jì)算機(jī)”的概念,并且相關(guān)文章作為專題分三期發(fā)表在當(dāng)時的《計(jì)算機(jī)世界報(bào)》上。十年之后SAP公司才提出“內(nèi)存計(jì)算”的概念,但“內(nèi)存計(jì)算”這個概念是不準(zhǔn)確的,因?yàn)樗杏?jì)算都需要內(nèi)存,只有海量內(nèi)存才是本質(zhì)所在。因此,建立“計(jì)算稀缺,海量內(nèi)存”為前提的信息技術(shù)架構(gòu),是未來必然的方向。

在整體成本的平衡中,中國則應(yīng)當(dāng)采用編程依賴型,硬件資源極小化的策略。我在業(yè)界最先提出的SDN(軟件定義網(wǎng)絡(luò)),在數(shù)碼視訊工作時提出的EMR架構(gòu),都是硬件資源需求最小化的解決思路。當(dāng)時在荷蘭阿姆斯特丹參加IBC展會時,中國廣電系統(tǒng)的領(lǐng)導(dǎo)看了EMR之后興奮的說:太好了,這個和國外相比差距還剩多少啊。我回答說:國外公司和我們相比嘛,那差距還是有的。不好意思,這個體系架構(gòu)的創(chuàng)始人就在你眼前。他們聽后:啊???!好呀,好呀!這個體系架構(gòu)引領(lǐng)了當(dāng)時全球廣電系統(tǒng)的硬件平臺,包括美國的CISCO、德國的Blankom等眾多公司以及中國公司都沿用了這個平臺架構(gòu),成為了全球的事實(shí)標(biāo)準(zhǔn)。過去這些技術(shù)策略只是在部分領(lǐng)域采用,而在未來需要成為一種具有普遍性的文化和發(fā)展戰(zhàn)略全面超越美國的基本戰(zhàn)略策略,也是中國的優(yōu)勢所在。如果只是補(bǔ)上EUV光刻機(jī)與英偉達(dá)同級別的人工智能算力芯片,那最多只是與對手打平。只有采用完全不同的賽道,不同的信息技術(shù)文化,才能全面實(shí)現(xiàn)超越。

以此戰(zhàn)略策略為指南,動員了全國的工程技術(shù)人員、相關(guān)企業(yè)、政府人員和投資者,就造成了陷敵于滅頂之災(zāi)的汪洋大海,造成了彌補(bǔ)算力芯片、EUV光刻機(jī)等等暫時不足的補(bǔ)救條件,造成了克服一切困難并引領(lǐng)未來人類信息技術(shù)架構(gòu)和標(biāo)準(zhǔn)的前提。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美國沒想到,俄羅斯也沒想到!中國石油,如今會成為“遙遙領(lǐng)先”

美國沒想到,俄羅斯也沒想到!中國石油,如今會成為“遙遙領(lǐng)先”

來科點(diǎn)譜
2026-02-20 07:16:30
你是怎么發(fā)現(xiàn)親戚見不得你過得好的?網(wǎng)友:我混的好他暴跳如雷

你是怎么發(fā)現(xiàn)親戚見不得你過得好的?網(wǎng)友:我混的好他暴跳如雷

另子維愛讀史
2026-03-01 20:08:16
商業(yè)航天+算力:2025年報(bào)預(yù)增的6家公司

商業(yè)航天+算力:2025年報(bào)預(yù)增的6家公司

Thurman在昆明
2026-03-03 19:03:13
共休4天!2026年廣西三月三放假通知來了!

共休4天!2026年廣西三月三放假通知來了!

桔香融安
2026-03-04 20:55:09
平均收繳率71%、連續(xù)四年下滑,物業(yè)費(fèi)越來越難收 業(yè)內(nèi):行業(yè)全面進(jìn)入下半場

平均收繳率71%、連續(xù)四年下滑,物業(yè)費(fèi)越來越難收 業(yè)內(nèi):行業(yè)全面進(jìn)入下半場

每日經(jīng)濟(jì)新聞
2026-03-04 22:33:21
傳Windows 12今年發(fā)布:完全模塊化、以AI為中心

傳Windows 12今年發(fā)布:完全模塊化、以AI為中心

3DM游戲
2026-03-04 10:13:04
“茶幾”正在退出中國家庭,學(xué)廣東人這樣做,實(shí)用性讓人大開眼界

“茶幾”正在退出中國家庭,學(xué)廣東人這樣做,實(shí)用性讓人大開眼界

室內(nèi)設(shè)計(jì)師有料兒
2026-02-19 11:17:18
四川省大學(xué)排名"大洗牌"!川大回歸,川師超成理排第7,成大第19

四川省大學(xué)排名"大洗牌"!川大回歸,川師超成理排第7,成大第19

Delete丨CC
2026-03-04 15:53:16
睡覺時總在凌晨2、3點(diǎn)醒來,提醒:一般暗示5大疾病,別忽視

睡覺時總在凌晨2、3點(diǎn)醒來,提醒:一般暗示5大疾病,別忽視

路醫(yī)生健康科普
2026-03-02 21:40:03
烏克蘭越境攻入俄羅斯領(lǐng)土別爾哥羅德!南線反攻尋得突破口

烏克蘭越境攻入俄羅斯領(lǐng)土別爾哥羅德!南線反攻尋得突破口

項(xiàng)鵬飛
2026-03-03 20:45:00
夸美國空氣香甜的楊舒平,已被美驅(qū)逐出境,如今回國下場怎么樣了

夸美國空氣香甜的楊舒平,已被美驅(qū)逐出境,如今回國下場怎么樣了

談史論天地
2026-02-07 13:20:03
詹姆斯最可能回騎士!湖人復(fù)刻獨(dú)行俠2.0:圍繞東契奇里夫斯建隊(duì)

詹姆斯最可能回騎士!湖人復(fù)刻獨(dú)行俠2.0:圍繞東契奇里夫斯建隊(duì)

羅說NBA
2026-03-05 05:52:56
3月將至,退休人員領(lǐng)取3月份養(yǎng)老金的時候,要注意這幾件事

3月將至,退休人員領(lǐng)取3月份養(yǎng)老金的時候,要注意這幾件事

社保小達(dá)人
2026-03-04 09:35:08
什么板塊容易出現(xiàn)10倍股?3步走,直接套用!

什么板塊容易出現(xiàn)10倍股?3步走,直接套用!

小白鴿財(cái)經(jīng)
2026-03-04 07:05:03
那些曾赴美的伊朗球星,如今命運(yùn)如何?

那些曾赴美的伊朗球星,如今命運(yùn)如何?

仰臥撐FTUer
2026-03-04 17:00:06
雷克薩斯ES殺回來了!這顏值這配置,34萬起要搶奔馳E級飯碗?

雷克薩斯ES殺回來了!這顏值這配置,34萬起要搶奔馳E級飯碗?

華庭講美食
2026-03-04 17:15:37
佩德羅帽子戲法超越德羅巴,帕爾默建功,切爾西4-1維拉比肩曼城

佩德羅帽子戲法超越德羅巴,帕爾默建功,切爾西4-1維拉比肩曼城

釘釘陌上花開
2026-03-05 05:37:38
全球首款2nm旗艦賣爆!三星Galaxy S26系列銷量突破150萬臺

全球首款2nm旗艦賣爆!三星Galaxy S26系列銷量突破150萬臺

快科技
2026-03-04 20:37:10
美以與伊朗互相打擊態(tài)勢圖一覽

美以與伊朗互相打擊態(tài)勢圖一覽

網(wǎng)易新聞出品
2026-03-03 17:19:44
前妻再炮轟青島主帥劉維偉:非放不下 帶小三公開出入踐踏我尊嚴(yán)

前妻再炮轟青島主帥劉維偉:非放不下 帶小三公開出入踐踏我尊嚴(yán)

醉臥浮生
2026-03-04 12:58:55
2026-03-05 07:19:00
純科學(xué) incentive-icons
純科學(xué)
以純科學(xué)解決一切認(rèn)知問題
195文章數(shù) 454關(guān)注度
往期回顧 全部

科技要聞

多位核心離職,阿里親手廢掉最強(qiáng)AI天團(tuán)?

頭條要聞

外媒稱伊朗封鎖霍爾木茲海峽只讓中俄船通行 中方回應(yīng)

頭條要聞

外媒稱伊朗封鎖霍爾木茲海峽只讓中俄船通行 中方回應(yīng)

體育要聞

2026年中超,為什么值得你多看一眼?

娛樂要聞

謝謝謝娜 貢獻(xiàn)出26年內(nèi)娛的第一個笑話

財(cái)經(jīng)要聞

人大代表建議:將農(nóng)民養(yǎng)老金提到500元

汽車要聞

鴻蒙智行首款獵裝車 尚界Z7/Z7T首發(fā)

態(tài)度原創(chuàng)

健康
游戲
親子
旅游
本地

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

LPL首支先鋒賽隊(duì)伍出爐!BLG鎖定總決賽門票,國一上發(fā)文成焦點(diǎn)

親子要聞

孩子補(bǔ)了鈣還不長?問題出在脾胃上

旅游要聞

昆明圓通山櫻花盛放,一場穿越百年的春日之約,藏著春城浪漫密碼

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

無障礙瀏覽 進(jìn)入關(guān)懷版