国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek,該卸下掃地僧的枷鎖了

0
分享至

我每次翻《天龍八部》,翻到少林寺藏經(jīng)閣那一段,都要停下來。

蕭遠(yuǎn)山、蕭峰父子對(duì)上慕容博、慕容復(fù)父子,鳩摩智再?gòu)呐詳嚲?,三十年的血海深恨攪在一處,眼看就要分出生死。就在這當(dāng)口,一個(gè)枯瘦的掃地僧走了出來。

蕭峰的降龍十八掌打在他身上,他雖受內(nèi)傷吐血,卻以渾厚內(nèi)力生生受之;他舉手投足間讓慕容博陷入「假死」復(fù)又救活,這種生死由心的境界,令在場(chǎng)一眾頂尖高手莫不震懾失語(yǔ)。


這一刻,誰(shuí)強(qiáng)誰(shuí)弱,答案不言而喻。

AI 圈最近幾年,流行把 DeepSeek(深度求索)比作這位老僧。在所有人眼里,AI 賽道的格局早已注定,海外有御三家,國(guó)內(nèi)有大廠和彼時(shí)風(fēng)頭正盛的 AI 六小虎,輪不到旁人來置喙。

結(jié)果一家做量化交易出身的中國(guó)公司,悄沒聲兒地走出來,用一套從天而降的招法,在各項(xiàng)核心評(píng)測(cè)上與這幫人正面交手,打得有來有回。


只是,掃地僧出場(chǎng),是《天龍八部》行將收尾的時(shí)刻。他的使命是終結(jié)紛爭(zhēng)、化解戾氣,然后全書走向尾聲??纱竽P偷墓适?,沒有尾聲,也沒有終章,只有下一回,還有下下一回。

把 DeepSeek 比作掃地僧,是對(duì)它過去的最高贊譽(yù),但如果這三個(gè)字正在慢慢變成困住它的枷鎖,我倒覺得,贊譽(yù)和催命符,有時(shí)候只在一念之間。

掃地僧是怎么練成的

金庸寫掃地僧,從來不正面寫他的功夫。他寫的是別人的反應(yīng),蕭峰愣了,慕容復(fù)愣了,旁觀的人也愣了。高手的境界,要從旁人失語(yǔ)的瞬間才能傳遞出來。

DeepSeek 的故事,也暗合這個(gè)邏輯。

作為杭州的一家對(duì)沖基金,外人提到幻方量化,第一反應(yīng)是期貨、是算法交易、是數(shù)學(xué)天才們盯著屏幕上跳動(dòng)的數(shù)字。這和 AI 大模型,八竿子打不著,卻悄悄把一批工程師和研究員聚在一起做大模型。


2023 年 11 月,他們發(fā)布首個(gè)開源代碼大模型 DeepSeek Coder,后續(xù)拿出了一個(gè) 67B 的語(yǔ)言模型。在官方給出的多項(xiàng)評(píng)測(cè)中,67B 超過了 LLaMA2 70B,67B Chat 在部分中文和開放式評(píng)測(cè)中優(yōu)于 GPT 3.5。只是,圈內(nèi)少數(shù)幾個(gè)消息靈通的人注意到了,大多數(shù)人沒注意到。掃地僧還在掃地,少林寺的人都在忙著練少林長(zhǎng)拳。

讓其開始嶄露頭角,是 2024 年 5 月 7 日發(fā)布的 V2。V2 用的是 MoE(混合專家)架構(gòu),總參數(shù) 2360 億,但每次推理實(shí)際激活的只有 210 億。與此同時(shí),V2 首次采用了 MLA(多頭潛在注意力)機(jī)制,大幅壓縮了推理時(shí)的顯存占用。

兩相疊加,讓模型在同等效果下,跑得更快,花得更少。用金庸的話來說,這叫以柔克剛,以精妙的內(nèi)功路數(shù),彌補(bǔ)了真氣總量上的不足。


▲ https://arxiv.org/abs/2405.04434

但砸出最大水花的,是定價(jià)。V2 的 API 定價(jià),每百萬(wàn) token 輸入 1 元,輸出 2 元。GPT-4 Turbo 當(dāng)時(shí)是它的七十倍,Meta 的 Llama3 70B 是它的七倍。一塊錢,一百萬(wàn)個(gè) token,大約相當(dāng)于一本《三國(guó)演義》的字?jǐn)?shù)。

這個(gè)價(jià)格擺出來,讓整個(gè)國(guó)內(nèi)大模型市場(chǎng)為之色變。當(dāng)月,字節(jié)、阿里、百度、騰訊、訊飛、智譜,一家接一家跳出來宣布降價(jià),最高降幅 97%,部分輕量級(jí)模型直接免費(fèi)開放。

一場(chǎng)持續(xù)了大半年的價(jià)格戰(zhàn),就這么被 DeepSeek 的一句定價(jià)點(diǎn)燃了。那時(shí)候,業(yè)內(nèi)給 DeepSeek 送了個(gè)外號(hào),價(jià)格屠夫。

美國(guó)的半導(dǎo)體咨詢公司 SemiAnalysis 在那段時(shí)間寫了一篇分析,說這家公司有可能成為 OpenAI 的對(duì)手,也有可能碾壓其他開源大模型。當(dāng)時(shí)讀到這句話的人,大概有一半覺得是危言聳聽。一年多以后回頭看,沒有人再覺得是危言聳聽了。


2024 年末的 V3 和 2025 年初的 R1,則是連續(xù)出手的兩招,把對(duì)手打得目瞪口呆。DeepSeek 用極低的投入,打出了旗鼓相當(dāng)?shù)男Ч?/p>

更讓人震驚的是參與人數(shù),139 名工程師和研究人員完成了這個(gè)項(xiàng)目,而 OpenAI 同期有 1200 名研究人員,Anthropic 有 500 名。Meta 超級(jí)智能實(shí)驗(yàn)室負(fù)責(zé)人亞歷山大·王后來說了一句被廣泛流傳的話,當(dāng)美國(guó)人休息時(shí),他們?cè)诠ぷ?,而且以更便宜、更快、更?qiáng)的產(chǎn)品追上我們。

緊接著便是是 R1,主打深度推理,數(shù)學(xué)、代碼、邏輯,在相當(dāng)多的測(cè)試維度上與 OpenAI o1 不落下風(fēng),訓(xùn)練方法用的是 GRPO 強(qiáng)化學(xué)習(xí),靠讓模型自己想清楚來提升推理能力。


最要緊的一步是開源。

R1 的開源,被廣泛解讀為一種慷慨。模型權(quán)重、技術(shù)論文、訓(xùn)練細(xì)節(jié)全部公開,全球開發(fā)者共享成果。這套敘事里,DeepSeek 是那個(gè)敞開藏經(jīng)閣大門的人,路不拾遺,人人可進(jìn)。

武功秘籍直接擺桌上,誰(shuí)想學(xué)誰(shuí)來拿的這一手,也打破了少數(shù)幾家巨頭對(duì)前沿模型的壟斷,讓全球數(shù)以萬(wàn)計(jì)的中小開發(fā)者有了和頂尖模型掰手腕的資格。

金庸寫掃地僧,主要抓住幾樣?xùn)|西,出身邊緣、多年隱匿、一鳴驚人、技法精絕、胸懷坦蕩。DeepSeek V2 的價(jià)格屠刀、V3 的成本奇跡、R1 的開源普惠,也讓人們?cè)?DeepSeek 身上,真真切切地看見了那個(gè)老僧的影子。

枷鎖,以及枷鎖之后

但武俠小說是會(huì)結(jié)束的,AI 賽道不會(huì)。

每次我寫 DeepSeek 的文章,底下的評(píng)論區(qū)都像藏經(jīng)閣又打了一場(chǎng)架。有人說它安安靜靜做產(chǎn)品,不收費(fèi)、不立人設(shè),能用就用,這才是正道。有人說它連國(guó)產(chǎn)其他巨頭都未必打得過,已經(jīng)無法攪局。


有人替它抱不平,有人覺得它早就該被淘汰。更有人說,「我們一直以來都沒把 DeepSeek 當(dāng)作優(yōu)等生,而是當(dāng)作掃地僧,真心希望它能如我們所愿」,這句話說得又期待,又帶著一絲說不清楚的悲涼。


意見如此撕裂,本身就說明了一件事。DeepSeek 所受到的關(guān)注,早已超出了一家普通 AI 公司應(yīng)有的體量。捧它的人把它捧上神壇,罵它的人把它踩進(jìn)泥里,沒有幾家公司能在輿論場(chǎng)里同時(shí)承受這兩種極端。

這篇文章大概也逃不過同樣的命運(yùn),有人會(huì)說這是黑稿,有人會(huì)說這是 PR 稿,落個(gè)兩頭不討好。但這無所謂,輿論從來都是這樣,藏經(jīng)閣里打架,不管誰(shuí)贏,總有人不服。


說回正題,掃地僧出場(chǎng)那一幕,是《天龍八部》收尾的信號(hào)。他出手,紛爭(zhēng)平息,故事逐漸走向終章。這個(gè)敘事結(jié)構(gòu),似乎天然就帶著一種大結(jié)局的氣息,英雄橫空出世,一招定乾坤,從此江湖太平。

根據(jù)《創(chuàng)智記》援引知情人士消息稱,按照創(chuàng)始人梁文鋒在內(nèi)部透露的時(shí)間,DeepSeek V4 將于四月下旬正式發(fā)布。
爽文里的主角,每一章都要有突破,讀者翻到下一頁(yè),期待的永遠(yuǎn)是更大的驚喜。

V3 和 R1 用四兩撥千斤的邏輯征服了世界,大眾于是開始把它當(dāng)成 DeepSeek 的固定輸出,每一次出手都必須讓硅谷巨頭血濺千里,都必須讓英偉達(dá)的股價(jià)抖一抖。V4 也應(yīng)當(dāng)如此。


可在這等待一年多的時(shí)間里,外界等得有些躁動(dòng),各路聲音都出來了,說一拖再拖,是不是黔驢技窮了,掃地僧要不行了?說這話的人認(rèn)為 DeepSeek 理應(yīng)每次出手都是奇跡,一旦慢了半拍,便是江郎才盡。

慢,自然有慢的原因。

3 月 29 日,DeepSeek 的服務(wù)器崩了將近十三個(gè)小時(shí),創(chuàng)下網(wǎng)頁(yè)端和 App 平臺(tái)上線以來最長(zhǎng)中斷紀(jì)錄。連續(xù)的服務(wù)事故暴露了 DeepSeek 在運(yùn)維監(jiān)控、應(yīng)急預(yù)案和災(zāi)備機(jī)制上的明顯短板,也給整個(gè) AI 行業(yè)敲響警鐘。


當(dāng)然,綜合各家報(bào)道來看,V4 一再推遲的原因,還藏在芯片層面。

V3 和 R1 的成功,一定程度上建立在成熟的英偉達(dá) CUDA 生態(tài)上,DeepSeek 的工程師們?cè)诠ぞ咄陚?、文檔詳盡、社區(qū)活躍的環(huán)境里,把算法效率一點(diǎn)一點(diǎn)榨到了極限,每一步都踩得踏實(shí)。

V4 要做的事,是把這套功夫移植到國(guó)產(chǎn) AI 芯片上。工具鏈還在快速迭代,底層接口和 CUDA 差異巨大,分布式訓(xùn)練框架幾乎需要從頭重構(gòu)。

DeepSeek 交出的答卷,如果是在受限條件下做出來的,這讓它的每一分成績(jī),都帶著額外的含金量。哪怕梁文鋒愿意為這件事多拖幾個(gè)月,也是一筆非常劃算的決策。

至于 V4 本身,《創(chuàng)智記》報(bào)道稱,技術(shù)重心據(jù)悉落在了 LTM(長(zhǎng)期記憶)能力的突破上,同時(shí)將原生多模態(tài)從底層融入架構(gòu),文字和視覺在預(yù)訓(xùn)練階段就融合在一起。

另一個(gè)值得關(guān)注的變化,是梁文鋒本人的注意力在悄悄轉(zhuǎn)移。盡管在過去的一年里,包括 R1 的核心作者郭達(dá)雅在內(nèi)的部分 DeepSeek 核心骨干陸續(xù)離職,不過根據(jù)《晚點(diǎn) LatePost》的觀察,DeepSeek 的人才基本盤依然穩(wěn)固,并未出現(xiàn)大規(guī)模的人才流失現(xiàn)象。

進(jìn)入 2025 年下半年,梁文鋒也愈發(fā)看重技術(shù)的商業(yè)落地與產(chǎn)品化進(jìn)程,積極招募負(fù)責(zé) Agent 領(lǐng)域的策略產(chǎn)品經(jīng)理。與此同時(shí),他正在為公司啟動(dòng)估值,給員工的期權(quán)一個(gè)明確的錨點(diǎn),讓團(tuán)隊(duì)對(duì)未來有更清晰的預(yù)期。


綜合上述種種動(dòng)向不難得出一個(gè)結(jié)論:曾經(jīng)心無旁騖盯著 AGI 的 DeepSeek 也得開始面對(duì)一家成熟科技公司必須面對(duì)的那些現(xiàn)實(shí):商業(yè)閉環(huán)、生態(tài)建設(shè)、可持續(xù)的收入來源。

掃地僧可以幾十年不問江湖俗事,守著藏經(jīng)閣一掃到底,一家公司,沒有這個(gè)選項(xiàng)。

《笑傲江湖》里的令狐沖憑著獨(dú)孤九劍可以破盡天下武功,但當(dāng)他真正坐鎮(zhèn)恒山派,每天迎來送往,護(hù)佑門人,一招鮮遠(yuǎn)遠(yuǎn)不夠,他需要的是內(nèi)政、是人心、是香火代代相傳的根基。奇招,解決不了日常的柴米油鹽。


因此,我們應(yīng)該主動(dòng)幫 DeepSeek 卸下「掃地僧」這個(gè)名號(hào)。這三個(gè)字是對(duì)過去的最高褒獎(jiǎng),卻是對(duì)未來的過重負(fù)擔(dān)。即便 V4 發(fā)布時(shí)沒有斷崖式的領(lǐng)先,只是一款 LTM 扎實(shí)、多模態(tài)原生融合、各項(xiàng)指標(biāo)均衡的水桶機(jī)。

從產(chǎn)業(yè)的角度看,這依然是巨大的成功,成功在于它或許將證明 DeepSeek 有能力從一個(gè)創(chuàng)造奇跡的挑戰(zhàn)者,變成一個(gè)穩(wěn)定交付的基礎(chǔ)設(shè)施提供者。

有意思的是,這件事或許本來就是雙向的?!锻睃c(diǎn) LatePost》此前的報(bào)道里,DeepSeek 對(duì)外的溝通姿態(tài)明顯比以往克制,既沒有大張旗鼓地預(yù)熱,也沒有放出足以吊足胃口的技術(shù)信號(hào)。

這種低調(diào),很難說是無意為之。

他們比任何人都清楚,掃地僧這三個(gè)字背后懸著什么。每一次出手若不能再掀翻整張牌桌,輿論的落差就會(huì)被無限放大。這是一種預(yù)期管理,也是一種自我解綁——他們同樣不想再背著這個(gè)包袱走下去。


▲AI 模型的世界,已經(jīng)從少數(shù)幾家機(jī)構(gòu)的專屬游戲,變成了全球開發(fā)者共同參與的基礎(chǔ)設(shè)施建設(shè),而且這個(gè)趨勢(shì)還在加速。 https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026

而話說回來,當(dāng)輿論都在一窩蜂盯著 DeepSeek,卻少有人往旁邊多看一眼。


▲開源模型等級(jí)列表,圖片來源:https://www.interconnects.ai/p/2025-open-models-year-in-review

這片江湖里,國(guó)內(nèi)每一家 AI 都在苦修內(nèi)功,押注多模態(tài)、Agent 生態(tài)、算力布局,也都在各自的賽道上走出了自己的路數(shù)。

DeepSeek 固然是那個(gè)最讓人心跳加速的名字,但把眼光只鎖死在它一家身上,未免看窄了這個(gè)時(shí)代。真正讓天龍八部成為天龍八部的,是那一整代人各有來路,各有絕學(xué),彼此激蕩,才撐起了那個(gè)波瀾壯闊的時(shí)代。

掃地僧的傳說,止于藏經(jīng)閣那一戰(zhàn),藏經(jīng)閣外,才是真的江湖。

作者:莫崇宇

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
我住院大兒子出3萬(wàn),小兒子一分沒出,出院后我跟大兒子斷絕關(guān)系

我住院大兒子出3萬(wàn),小兒子一分沒出,出院后我跟大兒子斷絕關(guān)系

奶茶麥子
2026-04-11 15:45:18
花200元買水果被罵吃死你,懷孕妻子心寒不欲生子,已入冷靜期!

花200元買水果被罵吃死你,懷孕妻子心寒不欲生子,已入冷靜期!

川渝視覺
2026-04-10 15:59:55
北京飛絮的楊柳樹能不能都砍了?官方回應(yīng):不能一砍了之 而是科學(xué)施策

北京飛絮的楊柳樹能不能都砍了?官方回應(yīng):不能一砍了之 而是科學(xué)施策

閃電新聞
2026-04-12 17:25:25
11年前優(yōu)衣庫(kù)男女主現(xiàn)狀曝光,他們還在一起生了兩個(gè)孩子

11年前優(yōu)衣庫(kù)男女主現(xiàn)狀曝光,他們還在一起生了兩個(gè)孩子

半糖甜而不膩
2026-04-06 12:09:15
別被騙了!宋朝官帽那兩根“翅膀”,根本不是用來防交頭接耳的

別被騙了!宋朝官帽那兩根“翅膀”,根本不是用來防交頭接耳的

瘋狂的小歷史
2026-04-11 08:47:51
李在明手段實(shí)在高明,避開高市早苗,獨(dú)邀石破茂來場(chǎng)秘密交易!

李在明手段實(shí)在高明,避開高市早苗,獨(dú)邀石破茂來場(chǎng)秘密交易!

娛樂的宅急便
2026-04-12 18:11:21
伊朗官員:美國(guó)應(yīng)已明白外交不是發(fā)號(hào)施令的舞臺(tái)

伊朗官員:美國(guó)應(yīng)已明白外交不是發(fā)號(hào)施令的舞臺(tái)

界面新聞
2026-04-12 18:42:48
存儲(chǔ)巨頭業(yè)績(jī)狂飆321倍,這三只核心股或許是真正的香餑餑

存儲(chǔ)巨頭業(yè)績(jī)狂飆321倍,這三只核心股或許是真正的香餑餑

慧眼看世界哈哈
2026-04-12 17:28:03
抵達(dá)北京!乒協(xié)出手,鄧亞萍正式上任,新崗位曝光,孫穎莎發(fā)聲

抵達(dá)北京!乒協(xié)出手,鄧亞萍正式上任,新崗位曝光,孫穎莎發(fā)聲

萌蘭聊個(gè)球
2026-04-12 13:00:43
一場(chǎng)30分鐘的發(fā)布會(huì)與東風(fēng)日產(chǎn)的自我調(diào)整

一場(chǎng)30分鐘的發(fā)布會(huì)與東風(fēng)日產(chǎn)的自我調(diào)整

經(jīng)濟(jì)觀察報(bào)
2026-04-11 18:36:06
后來,我才明白,斷聯(lián)后不刪除、不拉黑、不聯(lián)系的人,不是在等對(duì)方回頭,而是在等自己放下

后來,我才明白,斷聯(lián)后不刪除、不拉黑、不聯(lián)系的人,不是在等對(duì)方回頭,而是在等自己放下

品讀時(shí)刻
2026-04-12 09:08:19
傷得很深!男子打賞女主播近300萬(wàn),想結(jié)婚時(shí)才知對(duì)方女兒都20歲了:我只顧為愛沖鋒,結(jié)果她全是假話

傷得很深!男子打賞女主播近300萬(wàn),想結(jié)婚時(shí)才知對(duì)方女兒都20歲了:我只顧為愛沖鋒,結(jié)果她全是假話

極目新聞
2026-04-10 15:54:54
4月12日俄烏:短暫的?;鸩⑽凑嬲龑?shí)施

4月12日俄烏:短暫的?;鸩⑽凑嬲龑?shí)施

山河路口
2026-04-12 17:32:30
4月起!有這3類病的,快去社區(qū)領(lǐng)證,一年少花幾千藥費(fèi)!

4月起!有這3類病的,快去社區(qū)領(lǐng)證,一年少花幾千藥費(fèi)!

椰青美食分享
2026-04-12 12:15:14
本?阿弗萊克 & 詹妮弗?加納復(fù)活節(jié)同框:前任育兒的體面天花板

本?阿弗萊克 & 詹妮弗?加納復(fù)活節(jié)同框:前任育兒的體面天花板

述家娛記
2026-04-10 15:54:38
哇這大體格,目測(cè)身高175,身形如此的勻稱,男人心中的完美伴侶

哇這大體格,目測(cè)身高175,身形如此的勻稱,男人心中的完美伴侶

動(dòng)物奇奇怪怪
2026-04-12 03:42:39
?;鸷灹艘舶状?!85名議員聯(lián)手逼宮,要罷免特朗普,警告絕不姑息

?;鸷灹艘舶状?!85名議員聯(lián)手逼宮,要罷免特朗普,警告絕不姑息

說歷史的老牢
2026-04-11 15:10:50
文章新飯店開張!開業(yè)當(dāng)天人氣爆滿,文章戴婚戒抱著嬰兒在店合影

文章新飯店開張!開業(yè)當(dāng)天人氣爆滿,文章戴婚戒抱著嬰兒在店合影

一盅情懷
2026-04-10 15:38:43
21歲男子駕駛黑色奧迪在合肥加油后逃單!已被行政拘留

21歲男子駕駛黑色奧迪在合肥加油后逃單!已被行政拘留

南方都市報(bào)
2026-04-12 15:04:07
日媒:44%的訪日中國(guó)游客資產(chǎn)額超680萬(wàn)元

日媒:44%的訪日中國(guó)游客資產(chǎn)額超680萬(wàn)元

隨波蕩漾的漂流瓶
2026-04-11 17:16:26
2026-04-12 20:04:49
愛范兒 incentive-icons
愛范兒
消費(fèi)科技第一媒體
38688文章數(shù) 2601461關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

女子帶5歲女兒和未滿1歲兒子用餐 女兒墜亡餐廳賠74萬(wàn)

頭條要聞

女子帶5歲女兒和未滿1歲兒子用餐 女兒墜亡餐廳賠74萬(wàn)

體育要聞

見證歷史!五大聯(lián)賽首位女性主教練誕生

娛樂要聞

46歲趙達(dá)官宣結(jié)婚!曾與殷桃談婚論嫁

財(cái)經(jīng)要聞

美伊談判破裂的三大癥結(jié)

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬(wàn)起

態(tài)度原創(chuàng)

本地
藝術(shù)
時(shí)尚
旅游
房產(chǎn)

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

藝術(shù)要聞

20位當(dāng)代女畫家的20幅作品

伊姐周六熱推:電視劇《八千里路云和月》;綜藝《乘風(fēng)2026》......

旅游要聞

視頻丨跟著課本去朔門古港考古遺址公園 觸摸千年海絲文明

房產(chǎn)要聞

土地供應(yīng)突然暴跌!2026??跇鞘校窬执笞?!

無障礙瀏覽 進(jìn)入關(guān)懷版