国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek能否扛住V4沖擊波,得問代達勱

0
分享至

文 | 字母AI

據(jù)新浪創(chuàng)智記報道,DeepSeek創(chuàng)始人梁文鋒在內(nèi)部溝通中透露,新一代旗艦大模型DeepSeek V4將于4月下旬正式發(fā)布。

然而比起新模型,我更關(guān)注DeepSeek的服務(wù)器。

3月29日晚上9點35分,DeepSeek又雙叒叕崩了。

這一次不是小打小鬧的“服務(wù)器繁忙”,而是史詩級的12小時58分鐘全面癱瘓。網(wǎng)頁端、APP雙雙失守,修復了又崩,崩了又修復,直到第二天上午10點才喘過氣來。

DeepSeek-V4還沒正式發(fā)布,沖擊波已經(jīng)如此強勁,一旦正式發(fā)布,目前DeepSeek的基礎(chǔ)設(shè)施真的扛得住嗎?

這就是為什么我們要關(guān)注代達勱,他是DeepSeek的基礎(chǔ)設(shè)施負責人。

他負責的不是模型有多聰明,而是模型能不能在百萬級用戶同時涌入時不崩盤。

V4傳聞四起,發(fā)布時間從2月推到3月,又推到4月,外界都在盯著性能跑分,但真正的壓力測試,其實在代達勱這邊。

服務(wù)器是DeepSeek的軟肋,這已經(jīng)不是秘密。問題是,留給代達勱的時間還有多少?

DeepSeek基礎(chǔ)設(shè)施掌門人

圈內(nèi)也有人管他叫“戴大麥”。2024年博士畢業(yè)于北京大學計算機學院計算語言所,師從穗志方教授。

在學術(shù)圈,他是個狠人。發(fā)表20余篇頂會論文,Google Scholar顯示引用次數(shù)超過28000次。2023年,他作為第三核心作者,拿下了EMNLP最佳長論文獎,這也是中國大陸機構(gòu)首次獲得該獎項。

這篇獲獎?wù)撐拿麨椤禠abel Words are Anchors: An Information Flow Perspective for Understanding In-Context Learning》(標簽詞是錨點:從信息流視角理解上下文學習),研究的是上下文學習的工作機制,從信息流的視角揭示了大模型如何通過示例中的標簽詞進行預測。

在讀博期間,代達勱還獲得過國家獎學金、校長獎學金、微軟學者提名獎、北京市優(yōu)秀畢業(yè)生、北京大學三好學生標兵等一系列榮譽。

代達勱博士論文入選了中國中文信息學會“博士學位論文激勵計劃”,研究的是預訓練語言模型的知識增強與推理能力對齊。

他的研究方向聚焦在大模型基礎(chǔ)設(shè)施和系統(tǒng)優(yōu)化。說白了,就是怎樣讓模型跑得更快、更穩(wěn)、更省錢。

代達勱還參與了一篇綜述類文章,在AI圈內(nèi)也很火。標題是《A Survey on In-Context Learning》(上下文學習綜述)。

文章講的是In-Context Learning(上下文學習)這個方向的整體研究進展,也就是總結(jié)這個領(lǐng)域“大家都做了什么、怎么分類、有哪些解釋、還有哪些問題沒解決”。

從DeepSeek V1到V3,代達勱參與了全程。在DeepSeek,他負責的是整個推理系統(tǒng)的工程優(yōu)化與規(guī)?;渴?,包括多硬件平臺的性能調(diào)優(yōu)、分布式系統(tǒng)架構(gòu)設(shè)計,以及那些用戶看不見但至關(guān)重要的底層管道。

DeepSeek能在開源大模型領(lǐng)域?qū)崿F(xiàn)彎道超車、以極低推理成本對標頭部閉源模型的核心技術(shù)支撐,就是DeepSeekMoE。

DeepSeekMoE所解決的,是傳統(tǒng)MoE架構(gòu)的專家知識冗余、專業(yè)化不足的行業(yè)痛點,這才讓DeepSeek能在同等計算成本下實現(xiàn)了模型性能的大幅躍升。

提出這個架構(gòu)的論文,叫《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》,于2024年1月發(fā)表在ACL 2024。

而這篇論文的第一作者,正是本文的主角代達勱。

DeepSeekMoE架構(gòu)提出了“細粒度專家分割”的創(chuàng)新思路,讓每個token可以激活多個專家,提升知識融合能力。傳統(tǒng)的MoE架構(gòu)像GShard,激活top-K個專家。

但如何確保每個專家真正專業(yè)化,獲取不重疊的、聚焦的知識?代達勱團隊的方案是把專家細分成更細粒度的單元,從N個專家變成mN個,激活時從K個變成mK個,這樣組合更靈活。

同時隔離出一些共享專家,專門捕獲通用知識,減少路由專家之間的冗余。

這套架構(gòu)后來成為DeepSeek-V2和V3的核心基礎(chǔ)。

論文提出的MoE架構(gòu)在145B參數(shù)規(guī)模上,只用28.5%的計算量就達到了DeepSeek 67B的性能。更關(guān)鍵的是,DeepSeekMoE 2B的表現(xiàn)接近同等總參數(shù)量的稠密模型,這為MoE模型設(shè)定了性能上限。這不是紙面數(shù)據(jù),而是真刀真槍跑出來的工程成果。

從理論到工程,代達勱不只是提出創(chuàng)新架構(gòu),更要確保這套架構(gòu)能在真實環(huán)境中穩(wěn)定運行。這種“理論上好使,工程上也能跑”的能力,正是DeepSeek能用這么低的算力,跑出如此高性能的原因。

不過這些成就,都是在模型訓練和架構(gòu)設(shè)計層面。真正考驗基礎(chǔ)設(shè)施的,是當百萬用戶同時涌入時,系統(tǒng)能不能撐住。

3月29日那場12小時的崩潰,恰恰暴露了這個問題。

DeepSeek的崩潰與代達勱的硬仗

DeepSeek總是崩,跟代達勱有沒有關(guān)系?

有,但不全是他的鍋。

DeepSeek現(xiàn)在最大的問題,就出在它的交付系統(tǒng)上。

面對流量高峰,DeepSeek的交付系統(tǒng)不夠穩(wěn)定。模型再強,如果推理集群扛不住并發(fā)、負載均衡沒做好、容錯機制不夠健壯,照樣會崩。

算法團隊可以把模型訓練得再聰明,但如果基礎(chǔ)設(shè)施撐不住,用戶看到的就是“服務(wù)器繁忙”四個大字。

代達勱負責的基礎(chǔ)設(shè)施,就是這條鏈路上的關(guān)鍵一環(huán)。推理集群的調(diào)度策略、請求的分發(fā)邏輯、GPU資源的動態(tài)分配、故障時的降級預案,這些看不見的管道,決定了系統(tǒng)能不能在壓力下穩(wěn)住。

3月29日晚上9點35分,DeepSeek開始出現(xiàn)大規(guī)模服務(wù)中斷。網(wǎng)頁端、手機APP均無法正常使用,大量用戶反饋無法發(fā)起新對話、現(xiàn)有對話中斷。技術(shù)團隊立即啟動緊急排查,于當日23時23分完成首次故障修復,部分用戶反饋可短暫登錄平臺,但隨后服務(wù)再次出現(xiàn)波動。

3月30日00時20分,技術(shù)團隊再次針對服務(wù)性能異常問題展開調(diào)查,于01時24分實施二次修復方案,期間平臺服務(wù)始終處于不穩(wěn)定狀態(tài),直至30日上午10時左右,所有服務(wù)才完全恢復正常。從首次發(fā)現(xiàn)異常到徹底恢復,全程耗時超過12小時,創(chuàng)下DeepSeek成立以來單次服務(wù)中斷時長的最長紀錄。

其實咱們?nèi)绻仡橠eepSeek的歷史你就會發(fā)現(xiàn),DeepSeek雖然也會偶爾卡頓,但網(wǎng)頁端服務(wù)從未出現(xiàn)過超過2小時的中斷。

雖然宕機對于目前的大模型而言屬于正?,F(xiàn)象,但這么長時間的宕機,以DeepSeek的技術(shù)能力而言,不應(yīng)該發(fā)生。

現(xiàn)在的問題是,這套系統(tǒng)在V3時代已經(jīng)顯得吃力,V4來了怎么辦?

不僅如此,根據(jù)最新的消息,V4不只是模型升級,它是一次底層硬件的全面切換。

DeepSeek V4將全面基于國產(chǎn)芯片完成適配和優(yōu)化。

這可不是說像你打游戲換塊顯卡那么簡單。大模型要從英偉達的CUDA生態(tài)遷移到國產(chǎn)芯片框架,意味著底層代碼要大量重寫,推理系統(tǒng)要重新調(diào)優(yōu),性能瓶頸要重新排查。

核心差異在于算子生態(tài)。

CUDA積累了15年,覆蓋幾乎所有場景。國內(nèi)的框架到現(xiàn)在還在補課階段,只不過從以前的網(wǎng)課,變成線下實體課程了。

尤其是Flash Attention、Triton自定義算子這類高性能優(yōu)化層,適配工作量相當大。

GPU和NPU的計算是高度并行的,同一個矩陣乘法可能被分拆成幾千個線程同時計算,最后求和。而浮點加法不滿足結(jié)合律,不同芯片的并行分拆策略不同,導致累積誤差的路徑也不同。

對于那種幾十億參數(shù)量的小模型來說,這個誤差的確是可以忽略不計的。

但V3就已經(jīng)是百億級模型了,V4只可能更大,尤其是在處理長上下文時,誤差會隨層數(shù)和序列長度累積,在輸出層可能產(chǎn)生明顯的誤差。

實際部署時,如何讓模型在新硬件上跑出接近甚至超越英偉達的性能?如何保證遷移過程中服務(wù)不中斷?如何在多硬件平臺之間做好資源調(diào)度?這些問題,都壓在代達勱肩上。

V4成敗,不只看模型跑分,更看發(fā)布時系統(tǒng)能不能穩(wěn)住。

如果V4發(fā)布當天又崩好幾個小時,再好的模型也會被噴成篩子。DeepSeek下一階段要補的,已經(jīng)不只是模型能力,而是把模型能力穩(wěn)定送到用戶面前的能力。

沉默的這幾個月,代達勱在憋什么大招?

DeepSeek太久沒更新了。

V4的發(fā)布時間從2月推到3月,又推到4月,外界都在猜測是不是模型出了問題。

但如果你仔細看DeepSeek這幾個月發(fā)的論文,會發(fā)現(xiàn)他們在為一場更大的戰(zhàn)役做準備。

2026年2月,DeepSeek聯(lián)合清華、北大發(fā)布了DualPath論文。這篇論文的第一作者是北大博士生吳永彤,研究方向也是LLM Infrastructure,和代達勱是一個戰(zhàn)壕里的人。

2025年7月,吳永彤加入DeepSeek系統(tǒng)組,參與下一代模型推理基礎(chǔ)設(shè)施的建設(shè)工作。

他的核心職責之一,是對大規(guī)模內(nèi)部軟件系統(tǒng)進行系統(tǒng)級優(yōu)化,使其能夠在不同硬件平臺上實現(xiàn)高效、穩(wěn)定的運行。這類工作本質(zhì)上屬于大模型基礎(chǔ)設(shè)施建設(shè)范疇,重點在于提升推理系統(tǒng)在復雜集群環(huán)境中的性能與資源利用效率。

說白了,就是把大模型的底層系統(tǒng)搭好,讓它在復雜服務(wù)器集群里既跑得動,也跑得快,還不浪費機器

還有一點,agent這么火,如果V4要上agent能力,推理系統(tǒng)就必須跟上。即便像DeepSeek MLA這樣已經(jīng)過高度緩存優(yōu)化的模型,其I/O壓力依然巨大。

DualPath解決的是推理系統(tǒng)里的一個吞吐瓶頸,進而提高大規(guī)模服務(wù)時的承載能力。所以其實DeepSeek自己心里也明白,再好吃的菜,端不上桌,也是白扯。

戴大麥和吳永彤,他們這類工程師的壓力更大。

做算法的人,成績往往是看得見的。模型能力更強了,榜單分數(shù)更高了,論文發(fā)出來了,產(chǎn)品出了爆款功能,外界很快就能感知到變化。

可做基礎(chǔ)設(shè)施的人不一樣,他們最好的成績,往往恰恰是“什么都沒發(fā)生”。

服務(wù)器沒崩,網(wǎng)頁能打開,APP不卡頓。

但用戶只會覺得“那你不是本來就該這樣嗎?”,沒人會專門記住是誰把這件事做成的。

可一旦出了問題,所有壓力又會在第一時間落到他們頭上。

因為對絕大多數(shù)用戶來說,系統(tǒng)不是由模型、調(diào)度、網(wǎng)關(guān)、緩存、數(shù)據(jù)庫這些抽象模塊組成的,系統(tǒng)只有一種最直觀的體驗——它能不能用。

普通用戶就一個評判標準,“我打開你網(wǎng)頁的時候轉(zhuǎn)不轉(zhuǎn)圈”。轉(zhuǎn)圈就是你服務(wù)器不行,不轉(zhuǎn)圈就是應(yīng)該的。

用戶是分不清楚到底哪層出了問題。對他們來說,任何原因都會被壓縮成一句話:DeepSeek怎么又崩了?

這就是基礎(chǔ)設(shè)施崗位最難的地方。

做好了,沒人鼓掌,因為這是你該做的;做差了,你就等著被唾沫噴死吧!

對一家已經(jīng)被推上風口浪尖的大模型公司來說,基礎(chǔ)設(shè)施團隊背負的東西很多。

如果V4發(fā)布時不崩,那才是真正的封神時刻。這場仗,代達勱必須贏。因為模型再強,崩了就是零。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
KD33+7致命失誤!森林狼7人上雙終結(jié)火箭8連勝 阿門41分創(chuàng)新高

KD33+7致命失誤!森林狼7人上雙終結(jié)火箭8連勝 阿門41分創(chuàng)新高

顏小白的籃球夢
2026-04-11 12:10:20
意媒:如果降薪,恰爾汗奧盧希望國米提供一份至少3年的合同

意媒:如果降薪,恰爾汗奧盧希望國米提供一份至少3年的合同

懂球帝
2026-04-11 11:05:04
美股深夜巨震,半導體、存儲股爆發(fā),英特爾周漲近24%,原油期貨大跌,美伊談判今日舉行

美股深夜巨震,半導體、存儲股爆發(fā),英特爾周漲近24%,原油期貨大跌,美伊談判今日舉行

21世紀經(jīng)濟報道
2026-04-11 07:16:10
高市不演了,東京降級對華關(guān)系,向全球告狀,稱中國欠日本兩筆賬

高市不演了,東京降級對華關(guān)系,向全球告狀,稱中國欠日本兩筆賬

林子說事
2026-04-10 18:01:47
美軍撐不過60天紅線,普京捅出致命一刀,打算在俄烏戰(zhàn)場耗死美國

美軍撐不過60天紅線,普京捅出致命一刀,打算在俄烏戰(zhàn)場耗死美國

安珈使者啊
2026-04-11 11:49:14
央視將播!于和偉《驚變》來了!我敢說:這諜戰(zhàn)大劇,要火向全國

央視將播!于和偉《驚變》來了!我敢說:這諜戰(zhàn)大劇,要火向全國

可樂談情感
2026-04-11 11:25:19
寧波官方:祝賀劉曉宇達成第700場里程碑,位列CBA歷史第四

寧波官方:祝賀劉曉宇達成第700場里程碑,位列CBA歷史第四

林子說事
2026-04-11 02:22:19
開路虎加油逃單鬧大了,被扒上個月也曾逃單,警方介入,逃不了了

開路虎加油逃單鬧大了,被扒上個月也曾逃單,警方介入,逃不了了

潮鹿逐夢
2026-04-10 15:48:58
開拓者116-97掀翻快船,升至西部第8!楊瀚森正負值+1 領(lǐng)先克林根

開拓者116-97掀翻快船,升至西部第8!楊瀚森正負值+1 領(lǐng)先克林根

球場沒跑道
2026-04-11 12:44:09
男人的生理需求能有多難忍?網(wǎng)友:我對我老公只有動物本能

男人的生理需求能有多難忍?網(wǎng)友:我對我老公只有動物本能

帶你感受人間冷暖
2026-02-07 03:58:56
非裔基因突變!阿奇長相神似梅根,但遺傳了哈里王子的頭發(fā)和膚色

非裔基因突變!阿奇長相神似梅根,但遺傳了哈里王子的頭發(fā)和膚色

深析古今
2026-04-11 12:27:59
在月球也是點球!姆巴佩被肘滿臉是血VAR拒判點球

在月球也是點球!姆巴佩被肘滿臉是血VAR拒判點球

體壇周報
2026-04-11 10:45:28
隨著24歲阿根廷悍將無敵雙響炮+西漢姆聯(lián)4-0,英超最新積分榜出爐

隨著24歲阿根廷悍將無敵雙響炮+西漢姆聯(lián)4-0,英超最新積分榜出爐

側(cè)身凌空斬
2026-04-11 05:00:32
斯諾克世錦賽資格賽:傅家俊10-9絕殺戴維斯,3桿破百,險勝晉級

斯諾克世錦賽資格賽:傅家俊10-9絕殺戴維斯,3桿破百,險勝晉級

側(cè)身凌空斬
2026-04-11 05:34:12
不到2小時,油價暴跌40%25,人民幣暴漲1000點,國內(nèi)油價會降嗎?

不到2小時,油價暴跌40%25,人民幣暴漲1000點,國內(nèi)油價會降嗎?

古事尋蹤記
2026-04-11 07:21:19
“超強臺風”來了?4號臺風“森拉克”生成!廣州周末又泡湯......

“超強臺風”來了?4號臺風“森拉克”生成!廣州周末又泡湯......

FM96.2廣州新聞電臺
2026-04-11 11:09:16
突然爆火的莫氏雞煲,硬生生把餐飲供應(yīng)鏈捧成最大贏家

突然爆火的莫氏雞煲,硬生生把餐飲供應(yīng)鏈捧成最大贏家

藍鯨新聞
2026-04-11 12:23:12
哈薩克斯坦2000萬噸稀土轉(zhuǎn)賣美日,簽完協(xié)議發(fā)現(xiàn),還是繞不開中國

哈薩克斯坦2000萬噸稀土轉(zhuǎn)賣美日,簽完協(xié)議發(fā)現(xiàn),還是繞不開中國

蔡蔡說史
2026-04-11 04:25:53
荒唐!貓王一生睡遍3000女人,42歲慘死臥室,內(nèi)褲褪到大腿根

荒唐!貓王一生睡遍3000女人,42歲慘死臥室,內(nèi)褲褪到大腿根

七阿姨愛八卦
2026-04-04 18:04:16
警匪片的天花板,至今無人超越——《盜火線》的影響史

警匪片的天花板,至今無人超越——《盜火線》的影響史

鄉(xiāng)野小珥
2026-04-11 03:14:14
2026-04-11 13:00:49
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經(jīng)科技媒體
132083文章數(shù) 862085關(guān)注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

牛彈琴:伊朗很悲壯 向美國提高了"要價"

頭條要聞

牛彈琴:伊朗很悲壯 向美國提高了"要價"

體育要聞

換帥之后,他們從降級區(qū)沖到升級區(qū)

娛樂要聞

浪姐7淘汰 該走的沒走,不該走的走了

財經(jīng)要聞

從日本翻身看:這次誰能扛住高油價?

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

教育
時尚
親子
藝術(shù)
軍事航空

教育要聞

今年考研調(diào)劑:A區(qū)有哪些大學的名額多?B區(qū)有哪些高校的指標多?

推廣中獎名單-更新至2026年3月31日推廣

親子要聞

童趣與春的浪漫共舞,兩只小精靈在花瓣堆里奔跑

藝術(shù)要聞

17位當代青年畫家油畫欣賞

軍事要聞

伊朗議長帶四名遇難兒童照片赴美伊談判

無障礙瀏覽 進入關(guān)懷版