国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

“客戶測950,不到一周下單了”,DeepSeek V4 逼出昇騰真功夫

0
分享至


作者 | 褚杏娟

“客戶測了我們的 950,不到一個(gè)禮拜就說可以下單了?!睍N騰計(jì)算業(yè)務(wù)副總裁張良透露,近期昇騰銷量比以前要好,客戶認(rèn)可度也提高很多。

現(xiàn)在互聯(lián)網(wǎng)公司、大模型初創(chuàng)公司都有在完全基于昇騰做模型訓(xùn)推。

推理看重性價(jià)比,沒有那么高的穩(wěn)定性要求,客戶覺得用得快捷就好;而訓(xùn)練,客戶則要求經(jīng)過長時(shí)間的可靠性驗(yàn)證。張良向 InfoQ 表示,“客戶要求的是成熟、穩(wěn)定、且經(jīng)過長時(shí)間驗(yàn)證的大規(guī)模集群系統(tǒng),硬件和軟件要一起驗(yàn)證。”

今年,大量客戶開始基于昇騰做訓(xùn)練了。這里指的是訓(xùn)練大模型、超大參數(shù)模型。越來越多模型,包括一些國內(nèi)領(lǐng)先的模型,都在基于昇騰進(jìn)行訓(xùn)練。這個(gè)變化體現(xiàn)了昇騰產(chǎn)品成熟度的提升,確實(shí)經(jīng)受住了考驗(yàn)。

DeepSeek V4 是對華為的一次考驗(yàn)

DeepSeek V4 是華為面臨的一次大考,也驗(yàn)證了昇騰超節(jié)點(diǎn)全系列產(chǎn)品的能力。

從結(jié)果看,昇騰超節(jié)點(diǎn)全系列產(chǎn)品均支持 DeepSeek V4 。其 950 系列芯片可以同時(shí)兼顧低時(shí)延和高吞吐的兩種應(yīng)用場景:在 950 DT 系列上,DeepSeek V4 Flash 模型實(shí)現(xiàn)了低于 10 毫秒的低時(shí)延推理,Pro 模型則實(shí)現(xiàn)了約 20 毫秒的低時(shí)延推理;在 Atlas A3 系列上,DeepSeek V4 Flash 實(shí)現(xiàn)了約 30 毫秒的高吞吐性能表現(xiàn)。

這次,DeepSeek V4 在模型結(jié)構(gòu)上發(fā)生了明顯變化,比如引入混合注意力機(jī)制,結(jié)合滑窗、稀疏、壓縮等多種 Attention 優(yōu)化算法,以支持 1M 級長上下文推理;同時(shí),模型繼續(xù)采用 MoE 結(jié)構(gòu),對專家路由、多卡通信、KV Cache 管理和端到端推理效率提出了更高要求。


為此,CANN 針對 DeepSeek V4 中的 mHC、Hybrid Attention、Compressor、MoE 等模塊進(jìn)行了原生適配。其中,mHC 用于擴(kuò)展傳統(tǒng)殘差連接,對此 CANN 提供了多種實(shí)現(xiàn)方式,包括基于 Ascend C、PyTorch 以及 TileLang 的實(shí)現(xiàn)路徑。

比如,針對混合注意力機(jī)制,CANN 提供了 Sparse Attention Shared KV 融合算子,支持多種注意力計(jì)算,同時(shí)開發(fā)了不同倍率 KV Cache 壓縮的 Compressor 算子,以及支持 KV Cache 更新的相關(guān)算子。此外,CANN 還增強(qiáng)了 Lightning Indexer 能力,用于高效篩選 Top-K 稀疏 KV,支撐長上下文下的稀疏注意力計(jì)算。

由于混合注意力機(jī)制依賴關(guān)系更復(fù)雜,在 prefill 階段,CANN 通過 All Gather 或 Send/Receive 等通信能力,在卡間交換必要 Token,保證 CP 并行下的注意力計(jì)算正確執(zhí)行。

而在 MoE 方面,CANN 加強(qiáng)了 MoE Gating TopK 功能,以支持 DeepSeek V4 中的 hash routing 和 scaled softmax。

上述也只是昇騰努力優(yōu)化的一部分,在 AI 算力日益重要的當(dāng)下,昇騰團(tuán)隊(duì)過去一年都在“卷”。

“一卡難求”下,先建基礎(chǔ)設(shè)施

“所有工作沒有基礎(chǔ)設(shè)施是不行的?,F(xiàn)在大家都在說‘一卡難求’,包括我自己也是一卡難求。雖然我們生產(chǎn)卡,但我想用卡也很難?!睆埩颊f道。

去年以來,昇騰對芯片體系進(jìn)行了一輪大幅調(diào)整。

今天的大模型推理和 Agent 場景,對編程靈活性、細(xì)粒度訪存能力、Cache line 設(shè)計(jì)等均提出更高的要求;同時(shí),AI 產(chǎn)業(yè)的發(fā)展也需要更開放的生態(tài)支持。

針對這些問題,昇騰在新一輪產(chǎn)品和軟件棧演進(jìn)中進(jìn)行了系統(tǒng)性補(bǔ)齊:一方面重新優(yōu)化算力配比,提升芯片在不同計(jì)算負(fù)載下的適配能力;另一方面引入 SIMT 能力,增強(qiáng)編程靈活性;同時(shí)強(qiáng)化細(xì)粒度訪存能力,使芯片能夠更好適應(yīng)大模型訓(xùn)練、推理以及復(fù)雜 Agent 工作負(fù)載中的數(shù)據(jù)訪問需求。

低精度計(jì)算能力也是此次調(diào)整的重要方向。隨著 DeepSeek 等模型在 FP8 等低精度格式上的探索,大模型產(chǎn)業(yè)對更高 Token 產(chǎn)出效率的需求快速提升。在此背景下,昇騰加速推進(jìn) FP8、FP4 能力落地。

張良表示,團(tuán)隊(duì)“拼盡全力”將 FP8、FP4 提前做出來,這使得 Token 產(chǎn)出能力相比此前實(shí)現(xiàn)翻倍提升。

當(dāng)前 AI 產(chǎn)業(yè)正在進(jìn)入新的算力周期。Agent 應(yīng)用帶來的高頻推理、多輪調(diào)用和長鏈路任務(wù)執(zhí)行,使 Token 消耗快速增長,也讓算力效率成為客戶關(guān)注的核心指標(biāo)。張良認(rèn)為,面對這一變化,芯片廠商不僅要提升峰值算力,更要圍繞真實(shí)業(yè)務(wù)場景優(yōu)化計(jì)算效率、訪存能力、編程體驗(yàn)和生態(tài)開放能力。

“只有痛下決心真正改掉以前的不足,才能把業(yè)務(wù)做得越來越好?!睆埩颊f道,下一波 AI 機(jī)會(huì)究竟來自哪里仍不確定,但芯片和軟件生態(tài)必須提前準(zhǔn)備好。昇騰此次調(diào)整,正是為了補(bǔ)齊過去架構(gòu)中的短板,并為未來可能出現(xiàn)的新一輪 AI 應(yīng)用浪潮打下基礎(chǔ)。

軟件棧升級,拒絕仿 CUDA

在完成硬件架構(gòu)調(diào)整后,昇騰軟件棧也迎來一輪重要升級。此次升級的一個(gè)重點(diǎn)是將原本高度耦合的軟件體系拆分為更清晰的結(jié)構(gòu)模塊。

過去,CANN 的很多能力像“麻花團(tuán)”一樣交織在一起,外部開發(fā)者很難理解和調(diào)用。現(xiàn)在,昇騰通過架構(gòu)解耦,將不同能力模塊化、結(jié)構(gòu)化地拆開,讓每一塊能力都能被開發(fā)者看見、調(diào)用,并推動(dòng)相關(guān)代碼開源。


張良介紹道,這次解耦工作量很大,接近于“把軟件重寫一遍、把架構(gòu)重新設(shè)計(jì)一遍”。昇騰原計(jì)劃用一年半時(shí)間完成,但最終在 4 個(gè)月內(nèi)完成核心改造。近期開發(fā)者試用后,普遍認(rèn)為相比過去更容易上手。

除了架構(gòu)層面的解耦,昇騰還推出了新的編程方式 PyPTO。該方式面向 Python 開發(fā)者,未來將與業(yè)界主流的基于 Python 的 Triton 編程方式保持一致,以降低開發(fā)者遷移和適配門檻。

張良表示,AI 開發(fā)正在越來越多地圍繞 Python 展開,昇騰必須融入這一主流編程體系。昇騰從去年開始推進(jìn)相關(guān)工作,并在今年正式將 PyPTO 做出來。

不過,Python 編程雖然快速、靈活,適合驗(yàn)證功能和提升開發(fā)效率,但在追求極致性能時(shí)仍存在不足。尤其是在大模型推理場景中,Token 吞吐直接影響產(chǎn)品性價(jià)比。同樣硬件、同樣算力條件下,如果 Token 吞吐低于競爭對手,就意味著單位成本競爭力不足。因此,昇騰在支持 Python 開發(fā)方式的同時(shí),也繼續(xù)保留并強(qiáng)化基于 C 語言的底層優(yōu)化能力。

其思路是:Python 負(fù)責(zé)靈活和便捷,C 語言負(fù)責(zé)性能和吞吐優(yōu)化。通過這兩條路徑并行,既尊重開發(fā)者對主流編程方式的偏好,也保障底層性能調(diào)優(yōu)能力。

昇騰認(rèn)為,開源開放的核心不是簡單“放代碼”,而是讓開發(fā)者能夠真正理解、使用和擴(kuò)展底層能力。張良表示,昇騰自身不可能超過幾萬名開發(fā)者的智慧,外部開發(fā)者的創(chuàng)新方式和使用需求,也遠(yuǎn)遠(yuǎn)超過單一廠商內(nèi)部能夠預(yù)判的范圍。因此,提升開發(fā)者使用便利性,是生態(tài)建設(shè)的根本。

對于底層軟件和算子開發(fā)而言,讓開發(fā)者真正持續(xù)投入并不容易。數(shù)據(jù)顯示,今年以來昇騰算子開發(fā)者數(shù)量增長較快,已達(dá)到約 1.3 萬人;社區(qū)月活開發(fā)者約 2000 人,這已經(jīng)是相當(dāng)不錯(cuò)的成績。

如果說英偉達(dá)的生態(tài)護(hù)城河是 CUDA,那昇騰對應(yīng)的就是 CANN?,F(xiàn)在,比較熟悉的模型,大約 6 個(gè)小時(shí)就可以從 CUDA 遷移到 CANN,比如千問 3.6;模型架構(gòu)比較新、變化比較大,可能需要花一兩周時(shí)間遷完。整個(gè)遷移是較為絲滑的。

實(shí)際上,在建設(shè)生態(tài)期間,國內(nèi) AI 計(jì)算生態(tài)發(fā)展面臨不同路徑選擇,其中一條看似簡單的路線就是做一套與英偉達(dá) CUDA 高度相似的體系,也就是所謂“仿 CUDA”。張良特別強(qiáng)調(diào),昇騰堅(jiān)決拒絕走這條捷徑。

“如果只是做一個(gè)‘CUDA 2 號’,雖然短期適配成本較低,基于這一體系做出的新特性、新功能,最終是建立在他人的生態(tài)上,而不是在建設(shè)真正自主的 AI 計(jì)算生態(tài)。”張良說道。

按照其思路,從虛擬指令級、運(yùn)行時(shí)能力,到編譯器、硬件協(xié)同,都要自主構(gòu)建。這樣才能確保底層能力真正掌握在自己手中,而不是長期依附在既有國外生態(tài)之上。

不過,張良也強(qiáng)調(diào),堅(jiān)持自主路線并不意味著脫離業(yè)界生態(tài)。現(xiàn)實(shí)中,大量開發(fā)者主要使用的是更上層的開發(fā)框架和工具,而不是直接操作底層指令和運(yùn)行時(shí)。因此,昇騰需要一方面堅(jiān)持底層自主,另一方面也要兼容業(yè)界主流開發(fā)習(xí)慣,支持國內(nèi)外開發(fā)者已有的軟件棧和工具鏈。

其生態(tài)建設(shè)思路可以概括為三點(diǎn):第一,底層關(guān)鍵能力必須自主掌握;第二,上層要兼容主流開發(fā)方式,尊重開發(fā)者習(xí)慣;第三,要逐步將自主 NPU 的關(guān)鍵特性和功能組件引入主流開源社區(qū),讓圍繞中國 AI 硬件的能力在社區(qū)中沉淀下來。

但這一過程并不容易。目前 AI 軟件生態(tài)中大量關(guān)鍵開源項(xiàng)目由海外社區(qū)主導(dǎo)。以 OpenAI 主導(dǎo)的 Triton 為例,推動(dòng)其支持昇騰硬件并不容易,對方首先會(huì)考慮“敏感”問題。

張良透露,過去,昇騰開發(fā)者和華為內(nèi)部團(tuán)隊(duì)所做的很多適配工作,往往只能以插件形式存在。相關(guān)代碼提交到主流社區(qū)時(shí),社區(qū)并不一定接受,而是要求昇騰自行維護(hù)插件。同時(shí),這些社區(qū)在發(fā)布新版本前,也很少會(huì)基于中國軟件和硬件進(jìn)行驗(yàn)證。這導(dǎo)致昇騰生態(tài)長期處在被動(dòng)適配狀態(tài)。

為改變這一局面,昇騰投入大量時(shí)間和精力與海外開源社區(qū)溝通,通過現(xiàn)場交流和技術(shù)論證,推動(dòng)相關(guān)插件和能力逐步進(jìn)入主流項(xiàng)目。目前,部分社區(qū)已經(jīng)開始接受昇騰相關(guān)能力,后續(xù)版本發(fā)布時(shí)也能夠逐步支持昇騰硬件。類似工作不僅發(fā)生在 Triton,也發(fā)生在 PyTorch 等多個(gè)開源項(xiàng)目中。

這正是做生態(tài)最難的地方:不是簡單寫一套適配代碼,而是要讓主流社區(qū)認(rèn)可、接受,并在版本演進(jìn)中持續(xù)支持。

結(jié)束語

“做這一切,都取決于一個(gè)基礎(chǔ):你愿不愿意持續(xù)投入,愿不愿意把自己壓到極致,在很短時(shí)間內(nèi)把能力補(bǔ)起來,這是關(guān)鍵。再往下說,就是你愿不愿意砸錢,或者說有沒有能力長期、持續(xù)地投入?!睆埩颊f道。

張良也坦言,昇騰團(tuán)隊(duì)過去幾年既抓住過機(jī)會(huì),也走過彎路,甚至有些問題曾被階段性的市場紅利掩蓋。

在他看來,今天 Agent 的快速興起,又一次把產(chǎn)業(yè)推向新的階段。Agent 應(yīng)用對時(shí)延、多輪推理、長序列處理以及系統(tǒng)綜合能力提出了更高要求,也可能進(jìn)一步帶來“算力荒”。這對昇騰來說既是機(jī)會(huì),也是挑戰(zhàn)。

“Agent 這么紅火,我們當(dāng)然很開心,它可能帶來新的算力需求。但更重要的是,我們要從中識(shí)別出真正的問題,看到不同場景對產(chǎn)品改進(jìn)提出的新要求,比如編程編譯速度的問題。只有把這些問題識(shí)別出來,才能繼續(xù)投入、繼續(xù)改進(jìn)。能不能做到這一點(diǎn),非常關(guān)鍵?!?/p>

張良強(qiáng)調(diào),昇騰不滿足于某一輪機(jī)會(huì),而是要在每一輪產(chǎn)業(yè)變化中,持續(xù)暴露問題、修正問題、補(bǔ)齊能力。

“在我個(gè)人看來,我的產(chǎn)品永遠(yuǎn)不完美,還要繼續(xù)努力。面向未來,我們還有很多事要做。”他說道。

聲明:本文為 AI 前線整理,不代表平臺(tái)觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。

會(huì)議推薦

世界模型的下一個(gè)突破在哪?Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過?研發(fā)體系不重構(gòu),還能撐多久?

AICon 上海站 2026,4 大核心專題等你來:世界模型與多模態(tài)智能突破、Agent 架構(gòu)與工程化實(shí)踐、Agent 安全與可信治理、企業(yè)級研發(fā)體系重構(gòu)。14 個(gè)專題全面開放征稿。

誠摯邀請你登臺(tái)分享實(shí)戰(zhàn)經(jīng)驗(yàn)。AICon 2026,期待與你同行。

今日薦文


你也「在看」嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
93年我?guī)碗x婚鄰居收玉米,不小心碰到她胸口她紅著眼問彩禮給多少

93年我?guī)碗x婚鄰居收玉米,不小心碰到她胸口她紅著眼問彩禮給多少

那年秋天
2026-05-06 18:30:05
這妹子眼神太純欲了,打戲也很投入!

這妹子眼神太純欲了,打戲也很投入!

貴圈真亂
2026-05-07 12:34:08
一臺(tái)游戲機(jī)賣了37年,巴西人還在買

一臺(tái)游戲機(jī)賣了37年,巴西人還在買

像素與芯片
2026-05-05 21:43:09
東體:內(nèi)地媒體遲遲無法辦理世界杯簽證,體育版權(quán)定價(jià)應(yīng)回歸理性

東體:內(nèi)地媒體遲遲無法辦理世界杯簽證,體育版權(quán)定價(jià)應(yīng)回歸理性

懂球帝
2026-05-07 11:16:09
烏克蘭外長:普京關(guān)心的是閱兵,而不是人的生命;澤連斯基要報(bào)仇

烏克蘭外長:普京關(guān)心的是閱兵,而不是人的生命;澤連斯基要報(bào)仇

不要把蜜語說給側(cè)耳聽
2026-05-07 09:24:23
31歲中乙中場停賽7個(gè)月罰6萬 暴力染紅后威脅+推裁判 踹壞廣告板

31歲中乙中場停賽7個(gè)月罰6萬 暴力染紅后威脅+推裁判 踹壞廣告板

風(fēng)過鄉(xiāng)
2026-05-07 12:12:48
深圳24小時(shí)“食物銀行”火了!面包牛奶免費(fèi)領(lǐng),惠及人口幾十萬

深圳24小時(shí)“食物銀行”火了!面包牛奶免費(fèi)領(lǐng),惠及人口幾十萬

青眼財(cái)經(jīng)
2026-05-06 20:27:23
俄羅斯是真眼饞!中國大量東風(fēng)導(dǎo)彈將要退役,可以出口換外匯嗎?

俄羅斯是真眼饞!中國大量東風(fēng)導(dǎo)彈將要退役,可以出口換外匯嗎?

潮鹿逐夢
2026-05-06 16:44:26
大反轉(zhuǎn)!我國學(xué)者顛覆性發(fā)現(xiàn):補(bǔ)充Omega-3或損害大腦突觸功能,加速認(rèn)知衰退

大反轉(zhuǎn)!我國學(xué)者顛覆性發(fā)現(xiàn):補(bǔ)充Omega-3或損害大腦突觸功能,加速認(rèn)知衰退

醫(yī)諾維
2026-05-06 17:13:29
哈里梅根美國豪宅4億成交,"商業(yè)帝國"崩塌,褪去王室光環(huán)顯窘迫

哈里梅根美國豪宅4億成交,"商業(yè)帝國"崩塌,褪去王室光環(huán)顯窘迫

譯言
2026-05-07 08:34:31
東契奇?zhèn)笫状谓邮懿稍L:最初告訴我需要8周康復(fù)

東契奇?zhèn)笫状谓邮懿稍L:最初告訴我需要8周康復(fù)

體壇周報(bào)
2026-05-07 07:54:36
看這眼神和姿勢,下一步就應(yīng)是………

看這眼神和姿勢,下一步就應(yīng)是………

飛娛日記
2026-04-28 08:25:31
為什么準(zhǔn)噶爾蒙古選擇向東和清朝火拼,而沒有考慮西征西亞?

為什么準(zhǔn)噶爾蒙古選擇向東和清朝火拼,而沒有考慮西征西亞?

小豫講故事
2026-05-07 06:00:14
學(xué)生時(shí)代的王楚然,純欲天花板本人。原來?;ㄕ媸菑男∶赖酱蟮?

學(xué)生時(shí)代的王楚然,純欲天花板本人。原來校花真是從小美到大的!

科學(xué)發(fā)掘
2026-05-05 20:07:45
堅(jiān)守油車的理由是啥?網(wǎng)友分享太真實(shí)了,但很多人不買賬!

堅(jiān)守油車的理由是啥?網(wǎng)友分享太真實(shí)了,但很多人不買賬!

夜深愛雜談
2026-05-06 20:49:01
返回臺(tái)島后,賴清德說了3句話,洪秀柱預(yù)判成真,大陸擲地有聲

返回臺(tái)島后,賴清德說了3句話,洪秀柱預(yù)判成真,大陸擲地有聲

說歷史的老牢
2026-05-06 09:59:45
五一行李箱墻刷屏全網(wǎng)!多地暖心接棒,“中國式”安全感火出圈

五一行李箱墻刷屏全網(wǎng)!多地暖心接棒,“中國式”安全感火出圈

孤酒老巷QA
2026-05-05 17:41:40
江蘇跨江大橋命名暗戰(zhàn),誰在掌握絕對話語權(quán)?

江蘇跨江大橋命名暗戰(zhàn),誰在掌握絕對話語權(quán)?

觀察眼看世界
2026-05-07 11:02:46
華為員工家屬:失業(yè)靠老公養(yǎng)。每月給我2萬元,含房貸7000多元

華為員工家屬:失業(yè)靠老公養(yǎng)。每月給我2萬元,含房貸7000多元

螞蟻大喇叭
2026-05-06 16:50:28
赫格塞思表示盡管有沖突,但美伊?;稹皼]結(jié)束”

赫格塞思表示盡管有沖突,但美伊?;稹皼]結(jié)束”

參考消息
2026-05-06 11:46:14
2026-05-07 13:08:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊。
1476文章數(shù) 149關(guān)注度
往期回顧 全部

科技要聞

凌晨突發(fā)!馬斯克租22萬塊GPU給“死敵”

頭條要聞

北京三位女大學(xué)生青海自駕游2死1傷 傷者一審獲刑4年

頭條要聞

北京三位女大學(xué)生青海自駕游2死1傷 傷者一審獲刑4年

體育要聞

阿森納巴黎會(huì)師歐冠決賽!5月31日開戰(zhàn)

娛樂要聞

小S阿雅重返大S母校,翻看大S畢業(yè)照

財(cái)經(jīng)要聞

特朗普:美伊“很有可能”達(dá)成協(xié)議

汽車要聞

理想為什么不做轎車,有了解釋……

態(tài)度原創(chuàng)

本地
房產(chǎn)
藝術(shù)
數(shù)碼
公開課

本地新聞

用青花瓷的方式,打開西溪濕地

房產(chǎn)要聞

五一海南樓市,太淡了!

藝術(shù)要聞

這位老教授筆下的青年,活力滿滿

數(shù)碼要聞

三星筆記本版Exynos 2800芯片曝光:1.4nm十核CPU

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版