国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

曦望,死磕AI推理成本|甲子光年

0
分享至



解析曦望新一代推理GPU芯片啟望S3。

作者|王藝

編輯|王博

國產GPU又有新發(fā)布。

1月27日,國產GPU廠商曦望(Sunrise)在杭州發(fā)布新一代推理GPU芯片啟望S3,并同步推出面向大模型推理的超節(jié)點方案及推理云計劃。這是曦望在近一年累計完成約30億元戰(zhàn)略融資后的首次系統(tǒng)性技術亮相。

曦望是國產全棧自研人工智能算力芯片企業(yè),前身是商湯大芯片部門,2024年底分拆獨立運營,專注于高性能GPU及多模態(tài)場景推理芯片的研發(fā)與商業(yè)化。

曦望聯(lián)席CEO王勇身穿皮衣、牛仔褲走上舞臺,作為一位芯片技術老兵,這個場景他并不陌生。王勇曾任AMD dGPU首席架構師、昆侖芯核心架構師,2020年加入商湯科技領導大芯片部門,為曦望的前身奠定技術基礎。

這一次,他和團隊目標很明確——極致推理性價比。


啟望S3是一款面向大模型推理深度定制的GPGPU芯片,其設計進行了系統(tǒng)級重構。

在算力層面,啟望S3支持從FP16到FP4的多精度靈活切換。模型在保證效果的前提下,最大化釋放低精度推理效率。

在存儲層面,啟望S3采用LPDDR6顯存方案,成為國內首款采用該方案的芯片。相比HBM(高帶寬內存)路線,LPDDR6更強調容量與能效比。

系統(tǒng)級重構,也體現(xiàn)在推理成本上。在DeepSeek V3/R1滿血版等主流大模型推理場景中,啟望S3單位Token推理成本較上一代產品下降約90%。

“當推理成為主要算力消耗場景后,GPU的商業(yè)價值不再取決于參數(shù)指標,而是單位Token的真實成本?!蓖跤抡f。

這并不是在“畫餅”?!讣鬃庸饽辍沽私獾剑赝?025年推理GPU芯片交付量已突破1萬片,這說明其推理GPU路線已完成從工程驗證到規(guī)?;桓兜年P鍵跨越。

而新發(fā)布的啟望S3目前已完成內部研發(fā),預計將于今年年中流片,年底回片量產。

賣芯片不是一錘子買賣,如何把算力轉化為可交付的生產力,是所有國產GPU廠商都需要回答的問題。

1.死磕推理成本

硅谷早期風險投資機構Benchmark的合伙人Everett Randle在2025年底接受采訪時表示,AI應用會有大量的AI推理成本計入COGS(銷售成本),導致毛利率低于傳統(tǒng)SaaS。

“人們因此認為AI應用不是一門好生意。”Everett Randle說,“但如果關注單客絕對毛利率,AI應用的絕對毛利潤可以達到普通SaaS公司的四到五倍,擁有比SaaS公司大得多的潛在市場?!?/p>

以剛剛上市的智譜為例,招股書顯示,智譜在2022~2024年毛利率分別為54.6%、64.6%、56.3%,2025年上半年回落至50%,這雖然高于傳統(tǒng)項目制公司,但和傳統(tǒng)SaaS行業(yè)相比并不突出。

就在今年的CES上,英偉達創(chuàng)始人&CEO黃仁勛宣布新一代Rubin平臺通過“極端協(xié)同設計”整合六款芯片(GPU、CPU、NVLink 6、DPU等),這將加速agentic AI、高級推理以及大規(guī)模混合專家(MoE)模型推理,其每token成本比Blackwell平臺降低了多達10倍。


黃仁勛在CES 2026演講,圖片來源:「甲子光年」拍攝

降低推理成本已逐漸成為行業(yè)共識。

在這次曦望的發(fā)布會上,曦望董事長徐冰把行業(yè)的變化概括為三句話:需求變了、場景變了、成本結構變了。AI正在從“被訓出來”走向“能被用起來”的實戰(zhàn)階段。智能體、物理AI、3D/視頻生成等場景爆發(fā),會讓推理從配角變成主力。

“誰能持續(xù)降低推理成本,誰就掌握了AI產業(yè)的成本曲線?!毙毂f。

徐冰此前是商湯集團聯(lián)合創(chuàng)始人、執(zhí)行董事及董事會秘書。去年,徐冰辭去商湯集團執(zhí)行董事、董事會秘書職位。后來徐冰擔任曦望董事長,開始掌舵這家國產GPU公司。

“如果我們能夠讓推理的成本下降90%,并且可以提供穩(wěn)定的服務,那我們的競爭不是市面上的又多一個芯片選擇,而是說我們可以真正重寫中國AI產業(yè)的損益表,助力全行業(yè)盈利增收?!毙毂f。

但這次發(fā)布會,曦望并沒有公布啟望S3更為具體的性能參數(shù),僅用一張綜合性能指標表格進行了對比。


啟望S3綜合性能指標,圖片來源:「甲子光年」拍攝

不過,「甲子光年」根據(jù)圖中的信息可以解讀出,啟望S3的綜合性能與摩爾線程的S系列智算加速卡相當,高于昇騰910B、英偉達A系列,低于昇騰910C、英偉達H系列。

對比來看,以摩爾線程大模型智算加速卡MTT S4000為例,其采用第三代MUSA架構,配備了Tensor核心,單卡支持48GB顯存和768GB/s的顯存帶寬。

王勇在現(xiàn)場更多強調的是成本,啟望S3的單卡成本預計在2~4萬元之間,比友商更具性價比。

那么,如何降低推理成本?曦望進行了一場架構革命,王勇稱之為“重新定義推理GPU”。


啟望S3架構進化,圖片來源:「甲子光年」拍攝

PPA是芯片設計核心指標,代表Power(功耗)、Performance(性能)、Area(面積)。王勇介紹,啟望S3追求極致的PPA,在架構上揚棄了所有與訓練相關的比較重且貴的技術組件,而采用了比較新的針對推理極致優(yōu)化的架構和技術組件。

在IP層面,團隊融合了國際主流GPU架構的最新特性,引入Warp調度優(yōu)化與Tensor Memory等先進設計,并在合規(guī)前提下采用目前最先進的國際工藝節(jié)點,同時集成國際巨頭的高速接口IP。

啟望S3最顯著的差異化在于顯存方案。由于HBM與先進封裝強綁定,這會大幅推高訓推一體芯片的成本,在做了非常多的架構研究后,曦望發(fā)現(xiàn)LPDDR6才是當前推理的最優(yōu)解。

如果說HBM是為訓練而生,追求極限帶寬,不惜成本,那么LPDDR6就是為推理而生,追求容量與能效比,極致成本控制。

因此啟望S3成為國內首款采用LPDDR6方案的芯片。官方數(shù)據(jù)顯示,S3的顯存容量較上一代產品提升4倍,有效緩解了大模型推理中普遍存在的顯存駐留與訪存瓶頸。

而從本質上來看,曦望團隊是在“性能-成本-功耗”的不可能三角中,針對推理負載特性(非連續(xù)計算、大容量需求、成本敏感)做出的精準取舍。

啟望S3還擁有“黃金訪存比”,這也是團隊在研究大模型本身特點后的發(fā)現(xiàn),達到訪存比的“甜點”意味著不浪費每一分的算力和帶寬。

最后是核心性能。王勇介紹,F(xiàn)lash Attention算子計算效率高達98%;GEMM算子TensorCore利用率更達99%,基于這些數(shù)據(jù),王勇稱:“曦望的研發(fā)和架構能力遙遙領先?!?/p>

2.不止芯片

圍繞啟望S3,曦望同步發(fā)布了面向大模型推理的寰望SC3超節(jié)點解決方案。

寰望SC3從一開始即面向千億、萬億級參數(shù)多模態(tài)MoE推理的真實部署需求進行設計。該方案支持單域256卡一級互聯(lián),可高效支撐PD分離架構與大EP(Expert Parallelism)規(guī)?;渴穑@著提升推理階段的系統(tǒng)利用率與穩(wěn)定性,適配長上下文、多并發(fā)、多專家并行等復雜推理場景。

在交付形態(tài)上,寰望SC3采用全液冷設計,具備極致PUE表現(xiàn),并支持模塊化交付與快速部署。在同等推理能力量級下,該方案可將整體系統(tǒng)交付成本從行業(yè)常見的億元級,降低至千萬元級,實現(xiàn)一個數(shù)量級的下降。


寰望SC3超節(jié)點,圖片來源:「甲子光年」拍攝

除了寰望,S3的產品矩陣還包括智望系列的PCIe卡與OMS卡、辰望系列的PCIe服務器與OMS服務器,以及熙望系列的AIPC(液冷工作站)。


S3產品矩陣,圖片來源:「甲子光年」拍攝

在軟件層面,曦望構建了與CUDA兼容的基礎軟件體系,覆蓋驅動、運行時API、開發(fā)工具鏈、算子庫和通信庫,降低推理應用的遷移門檻。目前,該體系已適配ModelScope平臺90%以上主流大模型形態(tài),包括DeepSeek、通義千問等。


曦望軟硬協(xié)同,圖片來源:「甲子光年」拍攝

此外,曦望團隊在卡間互聯(lián)方面也做了很多工作,支持高帶寬、低延時的Scale-Up、Scale-Out互聯(lián)架構,這種原生支持的互聯(lián)架構可以讓寰望超節(jié)點產品,不僅是256卡,也可以向下覆蓋。

“這取決于我們的客戶的需求,可以做到16到256卡這樣的超節(jié)點產品。同時,當我們把多個超節(jié)點通過我們直出的RDMA(遠程直接內存訪問)連接起來的時候,我們可以做到千卡甚至幾千卡的互聯(lián)集群?!蓖跤抡f。

在曦望看來,推理GPU的競爭并不止于芯片本身,而在于能否將硬件能力穩(wěn)定轉化為可交付、可計價的推理算力。

3.曦望憑什么能站穩(wěn)腳跟?

國產AI芯片已經是一個擁擠而殘酷的賽道。

昇騰、摩爾線程、沐曦、寒武紀、億鑄、燧原等都已在某些層面證明了自己的實力,這意味著,目前的時間點競爭已充分激烈,對技術路線和資本競爭等關系公司戰(zhàn)略的重大事項,決策的容錯率會大大降低。

而面對國內外的競爭,曦望憑什么能站穩(wěn)腳跟?

徐冰對于這個問題的回答簡單而直接:“我們不是在做又一個GPU,而是從底層架構就為推理場景重新設計,徹底重寫。

在徐冰看來,啟望S3徹底拋棄了傳統(tǒng)的訓推一體GPU為訓練準備的那些冗余設計,不追求峰值TFLOPS這種紙面數(shù)據(jù),“我們是把真實業(yè)務場景中的每個token的成本,每個token的能耗,還有實實在在的穩(wěn)定性,作為所有設計決策的根本出發(fā)點。”

芯片設計不能紙上談兵,必須結合真實業(yè)務場景,滿足各種客戶需求。2025年全球大模型token的消耗量激增,其中推理消耗占了很大一部分比例,這種結構性改變也堅定了團隊研發(fā)的方向。

過去的2025年,在徐冰看來是團隊“最忙的一年”,整個團隊幾乎是“沒日沒夜全速研發(fā)”。

目前曦望已擁有三百多人的團隊,聚攏了行業(yè)中一批芯片研發(fā)精英,他們來自英偉達、AMD、昆侖芯、商湯等。核心的技術骨干平均有15年的行業(yè)經驗。徐冰形容這是“一支真正懂芯片,懂AI能落地的特種部隊”。

「甲子光年」從曦望內部了解到,公司里有這樣一句話:我們不做“向上管理”,我們要“求真務實”。

團隊曾經去一家AI公司調研發(fā)現(xiàn),這家AI公司的GPU的峰值使用率有85%,但是日均使用率只有28%。GPU的長期空閑率達到40%,每月浪費的算力成本,可以買兩臺新的服務器。

一個推理集群往往由眾多的服務器組成的,這些服務器在不同的推理算力的需求下會呈現(xiàn)出一個問題——資源利用率低,而曦望就是要解決這樣的問題。

此外,還有模型適配問題,這也是行業(yè)當中很多客戶都會遇到的問題。曦望團隊的解法是專門做一個MaaS(Model as a Service)平臺,方便模型調用和定制優(yōu)化。

從成功量產啟望S1和S2,到發(fā)布S3,展示S4和S5的路徑圖,曦望在在一步步靠近AI推理時代。過去一年,國內已經有一些廠商把大模型的推理價格做到了百萬token一元甚至幾毛錢,曦望的目標是在這個基礎上,把成本再壓一個數(shù)量級,把“百萬token一分錢”變成行業(yè)新基準。


徐冰介紹曦望的目標,圖片來源:「甲子光年」拍攝

如果說啟望S3回答的是“推理算力如何更便宜”,那么曦望與商湯科技、第四范式等生態(tài)伙伴探索的推理云平臺,則試圖解決“推理算力如何更好用”。

通過GPU池化與彈性調度,曦望將底層算力整合為統(tǒng)一的推理算力池,并以 MaaS(Model as a Service)作為核心入口,使企業(yè)無需關注底層硬件配置與集群運維,即可按需調用大模型推理能力。這一體系也成為“百萬Token一分錢”推理成本合作的重要技術基礎。

「甲子光年」了解到,曦望在過去一年內順利完成了近30億元戰(zhàn)略融資,投資方的陣容也很強大,包括三一集團旗下華胥基金、范式智能、杭州數(shù)據(jù)集團、正大機器人、協(xié)鑫科技、游族網絡、北京利爾等產業(yè)投資方,無極資本、IDG 資本、心資本、高榕創(chuàng)投、中金資本、普華資本、松禾資本、易方達資本、工銀投資、海通開元、越秀產業(yè)基金、銀泰投資、國元基金、粵民投、華民投等國內知名VC/PE機構,同時獲得誠通混改基金、杭州金投、杭州高新金投等國資背景資本的加持。

當然,推理算力價值的實現(xiàn)離不開協(xié)同,需要芯片設計、系統(tǒng)集成、軟件開發(fā)到產業(yè)應用的全鏈條協(xié)作。曦望在生態(tài)打造、商業(yè)化等方面還有很長一段路需要走。

與各類算力廠商和芯片廠商深度合作,成為現(xiàn)有算力系統(tǒng)的推理分流是曦望的一個務實的選擇。

“曦望的使命只有一個,”徐冰說,“就是把大模型推理這件事做到極致。

(封面圖來源:曦望)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
朝鮮閱兵式現(xiàn)場大將僅剩5人!戰(zhàn)略軍直接被裁?

朝鮮閱兵式現(xiàn)場大將僅剩5人!戰(zhàn)略軍直接被裁?

IN朝鮮
2026-02-28 10:45:32
特朗普苦等4天中方終于回信,對美開出兩大條件,做不到訪華免談

特朗普苦等4天中方終于回信,對美開出兩大條件,做不到訪華免談

安珈使者啊
2026-03-01 12:15:35
為什么北京像莫斯科?

為什么北京像莫斯科?

虔青
2026-02-26 11:39:20
1973年,毛主席問楊振寧:萬壽無疆科學嗎?楊振寧的回答,讓主席笑了

1973年,毛主席問楊振寧:萬壽無疆科學嗎?楊振寧的回答,讓主席笑了

寄史言志
2026-01-24 17:53:13
1949年傅作義任水利部長遭閑置,主席當面質問,周恩來聽聞當即發(fā)火

1949年傅作義任水利部長遭閑置,主席當面質問,周恩來聽聞當即發(fā)火

磊子講史
2026-01-14 10:12:21
讓領導先走?以色列徹底改變了戰(zhàn)爭習慣,自此食肉者得三思而后行

讓領導先走?以色列徹底改變了戰(zhàn)爭習慣,自此食肉者得三思而后行

尋途
2025-08-22 20:22:00
哈梅內伊的死,將了特朗普的軍!哈梅內伊最后“陽謀”,有多毒?

哈梅內伊的死,將了特朗普的軍!哈梅內伊最后“陽謀”,有多毒?

軍機Talk
2026-03-01 14:05:59
印度游客添亂,泰國悔悟:還是中國游客香

印度游客添亂,泰國悔悟:還是中國游客香

華山穹劍
2026-02-27 19:47:38
網傳新能源汽車開征“里程稅” 收費0.12元/公里 多地回應

網傳新能源汽車開征“里程稅” 收費0.12元/公里 多地回應

快科技
2026-02-27 21:58:15
騎士106-102籃網!阿特金森賽后把話挑明,哈登復出帶來一大變化

騎士106-102籃網!阿特金森賽后把話挑明,哈登復出帶來一大變化

魚崖大話籃球
2026-03-02 10:21:28
香港昂船洲政府船塢發(fā)生爆炸,已造成5人受傷

香港昂船洲政府船塢發(fā)生爆炸,已造成5人受傷

界面新聞
2026-03-02 12:00:42
演都不演了!剛復出就開演唱會,票價賣到1280,到底誰給的自信

演都不演了!剛復出就開演唱會,票價賣到1280,到底誰給的自信

樂悠悠娛樂
2026-03-01 10:27:25
34歲文萊最帥王子當父親了,兩年前結婚,漂亮王妃和他門當戶對

34歲文萊最帥王子當父親了,兩年前結婚,漂亮王妃和他門當戶對

小書生吃瓜
2026-02-15 22:41:52
護照姐丟人丟到國外!老外紛紛舉護照玩梗,洋老公:她只是保姆

護照姐丟人丟到國外!老外紛紛舉護照玩梗,洋老公:她只是保姆

寒士之言本尊
2025-10-09 11:12:44
英國宣布參與對伊朗軍事行動 戰(zhàn)機已升空

英國宣布參與對伊朗軍事行動 戰(zhàn)機已升空

桂系007
2026-02-28 23:56:12
法官問為何不交物業(yè)費,業(yè)主反問:不交稅違法,不交費違法嗎

法官問為何不交物業(yè)費,業(yè)主反問:不交稅違法,不交費違法嗎

蜉蝣說
2026-02-03 16:31:54
張一鳴第一個IPO,要來了?

張一鳴第一個IPO,要來了?

字母榜
2026-03-02 11:57:54
哈梅內伊真死了,二兒子掌控軍隊,三兒子掌控政府,大兒子消失了

哈梅內伊真死了,二兒子掌控軍隊,三兒子掌控政府,大兒子消失了

關系新篇章
2026-03-01 18:00:53
以色列已經告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

以色列已經告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

八斗小先生
2025-12-26 09:33:27
一人睡遍整個娛樂圈?司曉迪打響了2026年第一炮

一人睡遍整個娛樂圈?司曉迪打響了2026年第一炮

閱毒君
2026-01-05 07:05:06
2026-03-02 13:08:49
甲子光年
甲子光年
中國科技產業(yè)化前沿智庫
3354文章數(shù) 9261關注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓

體育要聞

卡里克主場5連勝!隊史第2人通過最大考驗

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財經要聞

中東局勢影響如何?十大券商策略來了

汽車要聞

預售11.28萬起 狐全新阿爾法S5標配寧德時代

態(tài)度原創(chuàng)

房產
手機
藝術
本地
公開課

房產要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

手機要聞

安卓小平板性能王!全新聯(lián)想拯救者Y700官宣搭載驍龍8E5 跑分破453萬

藝術要聞

2025北京青年美術作品展 | 油畫作品選刊

本地新聞

津南好·四時總相宜

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版