国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

清華教授翟季冬:Benchmark正在「失效」,智能路由終結(jié)大模型選型亂象

0
分享至


選擇悖論”正在AI模型與算力世界里上演。

作者丨趙之齊

編輯丨包永剛

北京一月的初雪落下前,我們在清華見到了翟季冬教授。他手持保溫杯,說話很利落,即便一邊思考一邊敘述,言辭間也幾乎沒有停頓、沒有模糊地帶。

這位曾帶隊拿下15次世界超算冠軍的清華計算機系長聘教授,此刻正在拆解一個行業(yè)怪象:為什么在大模型參數(shù)狂飆、算力價格下探的當下,用戶的AI落地負擔卻越來越重?

他指出,如今Benchmark(基準測試)上的高分,在比對用戶真實需求時不一定管用,有時,同個模型在不同MaaS平臺上跑出來的效果可能差異巨大,因為部分服務(wù)商為了降低成本,會對模型進行“閹割級”量化。而面對眼花繚亂的MaaS供應(yīng)商,用戶要在性能、價格與穩(wěn)定性之間做取舍,往往光調(diào)研一輪市場報價,就已耗盡精力。

“把選型的主動權(quán)完全交給用戶,其實是很大的挑戰(zhàn)”, 翟季冬直言。這種“選擇悖論”不僅折磨著開發(fā)者,更在吞噬企業(yè)的利潤——對于企業(yè)來說,降本增效的核心可能并非追求最頂尖的模型,而是如何調(diào)度能力恰當?shù)哪P停尠嘿F的大模型處理復(fù)雜指令,讓輕量的小模型應(yīng)付日常任務(wù)。

洞察到這一痛點后,由翟季冬的幾位畢業(yè)學(xué)生發(fā)起的AI Infra廠商——清程極智,開發(fā)出智能路由產(chǎn)品AI Ping(AI 評),希望成為算力界的“大眾點評”。

他們將分散的性能數(shù)據(jù)系統(tǒng)性整理,并收集用戶的使用習慣,公開不同模型與供應(yīng)商的測評數(shù)據(jù),并給用戶推薦合適的、高性價比方案。翟季冬認為,這種產(chǎn)品形態(tài),有助于撬動算力行業(yè)的馬太效應(yīng)——他相信,當數(shù)據(jù)越集中,模型的選擇就越精準;選擇越精準,用戶需要付出的成本就越低。


翟季冬

與我們交流時,盡管判斷明確,翟季冬說話時的語氣卻始終都是溫和的。他走進會議室時,手上拎著提前為我們備好的飲用水;對話結(jié)束后,還為北京凜冽的寒潮給我們來訪帶來的困擾而“致歉”。待人的認真,也換來了學(xué)生們的真心相待——在許多博士生習慣將導(dǎo)師稱為“老板”的當下,他的博士生們?nèi)詧猿址Q呼他為“老師”。

這份溫和的師者風范背后,是他對算力行業(yè)叢林法則的洞察。當大模型從實驗室走向萬千企業(yè),性能數(shù)據(jù)與用戶體驗之間的信息差該如何填平?在國內(nèi)“重硬輕軟”的ToB市場中,AI Infra團隊又應(yīng)該如何定位自己的存在?(關(guān)于AI Infra生存路徑的探討,歡迎添加作者微信Ericazhao23交流)

這些問題的答案,都藏在他的娓娓道來里。

01
模型選型的隱形賬本:

位置、定價與被閹割的精度

更多的自由和選擇,并不意味著更大的幸福,有限且可比較的選項,反而能提升決策效率與滿意度——這一“選擇悖論”,正在AI模型與算力的世界里上演。

大模型井噴式發(fā)展,每個人手里都握著好幾款“AI助手”。但翟季冬捕捉到一個痛點:現(xiàn)在很多用戶上網(wǎng)挑選模型,能參考的只有很標準的Benchmark(基準測試),不少人直接沖著跑分最高的模型去——但最牛的不一定是最合適的。他直言:“模型刷了多少分,并不一定能匹配用戶的真實需求?!?/p>

究其原因,除了純粹的性能,還有很多因素會影響模型使用體驗。

供給側(cè)上,各家模型供應(yīng)商的服務(wù)響應(yīng)效果有所差別。以DeepSeek-v3.2模型為例,翟季冬團隊調(diào)研發(fā)現(xiàn),國內(nèi)提供這一API服務(wù)的廠商就有幾十家,但他們的API服務(wù)吞吐卻覆蓋從15~200 token/s,相差10倍以上;而其支持的輸入輸出長度,也從8k~160k不等,相差了20倍

用戶對此其實早有體感:去年初DeepSeek爆火后,一眾服務(wù)商紛紛接入其API,很多人用過一輪后卻發(fā)現(xiàn),同樣調(diào)用DeepSeek模型、問出相同問題,不同供應(yīng)商的輸出效果卻天差地別。

答案很快浮出水面:即便接入同個模型,有的廠商會對模型做激進的量化處理,例如從FP8變成INT4,輸出的表現(xiàn)自然隨之改變。

服務(wù)商的算力部署位置,也會左右模型的調(diào)用體驗:同款模型,如果用戶在北京調(diào)用,MaaS提供方在上?;蛏钲冢w驗都會有很大差異。

此外,各玩家定價策略各異,不同階段的促銷活動還會導(dǎo)致成本相差甚遠。

用戶的需求本身就是多維度的:有的更看重性價比,有的追求穩(wěn)定性,有的則更在意響應(yīng)速度。而不同的任務(wù)場景,也對應(yīng)著不同的大模型最優(yōu)解——

對于需求是“寫小說”的用戶,模型擅長寫調(diào)研報告的能力就毫無意義;而日常查天氣、問穿搭,一個輕量級的小模型也足夠用;可要是解一道復(fù)雜的科學(xué)難題,就得大參數(shù)的模型出馬。

把選型的主動權(quán)完全交給用戶,其實是很大的挑戰(zhàn)”,翟季冬指出。雖然對個人免費用戶而言影響可能甚微,但對企業(yè)級用戶來說,會直接引發(fā)巨大的成本鴻溝

同樣的預(yù)算,調(diào)用大模型可能僅能支持十萬次請求,換成小模型卻能達到百萬次量級。

理想的情況是:如果能對需求做精細化拆分,讓復(fù)雜問題匹配大模型、簡單問題對接小模型,就能實現(xiàn)算力成本的最優(yōu)解。

而這些,都是翟季冬和清程極智團隊想解決的問題。

02
做算力界的“大眾點評”,

終結(jié)大模型選型亂象

瞄準這些行業(yè)痛點,清程極智團隊打造出智能路由產(chǎn)品AI Ping(AI評)。

“AI評的‘評’,就是評測,清程對國內(nèi)MaaS供應(yīng)商持續(xù)測試——既測同款模型在不同廠商手中的延遲、帶寬表現(xiàn),也對比不同模型在各家平臺的吞吐效率與價格成本差異”,翟季冬介紹說。

拆解來看,智能路由的能力分為兩層:一是服務(wù)商路由,在眾多API服務(wù)提供者中選擇最佳的服務(wù);二是模型路由,在眾多大模型中選擇最佳的模型。

回顧技術(shù)的研發(fā),翟季冬感慨,服務(wù)商路由的搭建不算是最難的事,真正難啃的硬骨頭,是如何為用戶精準匹配模型。

“要給企業(yè)的問題精準匹配模型,前提是積累他們的海量歷史數(shù)據(jù)”,但在初期,數(shù)據(jù)儲備往往不足、用戶行為畫像模糊,模型的精準選擇很難。

這個難點,在AI Ping的目標市場——個人開發(fā)者和中小企業(yè)這個群體里,被進一步放大

AI Ping團隊發(fā)現(xiàn),這類用戶對產(chǎn)品質(zhì)量的要求幾乎是要“超出預(yù)期”,八十分的水準,在他們眼里幾乎等同于不合格,這讓產(chǎn)品打磨的難度陡增。

因此,在起初的冷啟動階段,團隊選擇用“笨辦法”突圍:一邊給供應(yīng)商測試大量數(shù)據(jù),用Benchmark測試準確性、延遲帶寬、價格;一邊聯(lián)合上下游企業(yè)拓展市場,在真實場景中積累用戶、沉淀數(shù)據(jù)。

解決了這個問題,另一重考驗隨即出現(xiàn):面對企業(yè)的高吞吐剛需,單一供應(yīng)商的算力儲備往往難以滿足。這就對平臺提出了兩大要求——強大的算力整合能力,以及國產(chǎn)算力接入通道的打通能力。

對此,清程極智就在AI Infra上做了大量工作,把“赤兔”推理引擎與AI Ping對接,完成了算力資源的整合調(diào)度。


截圖來自AI Ping網(wǎng)站

在翟季冬看來,AI Ping很像算力行業(yè)的“大眾點評”,給用戶打造一套垂直領(lǐng)域的解決方案。

這本質(zhì)上也是一種團購邏輯:聚合海量用戶需求后,清程極智能以更大的體量與算力廠商議價。畢竟,大模型選型的核心命題,始終是成本與效率的平衡。

“這本身也會形成一種馬太效應(yīng)”,翟季冬指出,“聚合的用戶越多、收集的數(shù)據(jù)越豐富,模型匹配的精準度就越高;既能幫助用戶省去更多錢,也能幫算力廠商盤活資源,我們的軟件能力也能借此賦能”。

從2025年春夏之交籌備至今,歷時近一年,AI Ping終于迎來了正式面市的時刻。

這種中立的評測甚至成了行業(yè)“裁判”:硅基流動創(chuàng)始人袁進輝此前在朋友圈提及,有的用戶分不清其基于國產(chǎn)卡的非pro版與基于國際算力的Pro版的指標差異,于是直接拋出AI Ping的測評結(jié)果作佐證。

“可以去這個網(wǎng)站看各項指標,很靠譜”,袁進輝這樣寫道。

來自同行的反饋,已側(cè)面印證出AI Ping作為風向標的價值。不過,一個更現(xiàn)實的問題也隨之浮現(xiàn):對于清程極智而言,如何把這種數(shù)據(jù)影響力在商業(yè)上變現(xiàn)?

03
AI Ping商業(yè)解法:整機與算力雙管齊下

對話剛開場,被問及“如今Infra行業(yè)的普遍焦慮是什么”時,翟季冬的回應(yīng)直指核心:

“怎么讓國內(nèi)AI Infra賺到更多錢?”

在他看來,商業(yè)化的核心邏輯正在逐漸明晰:算力需求是一個非常真實的市場,怎么通過服務(wù)軟件把算力有效整合提供給用戶,會是AI Infra行業(yè)未來的重要發(fā)展方向。

這一判斷,也支撐起了清程極智的產(chǎn)品布局——大模型訓(xùn)練智能軟件?!鞍素誀t”、被譽為國產(chǎn)算力部署神器的“赤兔”大模型推理引擎和一站式大模型API評測和調(diào)用平臺AI Ping,本質(zhì)上都是底層算力到用戶端的一個個“出口”。其中,AI Ping便通過整合模型和供應(yīng)商,把軟件能力賦能到算力上,給用戶提供token和算力

這也是清程在這兩年沉淀出來的解法。

翟季冬評論道,清程極智的核心競爭力是中間軟件層,包括編譯、通信庫、并行加速等技術(shù),基于此,他們逐漸找到了自己的定位:和芯片廠商合作,做其系統(tǒng)軟件之上增量的部分,讓大模型在這些芯片上發(fā)揮出極致的效率。

圍繞這一定位,清程也在探索多種不同的商業(yè)化路徑:

一方面,將軟件與硬件打包為整機服務(wù),針對“買了國產(chǎn)卡卻難落地”的痛點,讓裸機用戶也能做訓(xùn)練與微調(diào);另一方面,是通過AI Ping等平臺與算力廠商合作,提升國產(chǎn)算力的易用性。

而在最近與國產(chǎn)芯片公司的廠商交流中,翟季冬也感受到,大家對軟硬件高效協(xié)同的重要性已形成共識,“剩下的問題,無非就是這些軟件由誰去做”。

清程極智聯(lián)合創(chuàng)始人師天麾,也觀察到了這種行業(yè)認知的轉(zhuǎn)變。他此前向雷峰網(wǎng)表示:

“DeepSeek能用極少的算力卡和極低的成本,訓(xùn)練出如此大規(guī)模的模型,主要依靠的是模型架構(gòu)設(shè)計和Infra軟件技術(shù),尤其是他們把大量算力加速類Infra軟件開源后,大家才真正意識到Infra的重要性?!?/p>

一個顯著標識是,以前他還需要和投資人解釋什么是Infra,進入2025年之后,這一步已經(jīng)可以省略了。

但在當下,行業(yè)內(nèi)也流傳著一種擔憂:

“AI Infra的價值,只存在于國產(chǎn)算力群雄逐鹿階段,一旦算力架構(gòu)定型、大模型技術(shù)收斂,Infra的必要性也會大打折扣?!?/p>

這也是擺在所有Infra從業(yè)者面前共同的問題:下一個能證明自己價值的“地盤”會在哪里?未來如果國產(chǎn)算力逐漸同構(gòu),AI Infra還有存在的必要嗎?

04
Infra的生命力:

架構(gòu)演進不止,軟件迭代不息

此前,AI Infra已在架構(gòu)適配、算子生成、并行通信等領(lǐng)域初試鋒芒,不過,這遠非終點。

在翟季冬看來,Infra的生命力源于底層架構(gòu)與上層軟件的雙重迭代:“只要模型還在演進、算力架構(gòu)還在融合發(fā)展,Infra的需求就會持續(xù)存在”。

他指出,即便是英偉達的CUDA生態(tài),底層芯片同構(gòu),但由于模型側(cè)還沒有完全收斂,推理、后訓(xùn)練的復(fù)雜度仍在提升:

文生圖、文生視頻等多模態(tài)模型還在興起,即將推出的DeepSeek V4,還將引入更多稀疏性相關(guān)的技術(shù)難題;AI for Science、AI for Engineering等新的應(yīng)用領(lǐng)域迸發(fā),也在倒逼AI Infra的底層需求發(fā)生變革。

同時,國內(nèi)算力不僅廠商多,各自的架構(gòu)也并不統(tǒng)一,這更決定了AI Infra的不可替代性。

翟季冬分析,海外算力市場的架構(gòu)相對統(tǒng)一:英偉達與AMD占主導(dǎo)地位,二者的GPU架構(gòu)均屬于SIMT(單指令多線程),有很強的相似性。

反觀國內(nèi),有的廠商選擇對標英偉達的SIMT架構(gòu),有的則主攻SIMD(單指令流多數(shù)據(jù)流)架構(gòu)。

并且,在這幾年里,這兩種架構(gòu)并非一方絕對壓倒另一方:很多芯片廠商如今都在走架構(gòu)融合的路線,通過取長補短提升性能,比如華為,開始在SIMD架構(gòu)里融入SIMT的設(shè)計思路;英偉達則正好相反。

在此基礎(chǔ)上,即便已有比較成熟的Infra項目,例如開源圈里炙手可熱的Triton——這款由OpenAI為英偉達芯片開發(fā)的算子生成工具,在適配不同架構(gòu)的國產(chǎn)芯片時,也必須經(jīng)過大量本土化改造。

而未來,隨著推理場景的全面爆發(fā),AI Infra還將迎來新一輪的挑戰(zhàn)。

翟季冬直言,行業(yè)現(xiàn)在普遍面臨一個痛點:芯片的峰值算力與實際利用率之間存在巨大鴻溝。一塊標稱300TFLOPS算力的芯片,在大模型訓(xùn)練或推理中,實際利用率往往只有10%-20%;即便是英偉達這樣的巨頭,預(yù)訓(xùn)練場景下的算力利用率也僅能達到50%上下。

進入推理階段后,文字、圖像、視頻等不同任務(wù)的算力需求差異顯著,再加上對時延的極高要求,如何針對不同推理場景實現(xiàn)硬件性能的最大化釋放,將是AI Infra未來的核心攻堅方向。

除了這些看得見的產(chǎn)業(yè)機遇,翟季冬還在默默探索那些“冷賽道”,比如AI for Science等短期內(nèi)難見商業(yè)價值、但對科技發(fā)展至關(guān)重要的領(lǐng)域。

他還與我們分享了一段近期的交流經(jīng)歷:一位歸國的天文系老師告訴他,射電望遠鏡每天都會產(chǎn)生海量觀測數(shù)據(jù),他們需要高效的解決方案,來完成數(shù)據(jù)的實時處理與算法分析——這無疑對AI Infra的軟硬件協(xié)同能力,提出了更高的要求。

這些眼下難見回報的探索,正藏著AI Infra的本真價值。在翟季冬眼中,這也是Infra行業(yè)可以穿越周期、走向未來的底氣。

作者長期關(guān)注AI算力上下游等方向,歡迎添加微信Ericazhao23交流。

未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
2年慢老5個月!哈佛大學(xué)臨床證實:每天一片復(fù)合維生素,可顯著延緩衰老

2年慢老5個月!哈佛大學(xué)臨床證實:每天一片復(fù)合維生素,可顯著延緩衰老

醫(yī)諾維
2026-03-10 17:00:45
以色列特種兵深夜突襲慘敗,伊朗系成功伏擊,遠火轟擊F-35維修廠

以色列特種兵深夜突襲慘敗,伊朗系成功伏擊,遠火轟擊F-35維修廠

軍機Talk
2026-03-07 16:42:12
3-0脆??!上海豪華陣容現(xiàn)原形,遇強崩盤+教練死磕一套陣容太致命

3-0脆??!上海豪華陣容現(xiàn)原形,遇強崩盤+教練死磕一套陣容太致命

金毛愛女排
2026-03-10 21:13:30
兩會數(shù)說中國|一組數(shù)據(jù)看糧食安全“壓艙石”更堅實

兩會數(shù)說中國|一組數(shù)據(jù)看糧食安全“壓艙石”更堅實

新華社
2026-03-10 00:43:07
郭晶晶12歲女兒霍中妍火出圈!正臉照太驚艷,鵝蛋臉高鼻梁大眼睛

郭晶晶12歲女兒霍中妍火出圈!正臉照太驚艷,鵝蛋臉高鼻梁大眼睛

觀魚聽雨
2026-03-10 16:15:05
大消息!廣東,剛剛發(fā)布

大消息!廣東,剛剛發(fā)布

中國基金報
2026-03-10 19:47:05
《逐玉》注水風波升級!315評論區(qū)淪陷,網(wǎng)友呼吁徹查造假亂象

《逐玉》注水風波升級!315評論區(qū)淪陷,網(wǎng)友呼吁徹查造假亂象

萌神木木
2026-03-10 17:48:02
再漲20元,2026年-2030年養(yǎng)老金調(diào)整方向定了,超1.8億人受益

再漲20元,2026年-2030年養(yǎng)老金調(diào)整方向定了,超1.8億人受益

財話連篇
2026-03-09 23:17:37
1930年,37歲白崇禧和副官未婚妻生下長子,妻子直接殺了過來

1930年,37歲白崇禧和副官未婚妻生下長子,妻子直接殺了過來

史之銘
2026-03-10 17:55:32
場均22分又如何?走到哪都管不住下半身,這輩子都進不了國家隊了

場均22分又如何?走到哪都管不住下半身,這輩子都進不了國家隊了

弄月公子
2026-03-10 16:50:24
2026年醫(yī)保巨變,掛號少做這一步,每年幾千塊醫(yī)保全白交

2026年醫(yī)保巨變,掛號少做這一步,每年幾千塊醫(yī)保全白交

老特有話說
2026-03-10 15:30:08
大批量上市!“春季第一鮮”降價六成,清明節(jié)前最肥美→

大批量上市!“春季第一鮮”降價六成,清明節(jié)前最肥美→

上海嘉定
2026-03-10 07:36:36
騰訊QClaw官網(wǎng)上線:可一鍵部署“龍蝦”,兼容QQ、微信

騰訊QClaw官網(wǎng)上線:可一鍵部署“龍蝦”,兼容QQ、微信

PChome電腦之家
2026-03-09 14:37:39
男友父母1000萬全款買房,女友加名被拒退婚,網(wǎng)友:算盤打得太響

男友父母1000萬全款買房,女友加名被拒退婚,網(wǎng)友:算盤打得太響

川渝視覺
2026-03-10 21:05:58
最高院:民間借貸沒有借條只有轉(zhuǎn)賬記錄,能否證明存在借貸關(guān)系?

最高院:民間借貸沒有借條只有轉(zhuǎn)賬記錄,能否證明存在借貸關(guān)系?

周軍律師聊案子
2026-03-10 08:43:14
不敢回家!上海一業(yè)主實名舉報小區(qū)違建,自己和家人信息被泄露;被舉報人:你當天投訴,10分鐘后我就知道了

不敢回家!上海一業(yè)主實名舉報小區(qū)違建,自己和家人信息被泄露;被舉報人:你當天投訴,10分鐘后我就知道了

海峽網(wǎng)
2026-03-10 12:30:13
4月1號起,銀行存款10萬以上50萬以下的,這個消息一定要知道

4月1號起,銀行存款10萬以上50萬以下的,這個消息一定要知道

另子維愛讀史
2026-03-10 23:10:33
毛主席:晚年重用了這3個人物,從此徹底改寫了中國未來命運

毛主席:晚年重用了這3個人物,從此徹底改寫了中國未來命運

優(yōu)趣紀史記
2026-03-10 11:15:34
阿爾茨海默病者逐漸增多,醫(yī)生提醒:55歲后,盡量改掉6個壞習慣

阿爾茨海默病者逐漸增多,醫(yī)生提醒:55歲后,盡量改掉6個壞習慣

39健康網(wǎng)
2026-02-17 18:31:37
中概股集體高開,黃金白銀大漲!美防長稱將對伊朗發(fā)起“最高強度”打擊

中概股集體高開,黃金白銀大漲!美防長稱將對伊朗發(fā)起“最高強度”打擊

證券時報e公司
2026-03-10 22:30:27
2026-03-11 02:43:00
AI科技評論 incentive-icons
AI科技評論
點評學(xué)術(shù),服務(wù)AI
7111文章數(shù) 20739關(guān)注度
往期回顧 全部

科技要聞

全民"養(yǎng)蝦"背后:大廠集體下場瘋狂賣Token

頭條要聞

伊朗新最高領(lǐng)袖在襲擊中受傷未公開發(fā)表講話 官方回應(yīng)

頭條要聞

伊朗新最高領(lǐng)袖在襲擊中受傷未公開發(fā)表講話 官方回應(yīng)

體育要聞

加蘭沒那么差,但鱸魚會用嗎?

娛樂要聞

《逐玉》注水風波升級!315評論區(qū)淪陷

財經(jīng)要聞

“龍蝦補貼”密集出爐 最高1000萬!

汽車要聞

MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

態(tài)度原創(chuàng)

旅游
游戲
本地
公開課
軍事航空

旅游要聞

奇花藝境展推出多次打卡票種,滬上春日花事持續(xù)煥新

《德波尼亞》Steam 免費領(lǐng) / 《超級馬力歐銀河大電影》最終預(yù)告曝光

本地新聞

云游中國|候鳥高顏值亮相!沉浸式打卡青海濕地

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

剛說完戰(zhàn)爭很快結(jié)束 特朗普改口

無障礙瀏覽 進入關(guān)懷版