国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

黃仁勛喊出“推理拐點”,邊緣推理的機會窗口打開了嗎

0
分享至

上周,紐約時報報道了硅谷一個新風(fēng)氣叫 tokenmaxxing,Meta 和 OpenAI 的工程師在內(nèi)部搞 token 消耗量排行榜,比誰燒得多。黃仁勛在 GTC 2026 上更激進(jìn),提議企業(yè)給工程師發(fā) token 預(yù)算,作為工資之外的第二份薪酬。

OpenAI 的數(shù)據(jù)則顯示,過去一年企業(yè)客戶的推理 token 消耗量暴漲了約 320 倍。

需求側(cè)在爆炸。供給側(cè)呢?

黃仁勛在同一場 keynote 上搬出了 Tokenomics 這個概念,把它從加密貨幣的語境里拎出來,重新定義為 AI 推理的經(jīng)濟(jì)學(xué)。核心指標(biāo)叫 Tokens per Watt,衡量每瓦特電力能產(chǎn)出多少 token。他說推理拐點已經(jīng)到了,NVIDIA 預(yù)計 Blackwell 和 Vera Rubin 芯片訂單量到 2027 年將達(dá)到 1 萬億美元。

國內(nèi)大模型廠商一直在講類似的事情,只是換了說法叫“推理成本”或者“token 單價”。不管哪種說法,指向的問題是一樣的,當(dāng) token 變成 AI 時代的水電煤,誰來建發(fā)電廠和電網(wǎng)?

過去三年,行業(yè)給出的答案是,建更大的數(shù)據(jù)中心,塞更多的 GPU。這在訓(xùn)練時代完全成立。但推理和訓(xùn)練的邏輯不同。訓(xùn)練一個模型是一次性工程,推理要做幾十億次,而且對延遲極度敏感。當(dāng)推理請求像洪水一樣涌來,把所有 GPU 集中在幾個超大數(shù)據(jù)中心里,可能恰恰成了瓶頸。

瓶頸不在算力,在物理。具體來說,在光速。

推理時代撞上“光速墻”

在今年 GTC 上,有一家公司對這個問題給出了非常系統(tǒng)的回答。

Akamai,國內(nèi)讀者可能不太熟悉這個名字,但在海外,它是 CDN 概念的開創(chuàng)者,也是目前全球最大的分布式計算平臺,擁有業(yè)內(nèi)最龐大的邊緣節(jié)點網(wǎng)絡(luò)。1998 年成立,全球前十的視頻流媒體平臺、游戲公司、銀行基本都是它的客戶。全球擁有超過 4400 個邊緣入網(wǎng)點,覆蓋 130 多個國家,承載全球近三分之一的互聯(lián)網(wǎng)流量。

這家公司在近三十年里經(jīng)歷了三次轉(zhuǎn)型,從 CDN 到安全,再到云計算和 AI。今年 GTC 上,它帶來了兩個 session,核心主題只有一個,為什么 AI 推理必須走向分布式。

Akamai CTO Office 的 SVP Andy Champagne 在 session 上描述了一個“個人 AI 導(dǎo)播”的場景,非常有畫面感。一場 F1 比賽有 20 多個 4K 機位同時在拍,傳統(tǒng)做法是導(dǎo)播間一個人切鏡頭,幾百萬觀眾看到的畫面一模一樣。但如果每個觀眾都能看到根據(jù)自己偏好定制的直播流,喜歡的車手、偏愛的鏡頭角度,那就需要在邊緣實時合成個性化的視頻。幾百萬路不同的 4K 視頻流,不可能從一個數(shù)據(jù)中心統(tǒng)一往外推。



類似的邏輯出現(xiàn)在越來越多的實時場景里。

游戲 NPC 需要在 50 毫秒內(nèi)響應(yīng),超過這個閾值玩家體感明顯卡頓。Akamai 產(chǎn)品管理 VP Shawn Michels 在另一個 session 舉了實時廣告插入的例子,從掃描視頻、識別廣告位、競價、生成個性化廣告到拼回視頻流,整條鏈路的預(yù)算只有 100 毫秒。這恰恰是 Akamai 的先天優(yōu)勢所在,它在全球已有超過 4400 個邊緣節(jié)點,這種“就近處理”的能力不是純云廠商從零搭建能輕易追上的。

同樣的延遲壓力還存在于 AI 語音助手、電商推薦引擎、智能試衣間、自動駕駛傳感器處理和工業(yè)產(chǎn)線質(zhì)檢等場景中。AI 一旦嵌入實時應(yīng)用,就必須繼承那個應(yīng)用原本的延遲要求。

物理定律不會因為 GPU 更快就網(wǎng)開一面。光在光纖中每秒約跑 20 萬公里,從倫敦到美東數(shù)據(jù)中心單程延遲約 28 毫秒,往返就是 56 毫秒。從東京出發(fā)更遠(yuǎn),往返約 134 毫秒。這還沒算任何計算時間。

回頭看上面那些場景的延遲要求,不難理解為什么把推理全部扔到少數(shù)幾個集中式數(shù)據(jù)中心里是行不通的。

延遲之外還有帶寬。Andy 在 session 里算了一筆賬,同樣 1GW 的算力,如果集中在一個數(shù)據(jù)中心用 Blackwell 做視頻推理,出口帶寬需求是 75 Tbit/s。分布到 20 個區(qū)域節(jié)點,每個只需 3.75 Tbit/s。集中式的出口流量是分布式的 20 倍,背后的網(wǎng)絡(luò)成本差距不言而喻。

如果換成下一代 Vera Rubin,集中式的出口帶寬更是飆到 135 Tbit/s。芯片越快,集中式架構(gòu)的出口瓶頸反而越嚴(yán)重。

在同一個 session 上,Comcast負(fù)責(zé) AI 與邊緣計算方向的嘉賓從排隊論的角度做了更嚴(yán)謹(jǐn)?shù)姆治?。在相?GPU、相同模型的條件下,集中式和分布式部署之間僅僅 14 毫秒的往返延遲差異,就導(dǎo)致了約 30% 的 GPU 利用率差距。

他的原話是,“這是物理定律層面的優(yōu)勢,沒法靠 batching 或者提高 tokens/s 來彌補?!?/p>



一個近三十年的伏筆

Andy 在 session 上做了一個很有意思的類比,把 AI 的發(fā)展時間線和互聯(lián)網(wǎng)做對齊來看?;ヂ?lián)網(wǎng)的普及率已經(jīng)超過 95%,AI 目前大約只有 7%。他的判斷是,AI 現(xiàn)在大概處于互聯(lián)網(wǎng)的 MySpace 時代。

想想 MySpace 之后又誕生了多少公司、多少市值、多少技術(shù)突破。AI 的好戲才剛剛開始。

這個類比其實點出了 Akamai 做分布式推理的底層邏輯。近三十年前這家公司解決的問題和今天面對的問題,結(jié)構(gòu)上是一樣的,把集中的東西變成分布的。當(dāng)年分發(fā)的是網(wǎng)頁和視頻,現(xiàn)在分發(fā)的是 AI 推理。方法論一脈相承。

他在 session 結(jié)尾說了兩句話,頗能概括這種邏輯,“AI 工廠創(chuàng)造智能,AI Grid 分發(fā)智能”,以及“沒有分布式推理的 AI,就像沒有 CDN 的互聯(lián)網(wǎng)”。



GTC 期間,NVIDIA 官方將 Akamai Cloud 和 AWS 一起列為首批提供 RTX PRO Blackwell Server Edition 實例的云服務(wù)商。黃仁勛 keynote 展示的合作伙伴 logo 墻上,Akamai 赫然在列。NVIDIA 電信業(yè)務(wù)全球副總裁 Chris Penrose 評價說,Akamai 通過運營 AI Grid,正在為生成式 AI、AI Agent 和物理 AI 構(gòu)建連接組織,將智能直接推送到數(shù)據(jù)所在的地方。

Akamai 也在 GTC 上正式發(fā)布了業(yè)界首個全球規(guī)模落地 NVIDIA AI Grid 參考架構(gòu)的方案,將 NVIDIA AI 基礎(chǔ)設(shè)施深度集成到自身的分布式網(wǎng)絡(luò)中。這不是一個松散的合作。Akamai 是首家將 AI Grid 從概念推到運營級別的廠商,底層跑的是 NVIDIA AI Enterprise 軟件棧、Blackwell 架構(gòu) GPU 和 BlueField DPU 加速網(wǎng)絡(luò)的完整技術(shù)棧。

推理基礎(chǔ)設(shè)施的幾個現(xiàn)實問題

回到地面,對于正在考慮推理部署的 AI 團(tuán)隊,有幾個繞不開的現(xiàn)實問題。

不是所有推理都需要 H100。 這個認(rèn)知正在被越來越多團(tuán)隊接受。H100 為訓(xùn)練和大規(guī)模推理而生,但如果跑的是 8B 參數(shù)的模型、做的是語音交互或者視頻分析,用 H100 就像開卡車送外賣。

Akamai 目前部署的 RTX PRO 6000 Blackwell Server Edition 是一個值得關(guān)注的選項。直接看 Token 經(jīng)濟(jì),$2.50/小時全包價,每美元 Token 產(chǎn)出是同類方案的 2.1 倍。

性能層面,這張卡配了 96GB GDDR7 顯存和 4,000 TOPS FP4 算力,在 NVFP4 精度下推理吞吐量比 H100 高出 60% 以上,對比上一代 RTX 4000 Ada 提升達(dá) 19 倍。另一個容易被忽略的差異是視頻處理能力,RTX PRO 6000 原生支持 112 到 132 路視頻編解碼,如果做的是視覺 AI 相關(guān)的產(chǎn)品,這個能力是定位于訓(xùn)練和超算的 H100 不具備的。

再加上風(fēng)冷設(shè)計,在邊緣機房有限的空間和功耗條件下部署門檻低得多。Shawn Michels 在 GTC session 里的觀點說的是未來的推理基礎(chǔ)設(shè)施一定是混合架構(gòu),不同 GPU 匹配不同的工作負(fù)載,沒有萬能卡。

Egress 費用是隱性殺手。 很多團(tuán)隊做預(yù)算時只看 GPU 租用價格,忽略了數(shù)據(jù)出站費。AI 產(chǎn)品服務(wù)全球用戶,視頻和模型響應(yīng)產(chǎn)生的出站流量成本可能比 GPU 本身還貴。

邊緣部署的經(jīng)濟(jì)邏輯之一正在于此,推理結(jié)果在本地生成、本地交付,不用跨大半個地球回傳。Akamai 的 egress 價格是 $0.005/GB,和三大云廠商的差距非常明顯。

調(diào)度比算力更難。 GPU 散到全球各地只是第一步,更難的是讓每個請求找到最合適的那臺機器。Akamai 在 GTC 上展示了他們的 AI 編排器(Orchestrator),這不是傳統(tǒng)的根據(jù)延遲和負(fù)載來分配流量的負(fù)載均衡。

它會考慮模型親和性(哪臺機器已經(jīng)加載了需要的模型)、GPU 顯存占用、KV Cache 狀態(tài)等 AI 場景特有的因素來做實時路由決策?,F(xiàn)場 demo 中,推理請求從巴黎節(jié)點實時切換到加州節(jié)點,用戶側(cè)完全無感知。這背后是 Akamai 做了近三十年流量調(diào)度的老本行,在 AI 場景上的自然延續(xù)。

目前 Akamai 的 Blackwell GPU 節(jié)點已覆蓋歐洲、亞太和美洲共 19 個節(jié)點,配合 4400 多個邊緣入網(wǎng)點協(xié)同工作。對于出海的 AI 團(tuán)隊來說,東京、新加坡、孟買、雅加達(dá)這些亞太節(jié)點尤其值得留意。



出海 AI 創(chuàng)業(yè)者的第三種選擇

Akamai 從 CDN 到安全,再到云計算和 AI 推理的轉(zhuǎn)型路徑,本身就是互聯(lián)網(wǎng)基礎(chǔ)設(shè)施演進(jìn)的一個切面。它在這條賽道上的差異化在于,不是從零建數(shù)據(jù)中心,而是把已經(jīng)運行了近三十年的全球分布式網(wǎng)絡(luò)變成了 AI 推理的底座。

這步棋能走多遠(yuǎn),取決于它能不能跟上 AI 硬件更新的速度,也取決于邊緣推理的市場需求能否如預(yù)期般爆發(fā)。

但對中國出海 AI 創(chuàng)業(yè)者來說,一件事正在變得越來越清楚,全球化部署推理能力正在從“以后再說”變成“現(xiàn)在就得解決”。

合規(guī)(數(shù)據(jù)主權(quán)、不出境)、延遲(用戶體驗的硬門檻)、成本(egress 和 GPU 租用的真實賬單),這是出海時最現(xiàn)實的三座山。Akamai 的邊緣推理平臺提供了一種此前不太存在的選擇,不必自建全球基礎(chǔ)設(shè)施,也不必把雞蛋全放在幾家超大規(guī)模云上,而是可以借助一張已經(jīng)覆蓋 130 多個國家的分布式網(wǎng)絡(luò),把推理跑到離用戶最近的地方去。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
國乒男團(tuán)輸球登熱搜第一!關(guān)鍵戰(zhàn)決定種子簽位 王楚欽復(fù)出PK莫雷加德

國乒男團(tuán)輸球登熱搜第一!關(guān)鍵戰(zhàn)決定種子簽位 王楚欽復(fù)出PK莫雷加德

桃葉渡春
2026-05-03 11:25:37
李小冉與徐佳寧丁克真相,網(wǎng)友:不是選擇丁克而是難以生育好嗎?

李小冉與徐佳寧丁克真相,網(wǎng)友:不是選擇丁克而是難以生育好嗎?

小娛樂悠悠
2026-05-02 10:45:13
場均23分7板8助,又打破NBA紀(jì)錄!41歲詹姆斯,季后賽什么水平?

場均23分7板8助,又打破NBA紀(jì)錄!41歲詹姆斯,季后賽什么水平?

老梁體育漫談
2026-05-03 00:03:29
大腦“餓”了竟會變笨?清華大學(xué):每天50微克這種常見維生素,癡呆風(fēng)險降21%-26%

大腦“餓”了竟會變笨?清華大學(xué):每天50微克這種常見維生素,癡呆風(fēng)險降21%-26%

梅斯醫(yī)學(xué)
2026-05-03 07:54:16
炸鍋!ESPN曝?zé)峄痼@天交易,梭哈倫納德,萊利這次賭太大了

炸鍋!ESPN曝?zé)峄痼@天交易,梭哈倫納德,萊利這次賭太大了

體育大朋說
2026-05-02 15:00:03
因盜播英超且無力歸還違法所得,一盜播團(tuán)隊面臨額外10年監(jiān)禁

因盜播英超且無力歸還違法所得,一盜播團(tuán)隊面臨額外10年監(jiān)禁

懂球帝
2026-05-02 18:20:09
2026北京車展:113.98萬起!4.0T V8!爆500馬力!全新奧迪SQ8上市!

2026北京車展:113.98萬起!4.0T V8!爆500馬力!全新奧迪SQ8上市!

聊聊車生活
2026-05-03 10:09:48
22歲張本智和麻了!0-3遭世界第10橫掃 多次高調(diào)宣稱奪金慘遭打臉

22歲張本智和麻了!0-3遭世界第10橫掃 多次高調(diào)宣稱奪金慘遭打臉

風(fēng)過鄉(xiāng)
2026-05-03 06:35:16
75歲張愛玲死在行軍床上,滿屋是用過的衛(wèi)生紙,遺囑:不許看遺體

75歲張愛玲死在行軍床上,滿屋是用過的衛(wèi)生紙,遺囑:不許看遺體

抽象派大師
2026-03-09 15:35:32
失蹤135年!上次出現(xiàn)還是清光緒十一年,2020年浙江山區(qū)發(fā)現(xiàn)5棵

失蹤135年!上次出現(xiàn)還是清光緒十一年,2020年浙江山區(qū)發(fā)現(xiàn)5棵

阿訊說天下
2026-05-02 18:03:20
四月一過熟悉的阿森納回來了!3-0富勒姆6分領(lǐng)跑,壓力回歸曼城

四月一過熟悉的阿森納回來了!3-0富勒姆6分領(lǐng)跑,壓力回歸曼城

里芃芃體育
2026-05-03 12:00:22
高盛一季度減持105股!最大減倉81.19%,這些股遭清倉式拋售

高盛一季度減持105股!最大減倉81.19%,這些股遭清倉式拋售

慧眼看世界哈哈
2026-05-03 12:12:17
養(yǎng)蝦大爆炸!蘋果停產(chǎn)廉價版Mac Mini,現(xiàn)價799美元

養(yǎng)蝦大爆炸!蘋果停產(chǎn)廉價版Mac Mini,現(xiàn)價799美元

鞭牛士
2026-05-03 13:25:48
曾經(jīng)爆火的高端牛奶,連中產(chǎn)都放下了?

曾經(jīng)爆火的高端牛奶,連中產(chǎn)都放下了?

新浪財經(jīng)
2026-05-03 09:30:42
豆包又更新了!一鍵生成王炸PPT,10分鐘搞定半天工作量!

豆包又更新了!一鍵生成王炸PPT,10分鐘搞定半天工作量!

秋葉PPT
2026-05-03 08:22:37
隊史首次3-1被翻盤!3名首發(fā)合計得0分,馬祖拉不會用人害死綠軍

隊史首次3-1被翻盤!3名首發(fā)合計得0分,馬祖拉不會用人害死綠軍

聽我說球
2026-05-03 10:48:33
軍權(quán)、財權(quán)、外交權(quán)一把抓,穆尼爾強勢登頂,巴基斯坦徹底變天了

軍權(quán)、財權(quán)、外交權(quán)一把抓,穆尼爾強勢登頂,巴基斯坦徹底變天了

溫讀史
2026-05-01 04:50:30
馮提莫停播原因公開,患甲狀腺癌晚期,醫(yī)生斷言:這輩子別想唱歌

馮提莫停播原因公開,患甲狀腺癌晚期,醫(yī)生斷言:這輩子別想唱歌

草莓解說體育
2026-05-03 05:32:06
法國人講述如何一眼區(qū)分“中國人”“日本人”“韓國人”的?

法國人講述如何一眼區(qū)分“中國人”“日本人”“韓國人”的?

日本物語
2026-03-15 20:34:37
“蘇超”最新積分榜公布:鹽城隊3場皆勝9分領(lǐng)跑,南京隊1勝1負(fù)位居第9,鎮(zhèn)江隊2戰(zhàn)全負(fù)位居榜尾

“蘇超”最新積分榜公布:鹽城隊3場皆勝9分領(lǐng)跑,南京隊1勝1負(fù)位居第9,鎮(zhèn)江隊2戰(zhàn)全負(fù)位居榜尾

揚子晚報
2026-05-02 22:12:44
2026-05-03 14:00:49
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個星球。
3054文章數(shù) 10493關(guān)注度
往期回顧 全部

科技要聞

庫克罕見"拒答"!蘋果正被AI供應(yīng)鏈卡脖子

頭條要聞

牛彈琴:比網(wǎng)紅還網(wǎng)紅 快80歲的特朗普一晚上發(fā)8張圖

頭條要聞

牛彈琴:比網(wǎng)紅還網(wǎng)紅 快80歲的特朗普一晚上發(fā)8張圖

體育要聞

裁判準(zhǔn)備下班,結(jié)果吳宜澤進(jìn)了決賽

娛樂要聞

蔡卓妍婚后首現(xiàn)身 戴結(jié)婚戒指笑容不斷

財經(jīng)要聞

后巴菲特時代,首場股東會透露了啥

汽車要聞

同比大漲190% 方程豹4月銷量29138臺

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
房產(chǎn)
旅游
公開課

藝術(shù)要聞

Dale terbush:當(dāng)代美國風(fēng)景畫家

數(shù)碼要聞

Perplexity稱贊Mac mini是其Personal Computer的最佳本地部署平臺

房產(chǎn)要聞

五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

旅游要聞

昆明藍(lán)花楹盛景登上人民日報頭版

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版