国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

“20年來最大更新”,英偉達(dá)CUDA帶來了什么?

0
分享至

2025 年 12 月,NVIDIA 推出 CUDA 13.1,此次更新被官方定位為 2006 CUDA 平臺(tái)誕生以來最大、最全面的升級(jí)。其核心亮點(diǎn)之一,是引入了新的編程模型 CUDA Tile。這個(gè)變化,有可能不僅僅是一項(xiàng)技術(shù)迭代,而是標(biāo)志著 GPU 編程范式邁入一個(gè)新的階段。

CUDA 13.1 + CUDA Tile:到底帶來了什么新東西?

CUDA Tile 是一種基于 tile(瓦片、數(shù)據(jù)塊)的 GPU 編程模型。與傳統(tǒng)的 SIMT(single-instruction, multiple-thread,多線程單指令流)方式不同,Tile 編程允許開發(fā)者將數(shù)據(jù)組織為tile (例如矩陣塊、張量塊、數(shù)據(jù)塊),然后對這些 tile 進(jìn)行操作,由編譯器和運(yùn)行時(shí)負(fù)責(zé)將它們映射到底層線程、內(nèi)存布局、專用硬件等資源。換句話說,開發(fā)者只需專注對塊做什么計(jì)算,無需關(guān)心哪個(gè)線程做哪一部分、怎樣同步的問題。

為了支持 Tile,NVIDIA 在 CUDA 13.1 中引入了虛擬指令集 (Tile IR),并配套提供 cuTile。這是一個(gè)允許用高級(jí)語言編寫 tile-based kernel 的工具,通過 cuTile,開發(fā)者可以用熟悉的 Python 編寫 GPU kernel,從而極大降低 GPU 編程的門檻。

根據(jù)官方描述,Tile 編程并不是要取代 SIMT,而是作為一種并存或可選的編程路徑。也就是說,開發(fā)者根據(jù)需求,可以繼續(xù)使用傳統(tǒng) SIMT,也可以在適合場景下使用 Tile。

CUDA 13.1 除了 Tile,還對運(yùn)行時(shí)(runtime)和工具鏈進(jìn)行了升級(jí),例如對 GPU 資源調(diào)度與管理機(jī)制進(jìn)行了增強(qiáng),使 GPU 的多任務(wù)、并發(fā)、異構(gòu)任務(wù)支持更靈活可靠。

官方同時(shí)對數(shù)學(xué)計(jì)算庫(如矩陣、張量庫)與底層支持的兼容性進(jìn)行了優(yōu)化,以更好支持未來 GPU 特性(例如 tensor core、多級(jí)緩存、異構(gòu)資源分配等)。由此看來,這次更新不僅是對編程模型的改變,也為構(gòu)建新一代高層、跨架構(gòu) GPU 的計(jì)算庫、框架和DSL 奠定了基礎(chǔ)。

綜合來看,CUDA 13.1 + CUDA Tile 的意義,不僅在于新增一個(gè)功能或?qū)π阅苓M(jìn)行優(yōu)化,而更在于為 GPU 編程提供了一個(gè)新的、更高層、更抽象、更便捷,且可維護(hù)和可移植的選項(xiàng)。

GPU 越來越復(fù)雜,手動(dòng)管理變得不足夠

隨著 GPU 架構(gòu)不斷演進(jìn),引入越來越多專用硬件(例如 tensor core、混合精度加速、多級(jí)緩存與內(nèi)存層次、異構(gòu)資源、多流或多任務(wù)支持等),底層硬件復(fù)雜度大幅增加。對開發(fā)者而言,手動(dòng)管理線程、同步、內(nèi)存布局、調(diào)度、硬件兼容性等負(fù)擔(dān)越來越重。傳統(tǒng) SIMT 模型雖然靈活,但對高性能、可移植、可維護(hù)的要求而言,其復(fù)雜性和維護(hù)成本日益凸顯。

在這種背景下,Tile 編程所引入的高層抽象、由系統(tǒng)負(fù)責(zé)的資源映射、調(diào)度、硬件利用,恰好切中了現(xiàn)實(shí)需求。對于 AI、大規(guī)模矩陣、張量計(jì)算、科學(xué)計(jì)算、深度學(xué)習(xí)等領(lǐng)域,非常具有吸引力。NVIDIA 官方也明確指出,Tile 的設(shè)計(jì)初衷是為了幫助創(chuàng)建適用于當(dāng)前和未來 GPU 的軟件。

借助 cuTile (Python DSL),許多過去因?yàn)椴簧瞄L CUDA C、對底層 GPU 編程不熟悉的數(shù)據(jù)科學(xué)家、研究者,也可能開始編寫 GPU 加速代碼。對于深度學(xué)習(xí)、科學(xué)計(jì)算、AI 團(tuán)隊(duì)或高校研究機(jī)構(gòu)來說,這意味著 GPU 加速不再只屬于少數(shù) GPU 專家核心團(tuán)隊(duì),而可能被更多人使用。此外,對于那些需要跨 GPU 架構(gòu)的團(tuán)隊(duì)來說,一次編寫、多代兼容的可能性,將大大降低重構(gòu)、優(yōu)化和維護(hù)的成本。


(來源:英偉達(dá))

同時(shí),Tile 提供了一條新的 GPU 編程路徑。這條路徑不僅對單個(gè)項(xiàng)目或團(tuán)隊(duì)有利,也可能促使整個(gè) GPU 軟件生態(tài)走向更高層、更抽象、更通用、更易維護(hù)和跨架構(gòu)兼容。這種變化對未來 GPU 編程規(guī)范化、標(biāo)準(zhǔn)化以及廣泛應(yīng)用具有潛在推動(dòng)力。這次更新可能不僅僅是一個(gè)版本號(hào)的提升,而是 GPU 編程范式的一次質(zhì)變。

從硬核到普惠的轉(zhuǎn)折點(diǎn)

在技術(shù)社區(qū)中,CUDA 13.1 的發(fā)布引發(fā)了截然不同的兩種情緒,而這恰恰印證了這次更新的變革性。

對于資深的高性能計(jì)算(HPC)工程師而言,反應(yīng)是復(fù)雜的。一方面,他們習(xí)慣了對每一個(gè)寄存器、每一塊共享內(nèi)存(Shared Memory)的精細(xì)控制,CUDA Tile 這種將細(xì)節(jié)交給編譯器的做法,不可避免地引發(fā)了關(guān)于性能上限的討論。正如在 Reddit 和 Hacker News 上一些硬核開發(fā)者所擔(dān)憂的:“我們是否正在用極致的性能換取開發(fā)的便利性?”

然而,對于更廣泛的數(shù)據(jù)科學(xué)家和 AI 算法工程師群體,這無疑是一個(gè)好消息。長期以來,將 PyTorch 或 TensorFlow 中的高層邏輯轉(zhuǎn)化為高效的 CUDA 核心代碼,是一道難以逾越的技術(shù)鴻溝。cuTile Python 的出現(xiàn),實(shí)際上是在填平這道鴻溝。它意味著開發(fā)者不再需要精通 C++ 和計(jì)算機(jī)體系結(jié)構(gòu),僅憑 Python 就能觸達(dá) GPU 80% 甚至 90% 的理論性能。這種性能平權(quán)可能會(huì)引爆新一輪的 AI 算子創(chuàng)新。當(dāng)編寫一個(gè)高效的 Attention 變體不再需要兩周的 C++ 調(diào)試,而只需一下午的 Python 腳本時(shí),創(chuàng)新的飛輪將轉(zhuǎn)得更快。


(來源:Shutterstock)

競爭格局的深層變化:從代碼兼容到架構(gòu)抽象

在 CUDA 13.1 之前,競爭對手(如 AMD 的 ROCm 或 Intel 的 OneAPI)主要的追趕策略,是通過兼容層(如 HIP)來轉(zhuǎn)譯現(xiàn)有的 CUDA 代碼。這種策略主要基于 C++ 語法的相似性。

然而,CUDA Tile 的出現(xiàn)改變了這種競爭的維度。通過引入 Tile IR(虛擬指令集)和高層抽象,NVIDIA 實(shí)際上是在硬件和軟件之間增加了一個(gè)更厚的中間層。

當(dāng)開發(fā)者開始習(xí)慣使用 Tile 編程模型,更多地關(guān)注數(shù)據(jù)塊的邏輯而非底層線程調(diào)度,代碼與底層硬件的解耦程度變得更高。這意味著,代碼的執(zhí)行效率將更多地依賴于編譯器如何理解和優(yōu)化這些 Tile 操作。對于競爭對手而言,要支持這種新模式,僅僅做代碼轉(zhuǎn)譯是不夠的,還需要構(gòu)建一個(gè)同樣智能的編譯器來處理這些高層抽象,這無疑增加了技術(shù)對齊的難度,也客觀上提高了生態(tài)系統(tǒng)的粘性。

面向云環(huán)境的演進(jìn):Green Contexts 的實(shí)際價(jià)值

除了編程模型,CUDA 13.1 在運(yùn)行時(shí)環(huán)境上的改進(jìn),特別是 Green Contexts 從驅(qū)動(dòng)層走向運(yùn)行時(shí) API,反映了 GPU 使用場景的結(jié)構(gòu)性變化。

在 Blackwell 架構(gòu)時(shí)代,GPU 已經(jīng)從單純的加速卡轉(zhuǎn)變?yōu)閿?shù)據(jù)中心的核心算力單元。隨著單卡算力(如 B200 系列)的大幅提升,對于許多單一任務(wù)來說,獨(dú)占整塊 GPU 往往是一種資源浪費(fèi)。

Green Contexts 允許開發(fā)者或系統(tǒng)管理員在運(yùn)行時(shí)更安全、更細(xì)粒度地劃分 GPU 資源(SM)。這在技術(shù)上解決了多任務(wù)并行時(shí)的干擾問題,使得 GPU 能夠像 CPU 一樣,高效、穩(wěn)定地同時(shí)處理多個(gè)用戶的任務(wù)。對于云服務(wù)商和企業(yè)內(nèi)部的算力調(diào)度來說,這直接提升了昂貴硬件的利用率和投資回報(bào)率。

新的挑戰(zhàn):抽象化帶來的黑盒隱憂

當(dāng)然,這種向高層抽象的演進(jìn)也并非沒有代價(jià)。CUDA Tile 帶來的最大挑戰(zhàn)在于調(diào)試與性能優(yōu)化的透明度降低。

在傳統(tǒng)的 SIMT 模式下,開發(fā)者清楚地知道每一行代碼對應(yīng)什么指令,數(shù)據(jù)在寄存器和內(nèi)存間如何移動(dòng)。而在 Tile 模式下,編譯器接管了大量的數(shù)據(jù)布局和映射工作。一旦性能不如預(yù)期,或者出現(xiàn)非功能性 Bug,開發(fā)者可能會(huì)發(fā)現(xiàn)很難像以前一樣精準(zhǔn)定位問題。

雖然 NVIDIA 在 Nsight 工具鏈中增加了對 Tile 的支持,但如何讓開發(fā)者理解編譯器的優(yōu)化邏輯,而不是面對一個(gè)無法干預(yù)的“黑盒”,將是這一新模式能否被資深開發(fā)者廣泛接受的關(guān)鍵。此外,這也意味著軟件性能將更加依賴于 NVIDIA 編譯器團(tuán)隊(duì)的優(yōu)化水平,而非開發(fā)者個(gè)人的微調(diào)能力。

CUDA 13.1 的發(fā)布,本質(zhì)上是 NVIDIA 應(yīng)對硬件復(fù)雜度爆發(fā)的解決方案。通過 CUDA Tile,NVIDIA 試圖建立一種新的分工模式:開發(fā)者專注于高層的算法邏輯與數(shù)據(jù)流,而將復(fù)雜的硬件適配工作交給編譯器和運(yùn)行時(shí)環(huán)境。

這不僅降低了高性能計(jì)算的門檻,也讓 CUDA 平臺(tái)在異構(gòu)計(jì)算和云原生時(shí)代,具備了更強(qiáng)的適應(yīng)性和生態(tài)掌控力。對于開發(fā)者而言,這或許意味著是時(shí)候調(diào)整思維習(xí)慣,從微觀的線程管理,轉(zhuǎn)向宏觀的數(shù)據(jù)塊編排了。

參考文章:

1.https://developer.nvidia.com/blog/nvidia-cuda-13-1-powers-next-gen-gpu-programming-with-nvidia-cuda-tile-and-performance-gains/

2.https://github.com/NVIDIA/cutile-python

3.https://developer.nvidia.com/blog/simplify-gpu-programming-with-nvidia-cuda-tile-in-python/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中國航發(fā)集團(tuán)原董事長曹建國已從中國工程院院士名單中撤下

中國航發(fā)集團(tuán)原董事長曹建國已從中國工程院院士名單中撤下

澎湃新聞
2025-12-27 09:54:26
太諷刺!龐家無償捐4700平米祖宅,院長雙謊被戳穿,省多部門介入

太諷刺!龐家無償捐4700平米祖宅,院長雙謊被戳穿,省多部門介入

好賢觀史記
2025-12-23 18:14:27
2014年,兩名自稱保密單位的男子到監(jiān)獄提犯人,結(jié)果引來大批民警

2014年,兩名自稱保密單位的男子到監(jiān)獄提犯人,結(jié)果引來大批民警

極品小牛肉
2024-01-18 14:08:06
雷霆還會(huì)看走眼?剛簽2.4億,現(xiàn)在就溢價(jià)了,復(fù)出后球隊(duì)更弱了!

雷霆還會(huì)看走眼?剛簽2.4億,現(xiàn)在就溢價(jià)了,復(fù)出后球隊(duì)更弱了!

你的籃球頻道
2025-12-29 07:57:54
瞬間漲停!000420,封單超100萬手!發(fā)生了什么?

瞬間漲停!000420,封單超100萬手!發(fā)生了什么?

證券時(shí)報(bào)e公司
2025-12-29 10:37:44
廣東擊敗山西,聽聽賽后媒體專家怎么說 比賽場面火爆 堪稱總決賽

廣東擊敗山西,聽聽賽后媒體專家怎么說 比賽場面火爆 堪稱總決賽

籃球看比賽
2025-12-29 11:21:42
67歲王朔現(xiàn)狀:滿頭白發(fā)神似李亞鵬,手上沒錢,靠朋友接濟(jì)過活

67歲王朔現(xiàn)狀:滿頭白發(fā)神似李亞鵬,手上沒錢,靠朋友接濟(jì)過活

一盅情懷
2025-12-29 17:11:04
美國圣誕風(fēng)波僅2天,姜昆赴美時(shí)間線曝光,項(xiàng)立剛發(fā)文表態(tài)揭真相

美國圣誕風(fēng)波僅2天,姜昆赴美時(shí)間線曝光,項(xiàng)立剛發(fā)文表態(tài)揭真相

奇思妙想草葉君
2025-12-28 18:12:22
營業(yè)收入2300億創(chuàng)歷史新高,年利潤74億,股價(jià)卻從49元跌到11元

營業(yè)收入2300億創(chuàng)歷史新高,年利潤74億,股價(jià)卻從49元跌到11元

投資觀
2025-12-29 07:20:03
央視《今日說法》主持人被騙1000元買茶葉,嫌犯已被抓獲:被害人不止我一個(gè),考慮對方家里有2個(gè)孩子,簽了諒解書

央視《今日說法》主持人被騙1000元買茶葉,嫌犯已被抓獲:被害人不止我一個(gè),考慮對方家里有2個(gè)孩子,簽了諒解書

揚(yáng)子晚報(bào)
2025-12-28 21:39:22
2塊錢一瓶的維生素B2,是高血脂的“克星”?可惜很多人都不知道

2塊錢一瓶的維生素B2,是高血脂的“克星”?可惜很多人都不知道

岐黃傳人孫大夫
2025-12-29 09:37:33
民營企業(yè)座談會(huì)透露什么趨勢?6位發(fā)言人、馬云回歸意味著什么?

民營企業(yè)座談會(huì)透露什么趨勢?6位發(fā)言人、馬云回歸意味著什么?

遇見洞見
2025-02-20 20:50:06
南博風(fēng)波驚天反轉(zhuǎn)!國家文物局江蘇省聯(lián)手出擊69歲舉報(bào)人盼來曙光

南博風(fēng)波驚天反轉(zhuǎn)!國家文物局江蘇省聯(lián)手出擊69歲舉報(bào)人盼來曙光

小鬼頭體育
2025-12-27 14:08:32
美女老板被忽悠 永州隊(duì)教練:我跟她說不用擔(dān)心送車 我們奪不了冠

美女老板被忽悠 永州隊(duì)教練:我跟她說不用擔(dān)心送車 我們奪不了冠

風(fēng)過鄉(xiāng)
2025-12-29 08:05:05
美司令曾警告:若大陸武力收臺(tái),美軍將摧毀中方火箭軍和核武庫!

美司令曾警告:若大陸武力收臺(tái),美軍將摧毀中方火箭軍和核武庫!

壹知眠羊
2025-12-21 07:15:19
章澤天在迪拜打網(wǎng)球,一身運(yùn)動(dòng)穿搭,少女感十足,手臂線條搶鏡!

章澤天在迪拜打網(wǎng)球,一身運(yùn)動(dòng)穿搭,少女感十足,手臂線條搶鏡!

小咪侃娛圈
2025-12-29 09:52:13
82歲被查!徐湖平靠山曝光,比韓建林還硬?網(wǎng)友:竟是身旁的他?

82歲被查!徐湖平靠山曝光,比韓建林還硬?網(wǎng)友:竟是身旁的他?

遠(yuǎn)山行客
2025-12-28 13:05:40
“奶奶喜喪,能來送送最后一程嗎?”哈爾濱女子因朋友少謙卑求助,眾多網(wǎng)友冒大雪趕來

“奶奶喜喪,能來送送最后一程嗎?”哈爾濱女子因朋友少謙卑求助,眾多網(wǎng)友冒大雪趕來

瀟湘晨報(bào)
2025-12-27 19:16:16
原印江縣委書記“田哥艷姐”被通報(bào):為撈取政治資本,打造虛假人設(shè)

原印江縣委書記“田哥艷姐”被通報(bào):為撈取政治資本,打造虛假人設(shè)

觀察者網(wǎng)
2025-12-29 20:52:33
臺(tái)灣其實(shí)根本就不用打,打它干什么?只要把臺(tái)灣海峽劃成戰(zhàn)區(qū)

臺(tái)灣其實(shí)根本就不用打,打它干什么?只要把臺(tái)灣海峽劃成戰(zhàn)區(qū)

百態(tài)人間
2025-12-24 16:46:46
2025-12-29 22:15:00
問芯 incentive-icons
問芯
訪遍天下芯事,聆聽大時(shí)代人物芯聲
167文章數(shù) 28關(guān)注度
往期回顧 全部

科技要聞

肉搏非洲,傳音不想只當(dāng)個(gè)賣手機(jī)的

頭條要聞

金建希"賣官"斂財(cái)達(dá)14.6億韓元 被指地位僅次于總統(tǒng)

頭條要聞

金建希"賣官"斂財(cái)達(dá)14.6億韓元 被指地位僅次于總統(tǒng)

體育要聞

“史上最貴”的世界杯,球迷成了韭菜

娛樂要聞

張杰謝娜跨年風(fēng)波升級(jí)!張杰被吐槽贅婿

財(cái)經(jīng)要聞

翁杰明:宏觀數(shù)據(jù)與居民微觀感受存在差距

汽車要聞

“路”要越走越深,猛士的智能越野時(shí)代來了

態(tài)度原創(chuàng)

本地
親子
健康
公開課
軍事航空

本地新聞

即將過去的2025年,對重慶的影響竟然如此深遠(yuǎn)

親子要聞

權(quán)威發(fā)布!最新專家共識(shí):新生兒應(yīng)盡早預(yù)防

這些新療法,讓化療不再那么痛苦

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

東部戰(zhàn)區(qū)發(fā)布的AI視頻 一個(gè)細(xì)節(jié)意味深長

無障礙瀏覽 進(jìn)入關(guān)懷版