国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

華為清華聯(lián)手,研發(fā)28nm存內(nèi)計算芯片

0
分享至



論文入選ISSCC 2026。

編譯 | 程茜

編輯 | Panken

芯東西2月26日消息,2月15日-19日,在被業(yè)界譽為“芯片設計國際奧林匹克會議”的國際固態(tài)電路大會(ISSCC 2026)上,清華大學、華為等大學與公司的研究人員發(fā)表論文,首次提出一款基于HYDAR框架的28nm混合存內(nèi)計算(CiR)芯片的推薦系統(tǒng)(RecSys)加速器。



這款36M RRAM CiR芯片能實現(xiàn)390K QPS的吞吐率與1574K QPS/W能效比。其構(gòu)建的多芯片系統(tǒng)可實現(xiàn)百萬級實時端到端推薦系統(tǒng)(RecSys)。



▲芯片顯微照片與系統(tǒng)概述

在實際推薦系統(tǒng)任務中,CiR通過擴展至576M規(guī)模的多芯片系統(tǒng),QPS提升了66倍,QPS/W提升181倍,準確率與CPU相當



▲芯片性能與當前頂尖設計的對比

該芯片的核心優(yōu)勢包括:采用DL-ADC實現(xiàn)非Top-K計算的早期終止;基于預測的預取調(diào)度流水線(PPSP)數(shù)據(jù)流提升不規(guī)則工作負載的吞吐量;由粗到細的檢索架構(gòu)(coarse-to-fine)在保證系統(tǒng)召回精度的同時,可擴展至大規(guī)模應用。

推薦系統(tǒng)中的核心運算單元是相似向量檢索(SVS),該方式通過計算查詢向量與大規(guī)模向量庫之間的距離,檢索出Top?K最鄰近向量。

SVS會占據(jù)推薦系統(tǒng)絕大部分的計算時間與功耗,主要原因是外部存儲器訪問(EMA)開銷。其中,采用混合鍵合技術的DRAM加速器成本高昂,基于NAND TCAM的加速器存在讀取延遲高、數(shù)據(jù)與距離表示精度有限等問題。

針對上述痛點,研究人員提出一種基于RRAM的數(shù)模混合存內(nèi)計算加速器HYDAR,可實現(xiàn)高吞吐量、高能效、高精度的SVS。

基于RRAM的存內(nèi)計算(Compute-in-RRAM,CiR)因能最大限度減少數(shù)據(jù)移動、存儲密度高、并行度極大,已被公認為深度學習加速的極具前景的技術路線。但將CiR應用于SVS仍會帶來額外挑戰(zhàn),如能耗與延遲急劇增加、降低PE利用率與吞吐量、精度降低等。



▲面向高效推薦系統(tǒng)的、基于CiR的SVS加速器的研究動機與設計挑戰(zhàn)

HYDAR通過CiR PE(存內(nèi)計算處理單元)、混合芯片設計與多芯片系統(tǒng)架構(gòu)協(xié)同優(yōu)化,解決了上述挑戰(zhàn):

首先是帶動態(tài)延遲ADC(DL?ADC)的CiR PE,其通過多位模擬CiR PE集成DL?ADC,用于基于直方圖的相似向量檢索,可提前將距離與檢索閾值比較,并跳過非Top?K向量,從而降低延遲與功耗。

其次是基于預測的搶占式調(diào)度流水線(PPSP),通過這種混合芯片機制,預測每個PE的運行時間、中斷不平衡任務、插入短任務來平衡負載,以適應動態(tài)SVS工作流,提升利用率與吞吐量。

最后是兩步由粗到精的檢索架構(gòu),其軟硬件協(xié)同設計框架,先在CiR PE上進行粗粒度檢索以保證高吞吐量,再在數(shù)字SVS引擎上進行精粒度檢索,在保證召回精度的同時最大化吞吐量。

在此基礎上,基于HYDAR框架,研究人員采用28nm工藝流片實現(xiàn)了一款CiR原型芯片,包含36M RRAM單元,分為16個并行PE,每個PE包含一個288×4096陣列



▲HYDAR整體架構(gòu)與核心特性及基于CiR的端到端檢索系統(tǒng)

具體來看基于模擬存內(nèi)計算單元(CiR PE)的直方圖相似向量檢索(SVS)實現(xiàn),以及支持計算提前終止的DL?ADC設計。

其通過查詢向量與基礎向量之間的距離分布直方圖來確定Top?K檢索的截斷閾值(CK)。在歐氏距離框架下,距離超過CK的基礎向量由雙模DL?ADC過濾,該ADC可動態(tài)監(jiān)測比較結(jié)果,實現(xiàn)非Top?K向量的計算提前終止。

歐氏距離計算可在288×4096的CiR陣列上完成,其中每個2T2R單元表示一個4位維度,每一列代表一個256維基礎向量及32維偏置。

本設計中,CiR PE在計算過程中將直方圖存入本地直方圖存儲器,隨后同步至跨PE直方圖單元(CHU),合并分布式結(jié)果以生成CK。該論文設計了三條定制指令來執(zhí)行該流程。

在DL?ADC方面,基于逐次逼近寄存器(SAR)的結(jié)構(gòu)支持提前終止模式(ET),將預生成的CK作為輸入,與每個周期生成的SAR碼一同送入按位比較器。

在迭代調(diào)整IDAC以逼近ADC輸入電流的過程中,任何一位不匹配都表明計算結(jié)果與CK存在差異,觸發(fā)提前終止,停止計算并輸出2位向量掩碼(vMask)。

最后,通過將DL?ADC設置為ET模式,距離計算與過濾可同時執(zhí)行。



▲基于動態(tài)延遲ADC(DL?ADC)的直方圖式SVS的CiR實現(xiàn)

該ET機制在數(shù)據(jù)庫規(guī)模擴大時效果顯著,平均減少60%的計算時間和71%的功耗,宏單元面積開銷增加7%。

其次是面向SVS負載提出的基于預測的搶占式調(diào)度流水線(PPSP)。

查詢在不同PE間并行計算,而每個PE參與計算的基礎向量數(shù)量通常不同,這會造成計算周期差異與PE間同步開銷,進而引發(fā)調(diào)度停頓與流水線氣泡。

PPSP采用連續(xù)搶占式調(diào)度與動態(tài)任務調(diào)度器(DTS)解決了這一問題。

DTS會對各PE上查詢執(zhí)行的完成時間戳進行監(jiān)測與預測。該論文提出的搶占式調(diào)度機制允許新任務搶占那些即將完成的正在運行任務,這可以消除流水線氣泡、讓任務更早完成、PE更快釋放,以服務后續(xù)查詢。

在接收到指令時,任務會占用一個DTS槽位,并將其PE/段掩碼存入任務表,然后作為子任務路由到目標PE的兩個待處理緩沖區(qū)之一。

DTS同時監(jiān)控每個任務的預測關鍵結(jié)束時間(PCET),其定義為所有子任務PET的最大值。其中的仲裁器檢查PE與正在運行任務的重疊情況,如果新任務的PET可以降低且不影響正在運行任務的PCET,則切換待處理緩沖區(qū)以搶占式調(diào)度新任務,從而提升吞吐量、降低延遲。

此外,在查詢調(diào)度期間,DTS會在后端內(nèi)存分配器中為每個查詢預分配地址空間,使得PE可以直接將結(jié)果寫入輸出緩沖區(qū),無需PE間同步,從而實現(xiàn)PE快速釋放以處理新查詢。



▲面向動態(tài)SVS負載的、所提出的基于預測的搶占式調(diào)度流水線(PPSP)

通過以上優(yōu)化,PPSP將PE利用率提升至91%,平均查詢延遲降低30%,QPS吞吐量提升1.82倍。

最后是面向SVS、基于CiR的兩步檢索架構(gòu)。

為提升系統(tǒng)精度,該架構(gòu)集成了數(shù)字精檢索引擎,在高吞吐粗檢索結(jié)果中精確篩選向量。這使得即使在模擬CiR存在噪聲與低精度處理的情況下,仍能保持高召回精度。

該架構(gòu)還通過多CiR芯片并行擴展了向量庫容量,并支持更廣泛的并行粗檢索,同時采用Thresh?IVF流程與系統(tǒng)流水線,進一步提升吞吐量。

CiR PE分為三類:質(zhì)心PE(CPE)存儲聚類中心坐標,采樣PE(SPE)存儲從每個聚類中采樣的少量向量,用于表征分布并生成CK;全量庫PE(FPE)存儲所有基礎向量,并全程運行在高能效的DL?ADC提前終止(ET)模式下,在整個流程中占據(jù)92.7%的向量存儲。

CiR專用的Thresh?IVF工作流程包括查詢首先送入CPE,通過IT運算計算查詢與聚類中心的距離,識別最近的聚類;系統(tǒng)將查詢路由到所選聚類的SPE,通過IH在多芯片間生成直方圖,進而生成CK;CK被路由到步驟1所確定聚類的所有FPE,通過IC完成粗檢索ID生成。

這種系統(tǒng)級基于閾值的粗檢索,最小化了每個芯片輸出的過濾結(jié)果數(shù)量,避免了在各芯片上執(zhí)行相同Top?K計算帶來的冗余ID過濾。最后,少量候選ID被送入數(shù)字引擎,以FP16格式進行精檢索,使系統(tǒng)級存儲帶寬需求降低97.44%。



▲兩步由粗到精檢索系統(tǒng)架構(gòu)與工作流程

該設計實現(xiàn)了系統(tǒng)級四級流水線并行;同時芯片內(nèi)不同PE也可并行處理不同任務。相較于傳統(tǒng)基于CPU的IVF方案,這種多芯片層級流水線可將延遲降低90.17%。

推薦系統(tǒng)在連接用戶與海量內(nèi)容和服務方面發(fā)揮著至關重要的作用,已廣泛部署于電商和流媒體平臺,但作為其核心運算單元相似向量檢索占據(jù)了推薦系統(tǒng)絕大部分的計算時間和功耗。

其中采用混合鍵合技術的DRAM加速器提升了帶寬以緩解EMA問題,但其成本高昂,且仍受限于DRAM與邏輯單元之間的數(shù)據(jù)傳輸瓶頸;基于NAND TCAM的加速器將計算集成到存儲陣列中以減少EMA,但存在讀取延遲高、數(shù)據(jù)和距離表示精度有限的問題。

基于此,這篇最新研究提出了一款高效的SVS加速器,能在保證高吞吐量檢索的同時,不犧牲召回精度,進一步降低推薦系統(tǒng)的功耗。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
吉林延邊州水利局黨組書記、局長孫羚哲接受審查調(diào)查

吉林延邊州水利局黨組書記、局長孫羚哲接受審查調(diào)查

界面新聞
2026-04-21 15:25:09
日本7.7 級強震后,高市得罪 4 鄰國,誰還愿救日本核電站?

日本7.7 級強震后,高市得罪 4 鄰國,誰還愿救日本核電站?

眼界看視野
2026-04-21 09:49:11
中央5臺直播乒乓球時間表:4月21日CCTV5直播國乒!附國乒新消息

中央5臺直播乒乓球時間表:4月21日CCTV5直播國乒!附國乒新消息

生活新鮮市
2026-04-21 17:13:40
毛主席力推,周恩來親自部署的816工程,為何被鄧小平堅決叫停?

毛主席力推,周恩來親自部署的816工程,為何被鄧小平堅決叫停?

那年的春夏
2024-12-09 23:12:29
詹姆斯單挑能力真相:多位球星直言不諱,陪練視頻暴露真實水平

詹姆斯單挑能力真相:多位球星直言不諱,陪練視頻暴露真實水平

不似少年游
2026-04-21 17:09:07
認罪剛一天!許家印長子每月4100萬生活費,家族資產(chǎn)黑幕全揭開

認罪剛一天!許家印長子每月4100萬生活費,家族資產(chǎn)黑幕全揭開

番外行
2026-04-20 12:46:52
太難了!貴州女子哭訴生意不好,想把女兒生活費2000降到1600遭拒

太難了!貴州女子哭訴生意不好,想把女兒生活費2000降到1600遭拒

火山詩話
2026-04-20 13:51:19
炸鍋了!跳水小將一戰(zhàn)破全紅嬋紀錄,女子十米臺徹底變天

炸鍋了!跳水小將一戰(zhàn)破全紅嬋紀錄,女子十米臺徹底變天

可樂談情感
2026-04-21 11:47:17
接替庫克!蘋果新任CEO特努斯是誰?憑什么他能執(zhí)掌萬億帝國?

接替庫克!蘋果新任CEO特努斯是誰?憑什么他能執(zhí)掌萬億帝國?

王爺說圖表
2026-04-21 10:21:08
北京搖號“大放水”,被粉飾的藍綠牌差距,18萬指標背后產(chǎn)業(yè)賬

北京搖號“大放水”,被粉飾的藍綠牌差距,18萬指標背后產(chǎn)業(yè)賬

右耳遠聞
2026-04-20 18:25:03
美國的陰謀藏不住了!臺海南海就是幌子,真正目標是中國最大王牌

美國的陰謀藏不住了!臺海南海就是幌子,真正目標是中國最大王牌

古事尋蹤記
2026-04-21 07:21:56
國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

比利
2026-01-23 12:41:53
全線拉升!美伊談判,突傳大利好!

全線拉升!美伊談判,突傳大利好!

新浪財經(jīng)
2026-04-21 13:40:00
城市更新大潮來了!中央定調(diào):20年房齡老房子,2026年起或又吃香

城市更新大潮來了!中央定調(diào):20年房齡老房子,2026年起或又吃香

混沌錄
2026-04-20 16:38:07
史詩級!曝巴薩已批準,簽下1.55億強援!“8000萬先生”被放逐

史詩級!曝巴薩已批準,簽下1.55億強援!“8000萬先生”被放逐

頭狼追球
2026-04-20 20:45:30
只剩2天,解放軍準時下通牒,賴清德將登機離臺,蕭旭岑判斷準確

只剩2天,解放軍準時下通牒,賴清德將登機離臺,蕭旭岑判斷準確

流史歲月
2026-04-21 15:15:03
烏克蘭卷土重來摧毀紅軍村指揮部!挫敗俄軍滲透庫皮揚斯克

烏克蘭卷土重來摧毀紅軍村指揮部!挫敗俄軍滲透庫皮揚斯克

項鵬飛
2026-04-19 18:04:26
恒大集團許家印坑的最慘的8位大佬

恒大集團許家印坑的最慘的8位大佬

地產(chǎn)微資訊
2026-04-20 19:50:24
楊尚昆揭秘:博古葉挺遺體運回延安,毛主席為何沒參加追悼會?

楊尚昆揭秘:博古葉挺遺體運回延安,毛主席為何沒參加追悼會?

輿圖看世界
2026-04-21 15:50:03
庫克官宣卸任,蘋果又一次選了「最不像他」的接班人

庫克官宣卸任,蘋果又一次選了「最不像他」的接班人

極客公園
2026-04-21 08:21:45
2026-04-21 18:48:49
芯東西 incentive-icons
芯東西
專注AI芯片、半導體產(chǎn)業(yè)媒體
2287文章數(shù) 8153關注度
往期回顧 全部

科技要聞

重磅官宣:庫克卸任,特努斯接任蘋果CEO

頭條要聞

男子買"隨用隨取"保險后得知百歲才能取本金 法院判了

頭條要聞

男子買"隨用隨取"保險后得知百歲才能取本金 法院判了

體育要聞

62歲,成為中國足壇最火的人

娛樂要聞

周潤發(fā)時隔16年再賣樓,變現(xiàn)數(shù)億資產(chǎn)

財經(jīng)要聞

現(xiàn)實是最大的荒誕:千億平臺的沖突始末

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態(tài)度原創(chuàng)

家居
藝術
旅游
數(shù)碼
公開課

家居要聞

詩意光影 窺見自然之境

藝術要聞

任伯年寫竹,真帶勁

旅游要聞

美麗北京|玉淵潭紫藤綻放,打卡紫色浪漫

數(shù)碼要聞

浩鑫發(fā)布XPC Barebone DL40N迷你主機:1.35L體積無風扇設計

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版