国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

快手廣告邁入生成式推薦時代!GR4AD:Token到Revenue全鏈路重構(gòu)

0
分享至



機器之心發(fā)布

當(dāng)推薦系統(tǒng)遇上大模型范式,廣告變現(xiàn)的天花板被再次打破。快手提出 GR4AD,作為國內(nèi)生成式推薦在大規(guī)模廣告場景下的首次全量落地,實現(xiàn)廣告收入提升 4.2%,服務(wù) 4 億 + 用戶。



論文鏈接:https://arxiv.org/pdf/2602.22732

一、引言:"推薦該怎么做" 的新范式

過去十年,深度學(xué)習(xí)推薦模型(DLRM)幾乎統(tǒng)治了整個工業(yè)界的推薦系統(tǒng) —— 從召回到排序,從特征交叉到序列建模,它們構(gòu)建了一套成熟而穩(wěn)固的技術(shù)棧。然而,當(dāng)大語言模型(LLM)的浪潮席卷而來,一個大膽的問題被拋了出來:

能不能像生成文本一樣,直接 "生成" 推薦結(jié)果?

這就是生成式推薦(Generative Recommendation)的核心思想。以 TIGER、OneRec 為代表的一系列工作,已經(jīng)在自然推薦場景中驗證了這一范式的可行性。但當(dāng)戰(zhàn)場轉(zhuǎn)移到大規(guī)模廣告系統(tǒng)—— 這個對時延、收益、商業(yè)價值都有極致要求的領(lǐng)域 —— 事情變得遠沒有那么直接。

快手的這篇論文,正是對這一問題交出的一份沉甸甸的工業(yè)級答卷。他們提出了GR4AD(Generative Recommendation for ADvertising),一個橫跨表征、學(xué)習(xí)、服務(wù)三大層面協(xié)同設(shè)計的生成式廣告推薦系統(tǒng),并已全量部署于快手廣告平臺,服務(wù)超過 4 億用戶

二、問題與挑戰(zhàn):廣告場景下的三大挑戰(zhàn)

論文開篇就旗幟鮮明地指出:直接把 LLM 那套訓(xùn)練和推理范式搬到廣告推薦上,是行不通的。 具體來說,廣告場景存在三個獨有的核心挑戰(zhàn):

挑戰(zhàn)一:廣告物料的 Token 化 —— 多元信息的統(tǒng)一編碼

廣告不是普通的短視頻。一條廣告背后融合了視頻創(chuàng)意、商品詳情、廣告主 B 端元數(shù)據(jù)等多模態(tài)、多粒度信息。更棘手的是,平臺還提供了轉(zhuǎn)化類型、廣告賬戶等關(guān)鍵業(yè)務(wù)信號,這些信號具備強烈的商業(yè)價值但幾乎沒有 "語義內(nèi)容" 可言。如何為廣告物料打造一套既能捕獲語義內(nèi)容、又能編碼業(yè)務(wù)信息的統(tǒng)一 Token 體系

挑戰(zhàn)二:學(xué)習(xí)范式 —— 面向商業(yè)價值的列表級優(yōu)化

廣告推薦的優(yōu)化目標(biāo)不是 "猜中用戶會點哪個" 那么簡單,而是要在eCPM 排序、NDCG 等列表級指標(biāo)下最大化商業(yè)價值?,F(xiàn)有的生成式推薦方法大多沿用 LLM 的分階段訓(xùn)練方式,不完全適配大規(guī)模推薦場景的持續(xù)在線學(xué)習(xí),且缺乏面向排序的、列表級的學(xué)習(xí)設(shè)計。

挑戰(zhàn)三:實時服務(wù) —— 多候選生成的算力困局

不同于 LLM 聊天場景中 "解碼一條回復(fù)、容忍較長延遲" 的模式,廣告系統(tǒng)需要在極高 QPS 和極低延遲(<100ms)下,通過 Beam Search同時生成大量高質(zhì)量候選。這是一個與 LLM 不同的推理優(yōu)化問題。

三、方法:全鏈路協(xié)同設(shè)計的破局之道

GR4AD 的方法論可以用一句話概括:"表征 - 學(xué)習(xí) - 推理" 三位一體的推薦原生設(shè)計。 下面逐一拆解。



3.1 統(tǒng)一廣告語義 ID(UA-SID):給廣告一個 "身份證"

核心思想:用一個端到端微調(diào)的多模態(tài)大模型(MLLM)為每條廣告生成統(tǒng)一嵌入,再通過精心設(shè)計的量化方法將其編碼為離散 Semantic ID。



第一步:統(tǒng)一廣告嵌入(UAE)

  • 指令微調(diào)(Instruction Tuning):針對快手廣告的 6 種典型形態(tài)(直播、商品、達人等),設(shè)計了 6 套提示模板,引導(dǎo) MLLM 從不同視角理解廣告內(nèi)容。比如對直播類廣告,引導(dǎo)模型分析主播畫像和地域特征;對外部投放廣告,則聚焦產(chǎn)品行業(yè)和品牌信息。
  • 共現(xiàn)學(xué)習(xí)(Co-occurrence Learning):用戶行為中的共現(xiàn)關(guān)系蘊含了豐富的協(xié)同信號。論文使用 Swing 方法估計物料共現(xiàn)強度,并采用 InfoNCE 對比學(xué)習(xí)目標(biāo)將其注入表征:



第二步:MGMR RQ-Kmeans 量化

這是 UA-SID 的 "殺手锏"。論文提出了多粒度 - 多分辨率(Multi-Granularity-Multi-Resolution)的 RQ-Kmeans 量化策略:

  • 多分辨率(MR):低層級使用更大的碼本捕獲主導(dǎo)語義因子,高層級用較小碼本建模低熵殘差,有效提升碼本利用率。
  • 多粒度(MG):在最后一層用基于非語義特征的哈希映射替代向量量化 —— 將轉(zhuǎn)化類型、賬戶 ID 等業(yè)務(wù)信號直接編碼進 SID,一舉解決 "相同內(nèi)容、不同投放策略" 導(dǎo)致的 SID 碰撞問題。

最終每個廣告物料被映射為一個離散 UA-SID 序列:



3.2 LazyAR:懶惰解碼器的大智慧

生成式推薦在推理時需要通過 Beam Search 生成多個候選 SID 序列。標(biāo)準(zhǔn)自回歸解碼要求每一層都依賴上一步的輸出,這在 Beam 數(shù)很大時造成了巨大的計算瓶頸。

論文的一個關(guān)鍵觀察是:第一層 SID 最難學(xué)、損失最大,但它的 Beam 只有 1(從 BOS 開始);后續(xù)層級更容易,Beam 卻呈指數(shù)級膨脹。 大部分計算被浪費在了 "簡單的事情" 上。



LazyAR 的核心操作: 將對上一步 token 的依賴 "延遲" 到中間某一層(第 K 層)注入:

  • 前 K 層(并行層):不依賴上一步 token,僅基于位置編碼和上下文 X 進行計算,所有層級和所有 Beam 可以并行計算并共享
  • 后 L-K 層(自回歸層):注入上一步 SID 嵌入后進行標(biāo)準(zhǔn)自回歸解碼。

為什么 LazyAR 有效?

1. 第一層 SID 的解碼過程完全不受影響(從 BOS 經(jīng)過全部 L 層)。

2. 前 K 層在潛空間中進行推理,能編碼關(guān)于候選 token 的有用信號。

3. 引入 MTP 輔助損失,強制前 K 層即使沒有上一步 token 也能學(xué)到足夠信息。



論文特別指出:這個設(shè)計是推薦原生的,不適用于標(biāo)準(zhǔn) LLM 解碼 —— 因為 LLM 解碼通常不用 Beam Search,且后續(xù) token 的預(yù)測難度不一定下降。

3.3 價值感知的監(jiān)督學(xué)習(xí)(VSL)

在廣告場景中,不同樣本的商業(yè)價值天差地別。VSL 圍繞 "價值感知" 做了三件事:

SID + eCPM 聯(lián)合預(yù)測: 在標(biāo)準(zhǔn) SID 交叉熵損失之外,將 eCPM 離散化為桶并追加為額外的預(yù)測 token:



價值感知樣本加權(quán): 每個樣本的權(quán)重 ,高廣告價值用戶和深度交互行為(如購買)獲得更高權(quán)重。



MTP 輔助損失: 配合 LazyAR,強制前 K 層并行解碼的表征質(zhì)量。

最終 VSL 目標(biāo):



3.4 排序引導(dǎo)的強化學(xué)習(xí)(RSPO):從 "學(xué)分布" 到 "優(yōu)排序"

VSL 能擬合歷史數(shù)據(jù)分布,但它不直接優(yōu)化下游排序目標(biāo),也不支持對未知標(biāo)簽分布的探索。論文因此引入了 RSPO(Ranking-Guided Softmax Preference Optimization),一個面向列表級 NDCG 優(yōu)化的 RL 算法

RSPO 的核心 loss





幾個精妙的工程設(shè)計:



  • VSL 與 RSPO 的統(tǒng)一在線訓(xùn)練:通過樣本級對齊分數(shù)動態(tài)調(diào)整兩個目標(biāo)的權(quán)重 —— 模型排序與獎勵排序偏差大時加重 VSL(學(xué)好基礎(chǔ)分布),偏差小時加重 RSPO(精細化價值優(yōu)化)。

四、線上部署:工業(yè)級系統(tǒng)的全閉環(huán)設(shè)計

GR4AD(0.16B 參數(shù))已全量部署于快手廣告系統(tǒng),實現(xiàn)了一套 “獎勵估計 → 在線學(xué)習(xí) → 實時索引 → 實時服務(wù)” 的完整閉環(huán)。



4.1 四大核心模塊

  • 獎勵系統(tǒng)(Reward System):訓(xùn)練獨立的 Reward Model 對 GR4AD 生成的候選集進行 eCPM 評分,在放松延遲約束的環(huán)境下進行更大 Beam 的探索,為 RL 訓(xùn)練提供高質(zhì)量信號。
  • 在線學(xué)習(xí)模塊:實時構(gòu)建 VSL 和 RL 兩種訓(xùn)練信號,持續(xù)進行 mini-batch 更新,實時推送參數(shù)到推理服務(wù)。
  • 實時索引模塊:用 SID 替代傳統(tǒng)嵌入索引。新物料到達時只需計算 UA-SID 并更新雙向索引(UA-SID ? Item ID),秒級生效,大幅改善冷啟動覆蓋和時效性。
  • 實時服務(wù)引擎:處理用戶請求并返回排序廣告列表。

4.2 推理效率優(yōu)化:把算力用在刀刃上

動態(tài) Beam 服務(wù)(DBS)是本文的又一亮點,包含兩個子機制:

  • 動態(tài) Beam 寬度(DBW):用遞增的 Beam 調(diào)度(如 128→256→512)替代固定寬度(512→512→512),在不損失最終候選質(zhì)量的前提下大幅削減中間層計算。
  • 流量感知自適應(yīng) Beam 搜索(TABS):根據(jù)實時 QPS 自動調(diào)整 Beam 規(guī)模 ——低峰期加大 Beam 提升推薦質(zhì)量,高峰期收縮 Beam 保障延遲和吞吐

此外還有一系列工程優(yōu)化:Beam 共享 KV Cache:將 Beam 從 batch 維度轉(zhuǎn)移至序列維度進行組織,實現(xiàn) KV Cache 的共享,顯著提升內(nèi)存訪問效率(+212.5% QPS)、TopK 預(yù)裁剪:先并行選取每個 Beam 的 K 個候選結(jié)果,再對聚合候選集進行全局 Top-K 選擇,在有效縮減搜索空間的同時保證準(zhǔn)確性(+184.8% QPS)、FP8 低精度推理(+50.3% QPS)、短 TTL 結(jié)果緩存(+27.8% QPS)。

最終效果:<100ms 延遲,500+ QPS/L20 GPU

五、實驗效果:廣告收入和推理性能的雙贏

5.1 總體性能與消融實驗



幾個關(guān)鍵發(fā)現(xiàn):

  • RSPO 是所有優(yōu)化中增益最大的單一組件,顯著優(yōu)于 DPO 和 GRPO,驗證了列表級 RL 在廣告場景的不可替代性。
  • LazyAR 以極微小的精度代價換來了吞吐量翻倍,是實際部署的關(guān)鍵使能技術(shù),優(yōu)于 DeepSeek-MTP。
  • DBS 在不損失收益的前提下進一步提升了效率,TABS 機制在低峰期還能反向提升收入。

5.2 Scaling Law



模型規(guī)模方向:從 0.03B 到 0.32B,收入提升從 + 2.13% 單調(diào)增長到 + 4.43%,訓(xùn)練損失也持續(xù)下降。生成式廣告推薦的 Scaling Law 是成立的

推理規(guī)模方向:Beam 寬度從 128 增加到 1024,收入從 + 2.33% 提升到 + 4.21%。這意味著更強的推理時搜索能進一步釋放模型潛力—— 這與當(dāng)前 LLM 領(lǐng)域 Test-time Scaling 的趨勢遙相呼應(yīng)。

5.3 UA-SID 質(zhì)量



在嵌入質(zhì)量評估(photo-to-photo recall)中,經(jīng)過指令微調(diào)和共現(xiàn)學(xué)習(xí)的 UAE 達到了 R@1=0.896,遠超基線 QARM(0.541)和原始 Qwen3-VL-7B(0.769)。MGMR 量化將 SID 碰撞率從 85.44% 降至 18.26%,碼本利用率提升 3 倍以上。

5.4 商業(yè)指標(biāo)的全面勝利

  • 商業(yè)化廣告收入4.2%+
  • 中小廣告主投放量提升17.5%
  • 廣告轉(zhuǎn)化率提升10.17%
  • 低活用戶轉(zhuǎn)化率提升7.28%

基于內(nèi)容的 SID 帶來的更強泛化能力和更實時的索引對冷啟動物料的更好支持,實現(xiàn)了平臺、廣告主、用戶的三贏

六、總結(jié)與思考

GR4AD 這篇論文的價值,不僅在于它達成了 4.2% 的收入提升這個數(shù)字,更在于它系統(tǒng)性地回答了一個關(guān)鍵問題:生成式推薦在廣告這個最 "硬核" 的工業(yè)場景中,到底應(yīng)該怎么做?

它的答案是:不要照搬 LLM,要做推薦原生的設(shè)計

  • Token 化不能只看內(nèi)容語義,要把業(yè)務(wù)信號編碼進去(UA-SID + MGMR)。
  • 訓(xùn)練不能只做單點概率生成,要做價值感知的列表級優(yōu)化(VSL + RSPO)。
  • 推理不能只套用 LLM 加速技巧,要針對 "短序列、多候選、Beam Search" 的推薦特性做專門設(shè)計(LazyAR + DBS)。
  • 系統(tǒng)不能離線批處理,要做實時索引、在線學(xué)習(xí)、閉環(huán)反饋的全鏈路打通。

GR4AD 是生成式推薦走向廣告工業(yè)核心場景的一個重要里程碑。 快手用超過 4 億用戶的真實流量驗證了這條路徑的可行性??梢灶A(yù)見,接下來會有更多廣告平臺跟進這一范式。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
訪華又懸了?美方制裁升級,7名高官反水,美議員:罷免特朗普!

訪華又懸了?美方制裁升級,7名高官反水,美議員:罷免特朗普!

策略述
2026-04-07 15:23:40
85歲陳麗華離世!與小11歲遲重瑞結(jié)婚36年,4個月前在博物館作畫

85歲陳麗華離世!與小11歲遲重瑞結(jié)婚36年,4個月前在博物館作畫

美人娛文
2026-04-07 14:05:26
今天,見了一位大美女

今天,見了一位大美女

揭幕者
2026-04-07 15:27:33
邁阿密爆滿,超級碗觀眾被超了,梅西到底干了啥?

邁阿密爆滿,超級碗觀眾被超了,梅西到底干了啥?

林子說事
2026-04-07 15:34:51
國際觀察 | 四個“沒料到”,特朗普政府很焦慮

國際觀察 | 四個“沒料到”,特朗普政府很焦慮

新華社
2026-04-07 15:00:03
上海市政府發(fā)布一組人事任免信息:劉健任市政府副秘書長

上海市政府發(fā)布一組人事任免信息:劉健任市政府副秘書長

澎湃新聞
2026-04-07 17:04:11
馬克龍答應(yīng)高示,G7峰會沒中國,2天之后,在韓國又擺中方一道!

馬克龍答應(yīng)高示,G7峰會沒中國,2天之后,在韓國又擺中方一道!

浪子阿邴聊體育
2026-04-06 16:48:33
難以置信!女子眾籌58萬,救1950頭祭祀乳豬!網(wǎng)友:救豬不救人?

難以置信!女子眾籌58萬,救1950頭祭祀乳豬!網(wǎng)友:救豬不救人?

川渝視覺
2026-04-07 15:08:08
6連勝也挨罵!烏度卡怒吼申京滾回去,火箭更衣室要炸

6連勝也挨罵!烏度卡怒吼申京滾回去,火箭更衣室要炸

阿晞體育
2026-04-07 14:04:46
茶水是心?!凹铀倨鳌??醫(yī)生:不想心臟出問題,這幾種茶一定少喝

茶水是心?!凹铀倨鳌保酷t(yī)生:不想心臟出問題,這幾種茶一定少喝

健康之光
2026-03-28 16:00:09
因太漂亮被導(dǎo)演“收入囊中”的4位女星,有一位戲沒拍完就懷孕了

因太漂亮被導(dǎo)演“收入囊中”的4位女星,有一位戲沒拍完就懷孕了

雅兒姐游世界
2026-04-05 14:48:13
2020年,長沙女子癌癥晚期,爭奪女兒40萬學(xué)費,直言:我只想活著

2020年,長沙女子癌癥晚期,爭奪女兒40萬學(xué)費,直言:我只想活著

大魚簡科
2026-04-06 11:33:07
伊朗議長顧問:我們已經(jīng)贏了,特朗普要么向伊朗屈服,要么他的盟友就退回到石器時代

伊朗議長顧問:我們已經(jīng)贏了,特朗普要么向伊朗屈服,要么他的盟友就退回到石器時代

極目新聞
2026-04-07 09:26:03
這4個小時是“黃金睡眠時間”,錯過了很難補回來

這4個小時是“黃金睡眠時間”,錯過了很難補回來

齊魯壹點
2026-03-07 05:15:12
假如在澳門賭場贏了600萬,突然收手準(zhǔn)備走人,會有什么下場嗎?

假如在澳門賭場贏了600萬,突然收手準(zhǔn)備走人,會有什么下場嗎?

壹知眠羊
2026-04-07 07:23:38
伊朗墜機美軍上校:腿傷走7公里爬2100米山脊 高級求生訓(xùn)練底子厚

伊朗墜機美軍上校:腿傷走7公里爬2100米山脊 高級求生訓(xùn)練底子厚

勁爆體壇
2026-04-07 06:06:04
“硫酸潑熊”事件當(dāng)事人劉海洋現(xiàn)狀:成中科院專家,并被高度評價

“硫酸潑熊”事件當(dāng)事人劉海洋現(xiàn)狀:成中科院專家,并被高度評價

談史論天地
2026-04-06 22:00:03
黃一鳴被限高,銀行卡全凍結(jié),靠女兒也救不了,每月苦還十幾萬

黃一鳴被限高,銀行卡全凍結(jié),靠女兒也救不了,每月苦還十幾萬

一盅情懷
2026-04-06 15:41:29
一場戰(zhàn)爭徹底把中國打醒!美軍作戰(zhàn)最毒的是什么?中國用30年看清

一場戰(zhàn)爭徹底把中國打醒!美軍作戰(zhàn)最毒的是什么?中國用30年看清

嫹筆牂牂
2026-04-07 14:51:29
趙麗穎久違“營業(yè)”!工作室曬高月香練舞舊照,粉絲:終于等到你

趙麗穎久違“營業(yè)”!工作室曬高月香練舞舊照,粉絲:終于等到你

草莓解說體育
2026-04-07 02:42:27
2026-04-07 17:51:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12701文章數(shù) 142616關(guān)注度
往期回顧 全部

科技要聞

滿嘴謊言!OpenAI奧特曼黑料大起底

頭條要聞

開車致女友胸部以下高位截癱后失聯(lián) 男子首發(fā)聲

頭條要聞

開車致女友胸部以下高位截癱后失聯(lián) 男子首發(fā)聲

體育要聞

官宣簽約“AI球員”,這支球隊被罵慘了...

娛樂要聞

張藝上浪姐惹爭議 黃景瑜前妻發(fā)文內(nèi)涵

財經(jīng)要聞

10萬億財政轉(zhuǎn)移支付,被誰拿走了?

汽車要聞

不止是大 極狐首款MPV問道V9靜態(tài)體驗

態(tài)度原創(chuàng)

本地
數(shù)碼
房產(chǎn)
公開課
軍事航空

本地新聞

跟著歌聲游安徽,聽古村回響

數(shù)碼要聞

全面RGB:BitFenix火鳥推出霓虹水管液冷Glanz

房產(chǎn)要聞

猛料!又有世界500強級巨頭,低調(diào)買入海棠灣!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍營救飛行員出動155架飛機

無障礙瀏覽 進入關(guān)懷版