網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

從匹配困境到推理突破：阿里REG4Rec 激活生成式推薦的個(gè)性化潛力

2026-03-02 16:10:32　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

一、引言

從內(nèi)容分發(fā)到商業(yè)轉(zhuǎn)化，推薦系統(tǒng)早已成為互聯(lián)網(wǎng)平臺(tái)的關(guān)鍵基礎(chǔ)設(shè)施。它在海量信息與有限注意力之間完成篩選和排序，直接影響內(nèi)容曝光、商品成交以及流量變現(xiàn)效率。

用戶在電商平臺(tái)上看到的商品列表、在信息流里刷到的內(nèi)容、廣告位中呈現(xiàn)的鏈接，通常并非隨機(jī)展現(xiàn)，而是推薦系統(tǒng)在毫秒級(jí)完成特征理解和排序決策的結(jié)果。

近年來(lái)，大語(yǔ)言模型（LLM）在語(yǔ)義理解、內(nèi)容生成和多步推理方面取得快速進(jìn)展，推動(dòng)業(yè)界重新審視推薦系統(tǒng)的形態(tài)：推薦是否可以不再局限于一次性打分和相似度匹配，而是像人類決策一樣，在生成過(guò)程中進(jìn)行多步推理與自我修正，逐步逼近用戶的真實(shí)意圖。

基于此，「生成式推薦」開始成為一個(gè)重要研究方向，嘗試將 “理解 — 生成 — 推理” 融為一體，讓推薦過(guò)程從靜態(tài)匹配轉(zhuǎn)變?yōu)槊嫦蛴脩粢鈭D的動(dòng)態(tài)決策。

在實(shí)際電商環(huán)境中，生成式推薦面臨的主要挑戰(zhàn)不在于生成商品本身，而在于生成過(guò)程是否具備「可推理、可控且穩(wěn)定」的能力。

電商場(chǎng)景下，用戶行為信號(hào)噪聲高、興趣多樣且頻繁變化，模型需要在多步生成過(guò)程中持續(xù)校準(zhǔn)語(yǔ)義方向、維持推理軌跡的一致性。若仍采用經(jīng)典自回歸解碼，早期預(yù)測(cè)偏差容易被不斷放大，推理路徑收縮到少量固定模式，導(dǎo)致生成精度受限、長(zhǎng)尾興趣覆蓋不足，難以穩(wěn)定命中用戶真實(shí)需求。

針對(duì)上述問(wèn)題，阿里國(guó)際智能技術(shù)團(tuán)隊(duì)提出了基于推理增強(qiáng)范式的生成式推薦模型 REG4Rec。該模型從表征學(xué)習(xí)、訓(xùn)練目標(biāo)和推理策略三個(gè)層面進(jìn)行了系統(tǒng)設(shè)計(jì)，以提升生成式推薦的推理能力與穩(wěn)定性。離線實(shí)驗(yàn)顯示，REG4Rec 在多個(gè)關(guān)鍵指標(biāo)上優(yōu)于現(xiàn)有生成式方法，并呈現(xiàn)出隨推理步數(shù)增加而性能持續(xù)提升的 Scaling Up 特性。

目前，REG4Rec 已在 Lazada 推薦廣告場(chǎng)景完成大規(guī)模工業(yè)化部署。線上結(jié)果顯示：廣告收入提升5.60%、商品交易總額（GMV）提升3.29%、點(diǎn)擊率提升1.81%，帶來(lái)顯著商業(yè)收益。

本工作相關(guān)成果已被數(shù)據(jù)挖掘領(lǐng)域頂級(jí)會(huì)議 ICDE 2026 接收。

論文標(biāo)題：REG4Rec: Reasoning-Enhanced Generative Model for Large-Scale Recommendation Systems
論文鏈接：https://arxiv.org/pdf/2508.15308

二、從判別打分走向多步生成，難點(diǎn)在于「推理」

長(zhǎng)期以來(lái)，主流推薦模型大多遵循判別式范式：給定用戶與候選物品，模型通過(guò)一次性打分來(lái)估計(jì)二者的交互概率。

這種方式高效且易于部署，但也天然受限，當(dāng)用戶興趣快速演化、意圖高度隱式且多維交織時(shí)，單次判別打分無(wú)法顯式建模用戶的決策路徑，也無(wú)法在推理過(guò)程中對(duì)路徑進(jìn)行修正。換言之，它更擅長(zhǎng)回答是不是，卻不擅長(zhǎng)回答你真正想要什么、以及為什么。

在這一背景下，生成式推薦開始受到關(guān)注。它把推薦從「一次判斷」改寫為「多步生成」：不再直接對(duì)候選打分，而是將物品表示從連續(xù)向量離散化為一串語(yǔ)義 ID（Semantic IDs），并讓模型在解碼階段逐步生成這些 ID。每一步生成都在補(bǔ)全一部分意圖線索、收縮候選語(yǔ)義空間，最終由一組語(yǔ)義 ID 組合定位到目標(biāo)物品。

相比單次打分，這種范式天然接近推理式?jīng)Q策，模型在生成過(guò)程中主動(dòng)選擇、組合并糾偏，從而有機(jī)會(huì)捕捉更細(xì)粒度、更個(gè)性化的興趣表達(dá)。

圍繞語(yǔ)義 ID 與生成式范式，阿里國(guó)際智能技術(shù)團(tuán)隊(duì)在工業(yè)場(chǎng)景中持續(xù)探索。2024 年，團(tuán)隊(duì)將殘差式語(yǔ)義 ID引入召回階段的負(fù)采樣，實(shí)現(xiàn)了負(fù)樣本難度與規(guī)模的可控調(diào)度（WWW’25 ESANS [1]）。

同時(shí)團(tuán)隊(duì)搭建并部署了行為大模型基座，針對(duì)多模態(tài)異構(gòu) token 帶來(lái)的噪聲問(wèn)題，提出基于分層 Transformer 的去噪建模方案（SIGIR’25 HeterRec [2]）。這些前置工作表明，生成式范式的關(guān)鍵并不止于「能生成」，更在于如何讓生成過(guò)程具備更強(qiáng)的「推理能力」與「可控性」。

基于此，團(tuán)隊(duì)提出了推理增強(qiáng)生成式推薦模型 REG4Rec，并將面臨的核心挑戰(zhàn)概括為三點(diǎn)：

挑戰(zhàn)一：碼本信息分布不均，步間語(yǔ)義割裂。當(dāng)前主流生成式推薦方案多采用殘差式層級(jí)語(yǔ)義 token，但在多步生成中存在兩類問(wèn)題。其一，語(yǔ)義信息過(guò)度集中在淺層，深層 token 的信息量隨層數(shù)快速衰減，從而帶來(lái)層間學(xué)習(xí)難度不一致、訓(xùn)練收斂不穩(wěn)定等問(wèn)題。其二，不同層級(jí) token 之間語(yǔ)義關(guān)聯(lián)弱，缺乏跨步承接，使后續(xù)生成難以有效利用前序先驗(yàn)，每一步都像在全新空間里重新開始，從而顯著抬高整體解碼難度。
挑戰(zhàn)二：解碼路徑固定，難以刻畫 “因人而異” 的決策邏輯。現(xiàn)有生成式推薦通常固定語(yǔ)義 ID 的生成順序，相當(dāng)于為所有用戶預(yù)設(shè)同一條推理軌跡。然而，同一商品可能因品牌、風(fēng)格、價(jià)格、類目等不同因素被不同用戶觸發(fā)，固定順序限制了模型描繪「?jìng)€(gè)體化決策路徑」的能力，壓縮了個(gè)性化表達(dá)空間。
挑戰(zhàn)三：自回歸解碼的誤差累積問(wèn)題。生成式解碼通常采用自回歸方式，缺少對(duì)當(dāng)前生成狀態(tài)進(jìn)行顯式評(píng)估與修正的機(jī)制。一旦早期 token 出現(xiàn)偏差，錯(cuò)誤便會(huì)在后續(xù)步驟中持續(xù)傳導(dǎo)并逐步累積，最終導(dǎo)致失之毫厘，謬以千里。

三、REG4Rec：讓生成式推薦從匹配走向多步推理

3.1 方案設(shè)計(jì)

針對(duì)上述挑戰(zhàn)，REG4Rec 從語(yǔ)義 ID 表征、推理路徑建模、推理增強(qiáng)訓(xùn)練和線上推理部署四個(gè)層面進(jìn)行系統(tǒng)設(shè)計(jì)，構(gòu)建端到端的生成式推理方案：

1. 超長(zhǎng)并行語(yǔ)義碼本：用 MMQ 并行碼本替代 RQ-VAE 殘差層級(jí)碼本，緩解碼本信息分布不均和步間語(yǔ)義割裂問(wèn)題，使碼本規(guī)模與推理步數(shù)能夠穩(wěn)定擴(kuò)展。

2. 上下文感知的動(dòng)態(tài)推理路徑：在推理階段支持自適應(yīng)的 token 生成順序，使解碼路徑隨用戶意圖動(dòng)態(tài)變化，更好刻畫 “因人而異” 的決策邏輯。

3. 基于 GRPO 的推理增強(qiáng)：引入多維反饋信號(hào)（如 token 命中、類目一致性、語(yǔ)義一致性等）對(duì)推理過(guò)程做偏好對(duì)齊，提升對(duì)早期誤差和錯(cuò)誤前綴的魯棒性，增強(qiáng)自我糾偏能力。

4. 基于反思剪枝與多步松弛的線上部署：在推理階段引入一致性度量進(jìn)行 “反思剪枝”，過(guò)濾語(yǔ)義不一致的解碼路徑。在商品檢索時(shí)則允許少量 token 不匹配的模糊召回，在保證推理穩(wěn)定性的同時(shí)提升長(zhǎng)尾覆蓋能力。

圖 1 REG4Rec 算法架構(gòu)

3.2 超長(zhǎng)并行語(yǔ)義碼本

工業(yè)界常用 RQ-VAE 來(lái)構(gòu)造語(yǔ)義 ID，其殘差層級(jí)結(jié)構(gòu)更適合壓縮表示，并不天然適配多步推理式生成。隨著解碼步數(shù)增加，新增碼本往往難以貢獻(xiàn)同等水平的增量語(yǔ)義信息，訓(xùn)練過(guò)程中也更容易出現(xiàn)層間收斂不同步的問(wèn)題。

更重要的是，層級(jí)殘差把語(yǔ)義拆到彼此相對(duì)割裂的空間里，后續(xù)步驟難以繼承前序推理結(jié)果，導(dǎo)致多步生成難以實(shí)現(xiàn)「隨步數(shù)增加而持續(xù)提升」，反而更容易放大早期偏差。這意味著如果不改變語(yǔ)義 ID 的組織方式，推理步數(shù)和收益都很難可持續(xù)擴(kuò)展。

圖 2 基于 MoE 的并行語(yǔ)義碼本 MMQ

為了解決這些問(wèn)題，阿里國(guó)際智能技術(shù)團(tuán)隊(duì)提出了一套基于 MoE 的并行語(yǔ)義碼本方案 (WSDM’26 MMQ [3])。該方案通過(guò)多個(gè)專家從不同語(yǔ)義視角對(duì)同一商品進(jìn)行編碼，生成一組平行的語(yǔ)義 token 空間；同時(shí)引入路由機(jī)制，為各 token 維度清晰分工，避免語(yǔ)義信息過(guò)度集中在少數(shù)維度，其余維度逐步退化為殘差噪聲。

在這一設(shè)計(jì)下，碼本規(guī)模與推理步數(shù)能夠更穩(wěn)健地?cái)U(kuò)展，為更長(zhǎng)推理鏈路的 Scaling Up 奠定基礎(chǔ)。同時(shí)，生成的核心目標(biāo)也從「壓縮商品表示」轉(zhuǎn)向「刻畫用戶興趣空間」：模型在多個(gè)語(yǔ)義維度上逐步推理出用戶偏好，再通過(guò)檢索策略從商品庫(kù)中取回滿足這些語(yǔ)義約束的目標(biāo)物品。

3.3 上下文感知的動(dòng)態(tài)推理路徑

在現(xiàn)有生成式召回架構(gòu)中，商品通常被編碼為一條固定順序的語(yǔ)義 token 序列，對(duì)于殘差碼本往往對(duì)應(yīng)由粗到細(xì)的層級(jí)順序。這種確定性表征隱含了一個(gè)強(qiáng)假設(shè)：所有用戶都應(yīng)沿著同一套語(yǔ)義維度依次理解商品。但在真實(shí)推薦場(chǎng)景中，用戶的決策線索往往因人而異。同一商品包含品牌、價(jià)格帶、顏色、款式等多維屬性，不同用戶產(chǎn)生興趣的觸發(fā)點(diǎn)可能完全不同，有人先看品牌，有人更在意外觀風(fēng)格，也有人優(yōu)先關(guān)注價(jià)格。若解碼順序被綁定到單一靜態(tài)路徑，就相當(dāng)于把不同用戶的推理過(guò)程壓縮到同一條決策鏈上，模型可表達(dá)的推理空間被顯著收窄，個(gè)性化效果也因此受限。

圖 3 基于上下文感知的動(dòng)態(tài)推理路徑

為此，REG4Rec 設(shè)計(jì)了上下文感知的動(dòng)態(tài)推理路徑。模型在每一步生成前，綜合用戶歷史行為、實(shí)時(shí)意圖信號(hào)以及已生成的 token 前綴，自適應(yīng)決定下一步從哪個(gè)語(yǔ)義維度進(jìn)行解碼。這樣，解碼不再受預(yù)設(shè)順序約束，而是圍繞用戶當(dāng)前關(guān)注點(diǎn)動(dòng)態(tài)選擇并組合語(yǔ)義維度，逐步形成更貼近個(gè)體決策邏輯的推理軌跡。

這一設(shè)計(jì)將個(gè)性化能力前置到生成過(guò)程之中，使模型不僅學(xué)習(xí)「生成哪些語(yǔ)義線索」，也學(xué)習(xí)「先生成哪些線索、再補(bǔ)全哪些約束」。在并行碼本提供的多視角語(yǔ)義空間上，動(dòng)態(tài)路徑顯著擴(kuò)展了可探索的推理組合，有助于更精準(zhǔn)地捕捉復(fù)雜多變的用戶意圖。

3.4 基于 GRPO 的推理增強(qiáng)

受大語(yǔ)言模型中「推理即生成」范式的啟發(fā)，REG4Rec 將推薦從傳統(tǒng)的「表征匹配」升級(jí)為「可控的邏輯推理」，更細(xì)致地刻畫用戶行為背后的決策路徑與真實(shí)興趣。

為此，REG4Rec 在訓(xùn)練階段引入強(qiáng)化學(xué)習(xí)框架，基于 GRPO 進(jìn)行偏好對(duì)齊，引導(dǎo)模型在大規(guī)模生成空間中探索更優(yōu)推理路徑。獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)主要包括三類信號(hào)：

面向結(jié)果的獎(jiǎng)勵(lì)：根據(jù)生成結(jié)果與目標(biāo)商品語(yǔ)義 ID 的命中程度給予獎(jiǎng)勵(lì)。即使前綴出現(xiàn)偏差，只要后續(xù)檢索的商品命中目標(biāo)，仍會(huì)持續(xù)給予正反饋，從而緩解自回歸誤差累積，并促使模型學(xué)到錯(cuò)誤前綴下的更優(yōu)策略，提升離線與線上表現(xiàn)的一致性。
面向過(guò)程的獎(jiǎng)勵(lì)：包含兩項(xiàng)信號(hào)，一是類目命中獎(jiǎng)勵(lì)，在難以精確命中商品時(shí)先對(duì)齊到正確類目，為模型提供更穩(wěn)定的中間目標(biāo)；二是語(yǔ)義一致性獎(jiǎng)勵(lì)，約束相鄰步驟的語(yǔ)義漂移，避免推理鏈路發(fā)生明顯跳變，保障生成過(guò)程的連貫性。
面向集合檢索的松弛獎(jiǎng)勵(lì)：當(dāng)生成結(jié)果命中足夠多的語(yǔ)義 token 即給予獎(jiǎng)勵(lì)，與線上集合檢索邏輯對(duì)齊，促使模型學(xué)習(xí)更有效的 token 組合策略，從而提升長(zhǎng)尾覆蓋與整體魯棒性。

通過(guò)上述 GRPO 后訓(xùn)練，模型能夠在多步生成中更好平衡命中率、推理方向與語(yǔ)義連貫性，顯著提升推理路徑的可控性與結(jié)果穩(wěn)定性。

3.5 基于反思剪枝與多步松弛的線上部署

在線上部署環(huán)節(jié)，REG4Rec 圍繞穩(wěn)定性與泛化性，對(duì)推理與檢索兩個(gè)關(guān)鍵環(huán)節(jié)做了針對(duì)性改造。

推理階段的反思剪枝：在 Beam Search 擴(kuò)展候選路徑時(shí)，不再僅依賴?yán)塾?jì)生成概率進(jìn)行排序，而是引入一致性信號(hào)，對(duì)生成軌跡進(jìn)行在線「自檢」。對(duì)于語(yǔ)義前后不連貫、出現(xiàn)明顯漂移的路徑及時(shí)剪枝，優(yōu)先保留語(yǔ)義一致的候選，從而降低多步解碼的不確定性，讓輸出更穩(wěn)定、更可靠。

檢索階段的多步松弛：在商品檢索時(shí)，不再將 token 序列完全一致作為硬約束，而是允許少量 token 不匹配的候選進(jìn)入召回集合。這樣可以顯著降低局部預(yù)測(cè)偏差帶來(lái)的漏召風(fēng)險(xiǎn)，同時(shí)幾乎不增加額外推理開銷，并進(jìn)一步提升對(duì)長(zhǎng)尾興趣與相似商品的覆蓋能力。

3.6 性能與效率：在大規(guī)模業(yè)務(wù)場(chǎng)景跑得動(dòng)

訓(xùn)練優(yōu)化：隨著模型參數(shù)和推理步數(shù)增加，訓(xùn)練時(shí)間顯著變長(zhǎng)，對(duì)離線迭代速度帶來(lái)壓力。REG4Rec 團(tuán)隊(duì)從特征處理、高效率算子引入，量化和顯存管理等多個(gè)維度進(jìn)行優(yōu)化，將單次訓(xùn)練時(shí)間縮短至原來(lái)的約一半，加快訓(xùn)練迭代和實(shí)驗(yàn)回收效率。部分關(guān)鍵的優(yōu)化點(diǎn)如下：

推理優(yōu)化：在生成式推薦的推理鏈路中，同樣包含特征處理與模型計(jì)算部分。REG4Rec 的優(yōu)化重點(diǎn)主要集中在模型推理側(cè)，一方面借鑒 LLM 推理優(yōu)化思路，另一方面結(jié)合搜索與廣告場(chǎng)景下的生成式推薦特點(diǎn)進(jìn)行定制化設(shè)計(jì)，主要包括：

通用優(yōu)化：將 LLM 推理優(yōu)化的方法應(yīng)用到生成式推薦中，如 FlashAttention、量化、KV cache 等，以提升算子效率和硬件利用率。

定制優(yōu)化：針對(duì)生成式召回中 beam size 增大會(huì)導(dǎo)致 batch size 膨脹的問(wèn)題，引入 TreeAttention 等機(jī)制控制計(jì)算規(guī)模；同時(shí)開發(fā)多種高性能融合算子（基于 Triton 或 CUDA），進(jìn)一步降低推理延遲。

四、實(shí)驗(yàn)

4.1 離線實(shí)驗(yàn)

為了驗(yàn)證 REG4Rec 的有效性，實(shí)驗(yàn)采用 Recall@K 和 NDCG@K 作為離線評(píng)估指標(biāo)，并在三個(gè)公開數(shù)據(jù)集和一個(gè)工業(yè)數(shù)據(jù)集上，與多個(gè)主流推薦模型進(jìn)行了系統(tǒng)對(duì)比。結(jié)果顯示，REG4Rec 在各項(xiàng)核心指標(biāo)上均顯著優(yōu)于現(xiàn)有的判別式與生成式推薦基線，整體召回效果取到了穩(wěn)定領(lǐng)先。

圖 4 REG4Rec 離線實(shí)驗(yàn)結(jié)果

此外，REG4Rec 在生成過(guò)程中引入了更長(zhǎng)的推理與選擇機(jī)制。在并行碼本設(shè)定下，對(duì)比了不同推理步數(shù)對(duì)召回效果的影響?？梢钥吹剑S著推理步數(shù)增加，離線指標(biāo)呈現(xiàn)穩(wěn)定的 Scaling Up 趨勢(shì)。模型能夠在多步生成中逐步細(xì)化用戶意圖，并通過(guò)迭代推理持續(xù)收緊語(yǔ)義約束，從而生成結(jié)果更貼合個(gè)體偏好。

尤其當(dāng)推理步數(shù)從 3 步提升到 5 步時(shí)，Recall 指標(biāo)出現(xiàn)明顯躍升，其中 Recall@1 提升 123%，Recall@100 提升 37%。當(dāng)推理步數(shù)進(jìn)一步增加到 6 步時(shí)，REG4Rec 的 Recall@100 開始超越傳統(tǒng)檢索式方法，這表明，推理增強(qiáng)的生成式推薦不僅在個(gè)性化表達(dá)與意圖理解上具備優(yōu)勢(shì)，也在泛化能力與召回效果上超過(guò)判別式范式。

圖 5 REG4Rec 推理步數(shù) Scaling Up

4.2 在線實(shí)驗(yàn)

在阿里巴巴 Lazada 推薦廣告業(yè)務(wù)中，REG4Rec 進(jìn)行了超大規(guī)模線上 A/B 測(cè)試中。REG4Rec 在多項(xiàng)核心業(yè)務(wù)指標(biāo)上取得顯著提升，并已完成全流量推全。

圖 6 REG4Rec 在線實(shí)驗(yàn)效果

五、總結(jié)與展望

生成式推薦正在從「能生成」走向「會(huì)推理」。當(dāng)推薦不再停留在表征匹配，而是像大語(yǔ)言模型一樣把推理過(guò)程納入生成本身，模型就能在多步生成中持續(xù)思考、選擇和反思，從而更貼近用戶真實(shí)興趣與決策邏輯。REG4Rec 沿著這一思路，將「推理即生成」的范式落到工業(yè)級(jí)推薦系統(tǒng)中，并圍繞表征、訓(xùn)練與部署三條主線打通端到端鏈路。

在表征側(cè)，MMQ 并行語(yǔ)義碼本與動(dòng)態(tài)解碼空間共同擴(kuò)展了更大規(guī)模的決策空間；在訓(xùn)練側(cè)，基于 GRPO 的偏好對(duì)齊與多步獎(jiǎng)勵(lì)設(shè)計(jì)，顯式引導(dǎo)模型在該空間內(nèi)進(jìn)行有效探索，逐步學(xué)習(xí)到更一致、更可靠的語(yǔ)義軌跡；在部署端，一致性驅(qū)動(dòng)的反思剪枝配合多步松弛檢索，在控制計(jì)算開銷的同時(shí)抑制語(yǔ)義漂移、降低漏召風(fēng)險(xiǎn)，讓生成策略與線上檢索機(jī)制更自然對(duì)齊。展望未來(lái)，生成式推理仍有三條值得持續(xù)深入的方向：

更具結(jié)構(gòu)化的反思糾偏機(jī)制：當(dāng)前線上主要依靠一致性信號(hào)對(duì)解碼軌跡做實(shí)時(shí)篩選與剪枝，能夠有效壓制語(yǔ)義漂移，但對(duì)早期錯(cuò)誤往往缺少可學(xué)習(xí)的定位與修正能力。下一步更關(guān)鍵的是把反思從規(guī)則化過(guò)濾升級(jí)為模型內(nèi)生的推理能力，在生成過(guò)程中引入結(jié)構(gòu)化的反思與糾偏機(jī)制，讓模型能夠顯式識(shí)別偏差并進(jìn)行針對(duì)性修正，從源頭緩解自回歸帶來(lái)的誤差累積，進(jìn)一步提升長(zhǎng)鏈推理的穩(wěn)定性與可控性。
更具差異性的多目標(biāo)建模：電商推薦天然是多目標(biāo)系統(tǒng)，點(diǎn)擊信號(hào)密集而轉(zhuǎn)化信號(hào)稀疏，二者的學(xué)習(xí)難度與決策邏輯并不對(duì)等，但不少方法在點(diǎn)擊與轉(zhuǎn)化上仍沿用近似同構(gòu)的結(jié)構(gòu)與訓(xùn)練目標(biāo)。未來(lái)可以面向轉(zhuǎn)化等高價(jià)值行為做更有針對(duì)性的建模與訓(xùn)練，讓模型在推理時(shí)更聚焦高指示性線索，真正做到按目標(biāo)組織推理路徑與生成策略。
更靈活的獎(jiǎng)勵(lì)融合機(jī)制：目前的多獎(jiǎng)勵(lì)融合仍相對(duì)簡(jiǎn)單，難以刻畫不同信號(hào)之間的協(xié)同與制約關(guān)系。后續(xù)需要探索更自適應(yīng)的獎(jiǎng)勵(lì)融合與權(quán)衡策略，使模型在命中率、語(yǔ)義連貫、類目對(duì)齊與檢索覆蓋之間實(shí)現(xiàn)更穩(wěn)定的平衡，持續(xù)逼近帕累托最優(yōu)，并提升跨場(chǎng)景遷移與泛化能力。

團(tuán)隊(duì)介紹：本文來(lái)自阿里國(guó)際-智能技術(shù)-Lazada推薦廣告算法團(tuán)隊(duì)。團(tuán)隊(duì)聚焦生成式推薦、大模型算法、用戶超長(zhǎng)序列建模與多場(chǎng)景建模等前沿方向，致力于構(gòu)建工業(yè)級(jí)推薦大模型，通過(guò)更深刻地洞察用戶個(gè)性化偏好與決策邏輯，持續(xù)提升商家投放效益與平臺(tái)收益。近年來(lái)，團(tuán)隊(duì)在前沿算法領(lǐng)域持續(xù)深耕，已在 WWW、SIGIR、CIKM、WSDM 等頂級(jí)學(xué)術(shù)會(huì)議發(fā)表多篇高質(zhì)量論文。也歡迎感興趣的同學(xué)加入我們，共同開創(chuàng)AI推薦的新篇章。

組內(nèi)前序工作：

[1]. Haibo Xing, Kanefumi Matsuyama, Hao Deng, Jinxin Hu, Yu Zhang, and Xiaoyi Zeng. 2025. ESANS: Effective and Semantic-Aware Negative Sampling for Large-Scale Retrieval Systems. In Proceedings of the ACM on Web Conference 2025 (Sydney NSW, Australia) (WWW ’25). Association for Computing Machinery, New York, NY, USA, 462–471.

[2]. Hao Deng, Haibo Xing, Kanefumi Matsuyama, Yulei Huang, Jinxin Hu, Hong Wen, Jia Xu, Zulong Chen, Yu Zhang, Xiaoyi Zeng, et al . 2025. Heterrec: Heterogeneous information transformer for scalable sequential recommendation. In Proceedings of the 48th International ACM SIGIR Conference on Research and Development in Information Retrieval. 3020–3024.

[3]. Yi Xu, Moyu Zhang, Chenxuan Li, Zhihao Liao, Haibo Xing, Hao Deng, Jinxin Hu, Yu Zhang, Xiaoyi Zeng, and Jing Zhang. 2025. MMQ: Multimodal Mixture-of-Quantization Tokenization for Semantic ID Generation and User Behavioral Adaptation. arXiv:2508.15281 [cs.IR] https://arxiv.org/abs/2508.15281

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.