国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

從匹配困境到推理突破:阿里REG4Rec 激活生成式推薦的個(gè)性化潛力

0
分享至



一、引言

從內(nèi)容分發(fā)到商業(yè)轉(zhuǎn)化,推薦系統(tǒng)早已成為互聯(lián)網(wǎng)平臺(tái)的關(guān)鍵基礎(chǔ)設(shè)施。它在海量信息與有限注意力之間完成篩選和排序,直接影響內(nèi)容曝光、商品成交以及流量變現(xiàn)效率。

用戶在電商平臺(tái)上看到的商品列表、在信息流里刷到的內(nèi)容、廣告位中呈現(xiàn)的鏈接,通常并非隨機(jī)展現(xiàn),而是推薦系統(tǒng)在毫秒級(jí)完成特征理解和排序決策的結(jié)果。

近年來(lái),大語(yǔ)言模型(LLM)在語(yǔ)義理解、內(nèi)容生成和多步推理方面取得快速進(jìn)展,推動(dòng)業(yè)界重新審視推薦系統(tǒng)的形態(tài):推薦是否可以不再局限于一次性打分和相似度匹配,而是像人類決策一樣,在生成過(guò)程中進(jìn)行多步推理與自我修正,逐步逼近用戶的真實(shí)意圖。

基于此,「生成式推薦」開始成為一個(gè)重要研究方向,嘗試將 “理解 — 生成 — 推理” 融為一體,讓推薦過(guò)程從靜態(tài)匹配轉(zhuǎn)變?yōu)槊嫦蛴脩粢鈭D的動(dòng)態(tài)決策。

在實(shí)際電商環(huán)境中,生成式推薦面臨的主要挑戰(zhàn)不在于生成商品本身,而在于生成過(guò)程是否具備「可推理、可控且穩(wěn)定」的能力。

電商場(chǎng)景下,用戶行為信號(hào)噪聲高、興趣多樣且頻繁變化,模型需要在多步生成過(guò)程中持續(xù)校準(zhǔn)語(yǔ)義方向、維持推理軌跡的一致性。若仍采用經(jīng)典自回歸解碼,早期預(yù)測(cè)偏差容易被不斷放大,推理路徑收縮到少量固定模式,導(dǎo)致生成精度受限、長(zhǎng)尾興趣覆蓋不足,難以穩(wěn)定命中用戶真實(shí)需求。

針對(duì)上述問(wèn)題,阿里國(guó)際智能技術(shù)團(tuán)隊(duì)提出了基于推理增強(qiáng)范式的生成式推薦模型 REG4Rec。該模型從表征學(xué)習(xí)、訓(xùn)練目標(biāo)和推理策略三個(gè)層面進(jìn)行了系統(tǒng)設(shè)計(jì),以提升生成式推薦的推理能力與穩(wěn)定性。離線實(shí)驗(yàn)顯示,REG4Rec 在多個(gè)關(guān)鍵指標(biāo)上優(yōu)于現(xiàn)有生成式方法,并呈現(xiàn)出隨推理步數(shù)增加而性能持續(xù)提升的 Scaling Up 特性。

目前,REG4Rec 已在 Lazada 推薦廣告場(chǎng)景完成大規(guī)模工業(yè)化部署。線上結(jié)果顯示:廣告收入提升5.60%、商品交易總額(GMV)提升3.29%、點(diǎn)擊率提升1.81%,帶來(lái)顯著商業(yè)收益。

本工作相關(guān)成果已被數(shù)據(jù)挖掘領(lǐng)域頂級(jí)會(huì)議 ICDE 2026 接收。



  • 論文標(biāo)題:REG4Rec: Reasoning-Enhanced Generative Model for Large-Scale Recommendation Systems
  • 論文鏈接:https://arxiv.org/pdf/2508.15308

二、從判別打分走向多步生成,難點(diǎn)在于「推理」

長(zhǎng)期以來(lái),主流推薦模型大多遵循判別式范式:給定用戶與候選物品,模型通過(guò)一次性打分來(lái)估計(jì)二者的交互概率。

這種方式高效且易于部署,但也天然受限,當(dāng)用戶興趣快速演化、意圖高度隱式且多維交織時(shí),單次判別打分無(wú)法顯式建模用戶的決策路徑,也無(wú)法在推理過(guò)程中對(duì)路徑進(jìn)行修正。換言之,它更擅長(zhǎng)回答是不是,卻不擅長(zhǎng)回答你真正想要什么、以及為什么。

在這一背景下,生成式推薦開始受到關(guān)注。它把推薦從「一次判斷」改寫為「多步生成」:不再直接對(duì)候選打分,而是將物品表示從連續(xù)向量離散化為一串語(yǔ)義 ID(Semantic IDs),并讓模型在解碼階段逐步生成這些 ID。每一步生成都在補(bǔ)全一部分意圖線索、收縮候選語(yǔ)義空間,最終由一組語(yǔ)義 ID 組合定位到目標(biāo)物品。

相比單次打分,這種范式天然接近推理式?jīng)Q策,模型在生成過(guò)程中主動(dòng)選擇、組合并糾偏,從而有機(jī)會(huì)捕捉更細(xì)粒度、更個(gè)性化的興趣表達(dá)。

圍繞語(yǔ)義 ID 與生成式范式,阿里國(guó)際智能技術(shù)團(tuán)隊(duì)在工業(yè)場(chǎng)景中持續(xù)探索。2024 年,團(tuán)隊(duì)將殘差式語(yǔ)義 ID引入召回階段的負(fù)采樣,實(shí)現(xiàn)了負(fù)樣本難度與規(guī)模的可控調(diào)度(WWW’25 ESANS [1])。

同時(shí)團(tuán)隊(duì)搭建并部署了行為大模型基座,針對(duì)多模態(tài)異構(gòu) token 帶來(lái)的噪聲問(wèn)題,提出基于分層 Transformer 的去噪建模方案(SIGIR’25 HeterRec [2])。這些前置工作表明,生成式范式的關(guān)鍵并不止于「能生成」,更在于如何讓生成過(guò)程具備更強(qiáng)的「推理能力」與「可控性」。

基于此,團(tuán)隊(duì)提出了推理增強(qiáng)生成式推薦模型 REG4Rec,并將面臨的核心挑戰(zhàn)概括為三點(diǎn):

  • 挑戰(zhàn)一:碼本信息分布不均,步間語(yǔ)義割裂。當(dāng)前主流生成式推薦方案多采用殘差式層級(jí)語(yǔ)義 token,但在多步生成中存在兩類問(wèn)題。其一,語(yǔ)義信息過(guò)度集中在淺層,深層 token 的信息量隨層數(shù)快速衰減,從而帶來(lái)層間學(xué)習(xí)難度不一致、訓(xùn)練收斂不穩(wěn)定等問(wèn)題。其二,不同層級(jí) token 之間語(yǔ)義關(guān)聯(lián)弱,缺乏跨步承接,使后續(xù)生成難以有效利用前序先驗(yàn),每一步都像在全新空間里重新開始,從而顯著抬高整體解碼難度。

  • 挑戰(zhàn)二:解碼路徑固定,難以刻畫 “因人而異” 的決策邏輯。現(xiàn)有生成式推薦通常固定語(yǔ)義 ID 的生成順序,相當(dāng)于為所有用戶預(yù)設(shè)同一條推理軌跡。然而,同一商品可能因品牌、風(fēng)格、價(jià)格、類目等不同因素被不同用戶觸發(fā),固定順序限制了模型描繪「?jìng)€(gè)體化決策路徑」的能力,壓縮了個(gè)性化表達(dá)空間。

  • 挑戰(zhàn)三:自回歸解碼的誤差累積問(wèn)題。生成式解碼通常采用自回歸方式,缺少對(duì)當(dāng)前生成狀態(tài)進(jìn)行顯式評(píng)估與修正的機(jī)制。一旦早期 token 出現(xiàn)偏差,錯(cuò)誤便會(huì)在后續(xù)步驟中持續(xù)傳導(dǎo)并逐步累積,最終導(dǎo)致失之毫厘,謬以千里。

三、REG4Rec:讓生成式推薦從匹配走向多步推理

3.1 方案設(shè)計(jì)

針對(duì)上述挑戰(zhàn),REG4Rec 從語(yǔ)義 ID 表征、推理路徑建模、推理增強(qiáng)訓(xùn)練和線上推理部署四個(gè)層面進(jìn)行系統(tǒng)設(shè)計(jì),構(gòu)建端到端的生成式推理方案:

1. 超長(zhǎng)并行語(yǔ)義碼本:用 MMQ 并行碼本替代 RQ-VAE 殘差層級(jí)碼本,緩解碼本信息分布不均和步間語(yǔ)義割裂問(wèn)題,使碼本規(guī)模與推理步數(shù)能夠穩(wěn)定擴(kuò)展。

2. 上下文感知的動(dòng)態(tài)推理路徑:在推理階段支持自適應(yīng)的 token 生成順序,使解碼路徑隨用戶意圖動(dòng)態(tài)變化,更好刻畫 “因人而異” 的決策邏輯。

3. 基于 GRPO 的推理增強(qiáng):引入多維反饋信號(hào)(如 token 命中、類目一致性、語(yǔ)義一致性等)對(duì)推理過(guò)程做偏好對(duì)齊,提升對(duì)早期誤差和錯(cuò)誤前綴的魯棒性,增強(qiáng)自我糾偏能力。

4. 基于反思剪枝與多步松弛的線上部署:在推理階段引入一致性度量進(jìn)行 “反思剪枝”,過(guò)濾語(yǔ)義不一致的解碼路徑。在商品檢索時(shí)則允許少量 token 不匹配的模糊召回,在保證推理穩(wěn)定性的同時(shí)提升長(zhǎng)尾覆蓋能力。



圖 1 REG4Rec 算法架構(gòu)

3.2 超長(zhǎng)并行語(yǔ)義碼本

工業(yè)界常用 RQ-VAE 來(lái)構(gòu)造語(yǔ)義 ID,其殘差層級(jí)結(jié)構(gòu)更適合壓縮表示,并不天然適配多步推理式生成。隨著解碼步數(shù)增加,新增碼本往往難以貢獻(xiàn)同等水平的增量語(yǔ)義信息,訓(xùn)練過(guò)程中也更容易出現(xiàn)層間收斂不同步的問(wèn)題。

更重要的是,層級(jí)殘差把語(yǔ)義拆到彼此相對(duì)割裂的空間里,后續(xù)步驟難以繼承前序推理結(jié)果,導(dǎo)致多步生成難以實(shí)現(xiàn)「隨步數(shù)增加而持續(xù)提升」,反而更容易放大早期偏差。這意味著如果不改變語(yǔ)義 ID 的組織方式,推理步數(shù)和收益都很難可持續(xù)擴(kuò)展。



圖 2 基于 MoE 的并行語(yǔ)義碼本 MMQ

為了解決這些問(wèn)題,阿里國(guó)際智能技術(shù)團(tuán)隊(duì)提出了一套基于 MoE 的并行語(yǔ)義碼本方案 (WSDM’26 MMQ [3])。該方案通過(guò)多個(gè)專家從不同語(yǔ)義視角對(duì)同一商品進(jìn)行編碼,生成一組平行的語(yǔ)義 token 空間;同時(shí)引入路由機(jī)制,為各 token 維度清晰分工,避免語(yǔ)義信息過(guò)度集中在少數(shù)維度,其余維度逐步退化為殘差噪聲。

在這一設(shè)計(jì)下,碼本規(guī)模與推理步數(shù)能夠更穩(wěn)健地?cái)U(kuò)展,為更長(zhǎng)推理鏈路的 Scaling Up 奠定基礎(chǔ)。同時(shí),生成的核心目標(biāo)也從「壓縮商品表示」轉(zhuǎn)向「刻畫用戶興趣空間」:模型在多個(gè)語(yǔ)義維度上逐步推理出用戶偏好,再通過(guò)檢索策略從商品庫(kù)中取回滿足這些語(yǔ)義約束的目標(biāo)物品。

3.3 上下文感知的動(dòng)態(tài)推理路徑

在現(xiàn)有生成式召回架構(gòu)中,商品通常被編碼為一條固定順序的語(yǔ)義 token 序列,對(duì)于殘差碼本往往對(duì)應(yīng)由粗到細(xì)的層級(jí)順序。這種確定性表征隱含了一個(gè)強(qiáng)假設(shè):所有用戶都應(yīng)沿著同一套語(yǔ)義維度依次理解商品。但在真實(shí)推薦場(chǎng)景中,用戶的決策線索往往因人而異。同一商品包含品牌、價(jià)格帶、顏色、款式等多維屬性,不同用戶產(chǎn)生興趣的觸發(fā)點(diǎn)可能完全不同,有人先看品牌,有人更在意外觀風(fēng)格,也有人優(yōu)先關(guān)注價(jià)格。若解碼順序被綁定到單一靜態(tài)路徑,就相當(dāng)于把不同用戶的推理過(guò)程壓縮到同一條決策鏈上,模型可表達(dá)的推理空間被顯著收窄,個(gè)性化效果也因此受限。



圖 3 基于上下文感知的動(dòng)態(tài)推理路徑

為此,REG4Rec 設(shè)計(jì)了上下文感知的動(dòng)態(tài)推理路徑。模型在每一步生成前,綜合用戶歷史行為、實(shí)時(shí)意圖信號(hào)以及已生成的 token 前綴,自適應(yīng)決定下一步從哪個(gè)語(yǔ)義維度進(jìn)行解碼。這樣,解碼不再受預(yù)設(shè)順序約束,而是圍繞用戶當(dāng)前關(guān)注點(diǎn)動(dòng)態(tài)選擇并組合語(yǔ)義維度,逐步形成更貼近個(gè)體決策邏輯的推理軌跡。

這一設(shè)計(jì)將個(gè)性化能力前置到生成過(guò)程之中,使模型不僅學(xué)習(xí)「生成哪些語(yǔ)義線索」,也學(xué)習(xí)「先生成哪些線索、再補(bǔ)全哪些約束」。在并行碼本提供的多視角語(yǔ)義空間上,動(dòng)態(tài)路徑顯著擴(kuò)展了可探索的推理組合,有助于更精準(zhǔn)地捕捉復(fù)雜多變的用戶意圖。

3.4 基于 GRPO 的推理增強(qiáng)

受大語(yǔ)言模型中「推理即生成」范式的啟發(fā),REG4Rec 將推薦從傳統(tǒng)的「表征匹配」升級(jí)為「可控的邏輯推理」,更細(xì)致地刻畫用戶行為背后的決策路徑與真實(shí)興趣。

為此,REG4Rec 在訓(xùn)練階段引入強(qiáng)化學(xué)習(xí)框架,基于 GRPO 進(jìn)行偏好對(duì)齊,引導(dǎo)模型在大規(guī)模生成空間中探索更優(yōu)推理路徑。獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)主要包括三類信號(hào):

  • 面向結(jié)果的獎(jiǎng)勵(lì):根據(jù)生成結(jié)果與目標(biāo)商品語(yǔ)義 ID 的命中程度給予獎(jiǎng)勵(lì)。即使前綴出現(xiàn)偏差,只要后續(xù)檢索的商品命中目標(biāo),仍會(huì)持續(xù)給予正反饋,從而緩解自回歸誤差累積,并促使模型學(xué)到錯(cuò)誤前綴下的更優(yōu)策略,提升離線與線上表現(xiàn)的一致性。

  • 面向過(guò)程的獎(jiǎng)勵(lì):包含兩項(xiàng)信號(hào),一是類目命中獎(jiǎng)勵(lì),在難以精確命中商品時(shí)先對(duì)齊到正確類目,為模型提供更穩(wěn)定的中間目標(biāo);二是語(yǔ)義一致性獎(jiǎng)勵(lì),約束相鄰步驟的語(yǔ)義漂移,避免推理鏈路發(fā)生明顯跳變,保障生成過(guò)程的連貫性。

  • 面向集合檢索的松弛獎(jiǎng)勵(lì):當(dāng)生成結(jié)果命中足夠多的語(yǔ)義 token 即給予獎(jiǎng)勵(lì),與線上集合檢索邏輯對(duì)齊,促使模型學(xué)習(xí)更有效的 token 組合策略,從而提升長(zhǎng)尾覆蓋與整體魯棒性。

通過(guò)上述 GRPO 后訓(xùn)練,模型能夠在多步生成中更好平衡命中率、推理方向與語(yǔ)義連貫性,顯著提升推理路徑的可控性與結(jié)果穩(wěn)定性。

3.5 基于反思剪枝與多步松弛的線上部署

在線上部署環(huán)節(jié),REG4Rec 圍繞穩(wěn)定性與泛化性,對(duì)推理與檢索兩個(gè)關(guān)鍵環(huán)節(jié)做了針對(duì)性改造。

推理階段的反思剪枝:在 Beam Search 擴(kuò)展候選路徑時(shí),不再僅依賴?yán)塾?jì)生成概率進(jìn)行排序,而是引入一致性信號(hào),對(duì)生成軌跡進(jìn)行在線「自檢」。對(duì)于語(yǔ)義前后不連貫、出現(xiàn)明顯漂移的路徑及時(shí)剪枝,優(yōu)先保留語(yǔ)義一致的候選,從而降低多步解碼的不確定性,讓輸出更穩(wěn)定、更可靠。

檢索階段的多步松弛:在商品檢索時(shí),不再將 token 序列完全一致作為硬約束,而是允許少量 token 不匹配的候選進(jìn)入召回集合。這樣可以顯著降低局部預(yù)測(cè)偏差帶來(lái)的漏召風(fēng)險(xiǎn),同時(shí)幾乎不增加額外推理開銷,并進(jìn)一步提升對(duì)長(zhǎng)尾興趣與相似商品的覆蓋能力。

3.6 性能與效率:在大規(guī)模業(yè)務(wù)場(chǎng)景跑得動(dòng)

訓(xùn)練優(yōu)化:隨著模型參數(shù)和推理步數(shù)增加,訓(xùn)練時(shí)間顯著變長(zhǎng),對(duì)離線迭代速度帶來(lái)壓力。REG4Rec 團(tuán)隊(duì)從特征處理、高效率算子引入,量化和顯存管理等多個(gè)維度進(jìn)行優(yōu)化,將單次訓(xùn)練時(shí)間縮短至原來(lái)的約一半,加快訓(xùn)練迭代和實(shí)驗(yàn)回收效率。部分關(guān)鍵的優(yōu)化點(diǎn)如下:



推理優(yōu)化:在生成式推薦的推理鏈路中,同樣包含特征處理與模型計(jì)算部分。REG4Rec 的優(yōu)化重點(diǎn)主要集中在模型推理側(cè),一方面借鑒 LLM 推理優(yōu)化思路,另一方面結(jié)合搜索與廣告場(chǎng)景下的生成式推薦特點(diǎn)進(jìn)行定制化設(shè)計(jì),主要包括:

通用優(yōu)化:將 LLM 推理優(yōu)化的方法應(yīng)用到生成式推薦中,如 FlashAttention、量化、KV cache 等,以提升算子效率和硬件利用率。

定制優(yōu)化:針對(duì)生成式召回中 beam size 增大會(huì)導(dǎo)致 batch size 膨脹的問(wèn)題,引入 TreeAttention 等機(jī)制控制計(jì)算規(guī)模;同時(shí)開發(fā)多種高性能融合算子(基于 Triton 或 CUDA),進(jìn)一步降低推理延遲。



四、實(shí)驗(yàn)

4.1 離線實(shí)驗(yàn)

為了驗(yàn)證 REG4Rec 的有效性,實(shí)驗(yàn)采用 Recall@K 和 NDCG@K 作為離線評(píng)估指標(biāo),并在三個(gè)公開數(shù)據(jù)集和一個(gè)工業(yè)數(shù)據(jù)集上,與多個(gè)主流推薦模型進(jìn)行了系統(tǒng)對(duì)比。結(jié)果顯示,REG4Rec 在各項(xiàng)核心指標(biāo)上均顯著優(yōu)于現(xiàn)有的判別式與生成式推薦基線,整體召回效果取到了穩(wěn)定領(lǐng)先。



圖 4 REG4Rec 離線實(shí)驗(yàn)結(jié)果

此外,REG4Rec 在生成過(guò)程中引入了更長(zhǎng)的推理與選擇機(jī)制。在并行碼本設(shè)定下,對(duì)比了不同推理步數(shù)對(duì)召回效果的影響??梢钥吹剑S著推理步數(shù)增加,離線指標(biāo)呈現(xiàn)穩(wěn)定的 Scaling Up 趨勢(shì)。模型能夠在多步生成中逐步細(xì)化用戶意圖,并通過(guò)迭代推理持續(xù)收緊語(yǔ)義約束,從而生成結(jié)果更貼合個(gè)體偏好。

尤其當(dāng)推理步數(shù)從 3 步提升到 5 步時(shí),Recall 指標(biāo)出現(xiàn)明顯躍升,其中 Recall@1 提升 123%,Recall@100 提升 37%。當(dāng)推理步數(shù)進(jìn)一步增加到 6 步時(shí),REG4Rec 的 Recall@100 開始超越傳統(tǒng)檢索式方法,這表明,推理增強(qiáng)的生成式推薦不僅在個(gè)性化表達(dá)與意圖理解上具備優(yōu)勢(shì),也在泛化能力與召回效果上超過(guò)判別式范式。



圖 5 REG4Rec 推理步數(shù) Scaling Up

4.2 在線實(shí)驗(yàn)

在阿里巴巴 Lazada 推薦廣告業(yè)務(wù)中,REG4Rec 進(jìn)行了超大規(guī)模線上 A/B 測(cè)試中。REG4Rec 在多項(xiàng)核心業(yè)務(wù)指標(biāo)上取得顯著提升,并已完成全流量推全。



圖 6 REG4Rec 在線實(shí)驗(yàn)效果

五、總結(jié)與展望

生成式推薦正在從「能生成」走向「會(huì)推理」。當(dāng)推薦不再停留在表征匹配,而是像大語(yǔ)言模型一樣把推理過(guò)程納入生成本身,模型就能在多步生成中持續(xù)思考、選擇和反思,從而更貼近用戶真實(shí)興趣與決策邏輯。REG4Rec 沿著這一思路,將「推理即生成」的范式落到工業(yè)級(jí)推薦系統(tǒng)中,并圍繞表征、訓(xùn)練與部署三條主線打通端到端鏈路。

在表征側(cè),MMQ 并行語(yǔ)義碼本與動(dòng)態(tài)解碼空間共同擴(kuò)展了更大規(guī)模的決策空間;在訓(xùn)練側(cè),基于 GRPO 的偏好對(duì)齊與多步獎(jiǎng)勵(lì)設(shè)計(jì),顯式引導(dǎo)模型在該空間內(nèi)進(jìn)行有效探索,逐步學(xué)習(xí)到更一致、更可靠的語(yǔ)義軌跡;在部署端,一致性驅(qū)動(dòng)的反思剪枝配合多步松弛檢索,在控制計(jì)算開銷的同時(shí)抑制語(yǔ)義漂移、降低漏召風(fēng)險(xiǎn),讓生成策略與線上檢索機(jī)制更自然對(duì)齊。展望未來(lái),生成式推理仍有三條值得持續(xù)深入的方向:

  • 更具結(jié)構(gòu)化的反思糾偏機(jī)制:當(dāng)前線上主要依靠一致性信號(hào)對(duì)解碼軌跡做實(shí)時(shí)篩選與剪枝,能夠有效壓制語(yǔ)義漂移,但對(duì)早期錯(cuò)誤往往缺少可學(xué)習(xí)的定位與修正能力。下一步更關(guān)鍵的是把反思從規(guī)則化過(guò)濾升級(jí)為模型內(nèi)生的推理能力,在生成過(guò)程中引入結(jié)構(gòu)化的反思與糾偏機(jī)制,讓模型能夠顯式識(shí)別偏差并進(jìn)行針對(duì)性修正,從源頭緩解自回歸帶來(lái)的誤差累積,進(jìn)一步提升長(zhǎng)鏈推理的穩(wěn)定性與可控性。

  • 更具差異性的多目標(biāo)建模:電商推薦天然是多目標(biāo)系統(tǒng),點(diǎn)擊信號(hào)密集而轉(zhuǎn)化信號(hào)稀疏,二者的學(xué)習(xí)難度與決策邏輯并不對(duì)等,但不少方法在點(diǎn)擊與轉(zhuǎn)化上仍沿用近似同構(gòu)的結(jié)構(gòu)與訓(xùn)練目標(biāo)。未來(lái)可以面向轉(zhuǎn)化等高價(jià)值行為做更有針對(duì)性的建模與訓(xùn)練,讓模型在推理時(shí)更聚焦高指示性線索,真正做到按目標(biāo)組織推理路徑與生成策略。

  • 更靈活的獎(jiǎng)勵(lì)融合機(jī)制:目前的多獎(jiǎng)勵(lì)融合仍相對(duì)簡(jiǎn)單,難以刻畫不同信號(hào)之間的協(xié)同與制約關(guān)系。后續(xù)需要探索更自適應(yīng)的獎(jiǎng)勵(lì)融合與權(quán)衡策略,使模型在命中率、語(yǔ)義連貫、類目對(duì)齊與檢索覆蓋之間實(shí)現(xiàn)更穩(wěn)定的平衡,持續(xù)逼近帕累托最優(yōu),并提升跨場(chǎng)景遷移與泛化能力。

團(tuán)隊(duì)介紹:本文來(lái)自阿里國(guó)際-智能技術(shù)-Lazada推薦廣告算法團(tuán)隊(duì)。團(tuán)隊(duì)聚焦生成式推薦、大模型算法、用戶超長(zhǎng)序列建模與多場(chǎng)景建模等前沿方向,致力于構(gòu)建工業(yè)級(jí)推薦大模型,通過(guò)更深刻地洞察用戶個(gè)性化偏好與決策邏輯,持續(xù)提升商家投放效益與平臺(tái)收益。近年來(lái),團(tuán)隊(duì)在前沿算法領(lǐng)域持續(xù)深耕,已在 WWW、SIGIR、CIKM、WSDM 等頂級(jí)學(xué)術(shù)會(huì)議發(fā)表多篇高質(zhì)量論文。也歡迎感興趣的同學(xué)加入我們,共同開創(chuàng)AI推薦的新篇章。

組內(nèi)前序工作:

[1]. Haibo Xing, Kanefumi Matsuyama, Hao Deng, Jinxin Hu, Yu Zhang, and Xiaoyi Zeng. 2025. ESANS: Effective and Semantic-Aware Negative Sampling for Large-Scale Retrieval Systems. In Proceedings of the ACM on Web Conference 2025 (Sydney NSW, Australia) (WWW ’25). Association for Computing Machinery, New York, NY, USA, 462–471.

[2]. Hao Deng, Haibo Xing, Kanefumi Matsuyama, Yulei Huang, Jinxin Hu, Hong Wen, Jia Xu, Zulong Chen, Yu Zhang, Xiaoyi Zeng, et al . 2025. Heterrec: Heterogeneous information transformer for scalable sequential recommendation. In Proceedings of the 48th International ACM SIGIR Conference on Research and Development in Information Retrieval. 3020–3024.

[3]. Yi Xu, Moyu Zhang, Chenxuan Li, Zhihao Liao, Haibo Xing, Hao Deng, Jinxin Hu, Yu Zhang, Xiaoyi Zeng, and Jing Zhang. 2025. MMQ: Multimodal Mixture-of-Quantization Tokenization for Semantic ID Generation and User Behavioral Adaptation. arXiv:2508.15281 [cs.IR] https://arxiv.org/abs/2508.15281

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
前英超裁判:加布里埃爾得感謝哈蘭德,后者順勢(shì)倒下就是紅牌

前英超裁判:加布里埃爾得感謝哈蘭德,后者順勢(shì)倒下就是紅牌

懂球帝
2026-04-20 08:00:07
世錦賽戰(zhàn)報(bào):16強(qiáng)決出5席!中國(guó)2勝2負(fù)1領(lǐng)先,世界亞軍4-10一輪游

世錦賽戰(zhàn)報(bào):16強(qiáng)決出5席!中國(guó)2勝2負(fù)1領(lǐng)先,世界亞軍4-10一輪游

球場(chǎng)沒(méi)跑道
2026-04-20 05:38:54
39歲前國(guó)腳現(xiàn)狀:定居美國(guó)踢野球,早已財(cái)富自由,有2個(gè)可愛(ài)女兒

39歲前國(guó)腳現(xiàn)狀:定居美國(guó)踢野球,早已財(cái)富自由,有2個(gè)可愛(ài)女兒

攬星河的筆記
2026-04-14 15:18:30
天安門前的華表柱,是用來(lái)干什么的?看完不禁感嘆古人的智慧

天安門前的華表柱,是用來(lái)干什么的?看完不禁感嘆古人的智慧

抽象派大師
2026-04-19 15:45:34
貝森特通告全球,將對(duì)中國(guó)二級(jí)制裁,話音剛落,中國(guó)被曝美債余額

貝森特通告全球,將對(duì)中國(guó)二級(jí)制裁,話音剛落,中國(guó)被曝美債余額

浮光驚掠影
2026-04-19 10:01:06
若沒(méi)有此人,中國(guó)歷史或?qū)⒏膶?!晚年離休后享受什么待遇?

若沒(méi)有此人,中國(guó)歷史或?qū)⒏膶?!晚年離休后享受什么待遇?

史之銘
2026-04-19 15:49:20
瑞典:國(guó)王拒絕與澤連斯基握手的說(shuō)法,是“錯(cuò)誤且丑陋的”。俄媒在這個(gè)問(wèn)題上斷章取義!

瑞典:國(guó)王拒絕與澤連斯基握手的說(shuō)法,是“錯(cuò)誤且丑陋的”。俄媒在這個(gè)問(wèn)題上斷章取義!

李未熟擒話2
2026-04-19 17:08:59
4月19日最新油價(jià),國(guó)際油價(jià)大降21.8%,國(guó)內(nèi)汽柴油“顯著”下跌中

4月19日最新油價(jià),國(guó)際油價(jià)大降21.8%,國(guó)內(nèi)汽柴油“顯著”下跌中

豬友巴巴
2026-04-19 17:30:03
斯諾克世錦賽:丁俊暉首敗!土豆哥單桿70分追平,張安達(dá)優(yōu)勢(shì)縮水

斯諾克世錦賽:丁俊暉首??!土豆哥單桿70分追平,張安達(dá)優(yōu)勢(shì)縮水

劉姚堯的文字城堡
2026-04-19 18:05:31
樹倒猢猻散!武亮直播哭紅眼眶,20余天的人事動(dòng)蕩,讓他心力憔悴

樹倒猢猻散!武亮直播哭紅眼眶,20余天的人事動(dòng)蕩,讓他心力憔悴

火山詩(shī)話
2026-04-20 06:31:57
55歲上海炒股冠軍罕見(jiàn)發(fā)聲:如果本金有20W,建議死磕這五條鐵律

55歲上海炒股冠軍罕見(jiàn)發(fā)聲:如果本金有20W,建議死磕這五條鐵律

股經(jīng)縱橫談
2026-04-19 19:03:09
“鳥巢”要拆?花34億建成的奧運(yùn)地標(biāo),如今是賺了還是賠了?

“鳥巢”要拆?花34億建成的奧運(yùn)地標(biāo),如今是賺了還是賠了?

拳擊時(shí)空
2026-04-20 06:18:44
都說(shuō)孔子周游列國(guó),可地圖一攤開,這老爺子基本就沒(méi)出過(guò)河南省

都說(shuō)孔子周游列國(guó),可地圖一攤開,這老爺子基本就沒(méi)出過(guò)河南省

長(zhǎng)風(fēng)文史
2026-04-18 16:39:15
“絕對(duì)good!”河南男子在美國(guó)擺攤賣磨刀器:義烏進(jìn)價(jià)1塊賣5美金,月入1萬(wàn)美金

“絕對(duì)good!”河南男子在美國(guó)擺攤賣磨刀器:義烏進(jìn)價(jià)1塊賣5美金,月入1萬(wàn)美金

瀟湘晨報(bào)
2026-04-19 11:48:20
黎筍長(zhǎng)子曾坦言:越南當(dāng)年敢打中國(guó)有3個(gè)原因,結(jié)果發(fā)現(xiàn)全是錯(cuò)覺(jué)

黎筍長(zhǎng)子曾坦言:越南當(dāng)年敢打中國(guó)有3個(gè)原因,結(jié)果發(fā)現(xiàn)全是錯(cuò)覺(jué)

顧史
2026-04-18 09:17:19
71.5%!歷史性暴跌,以貸養(yǎng)貸的泡沫崩了

71.5%!歷史性暴跌,以貸養(yǎng)貸的泡沫崩了

月滿大江流
2026-04-16 13:54:38
1910年,孫中山原配和三個(gè)孩子合影,容貌憔悴,命運(yùn)坎坷!

1910年,孫中山原配和三個(gè)孩子合影,容貌憔悴,命運(yùn)坎坷!

史之銘
2026-04-19 17:44:23
天文學(xué)家彭羅斯:人類的死亡只是宇宙的幻象,生命是不可能終結(jié)的

天文學(xué)家彭羅斯:人類的死亡只是宇宙的幻象,生命是不可能終結(jié)的

心中的麥田
2026-03-06 19:27:32
25歲女孩下樓梯時(shí)低頭玩手機(jī),踩空摔倒致腰椎爆裂性骨折,術(shù)前下肢癱瘓大小便失禁:我不會(huì)這輩子就完了吧?醫(yī)生:小事引發(fā)災(zāi)難性后果

25歲女孩下樓梯時(shí)低頭玩手機(jī),踩空摔倒致腰椎爆裂性骨折,術(shù)前下肢癱瘓大小便失禁:我不會(huì)這輩子就完了吧?醫(yī)生:小事引發(fā)災(zāi)難性后果

大風(fēng)新聞
2026-04-19 10:14:13
隨著41歲C羅破門+利雅得勝利4-0,亞冠二級(jí)4強(qiáng)已誕生3席

隨著41歲C羅破門+利雅得勝利4-0,亞冠二級(jí)4強(qiáng)已誕生3席

側(cè)身凌空斬
2026-04-20 00:01:29
2026-04-20 09:08:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12795文章數(shù) 142632關(guān)注度
往期回顧 全部

科技要聞

藍(lán)色起源一級(jí)火箭完美回收 客戶衛(wèi)星未入軌

頭條要聞

牛彈琴:美國(guó)向伊朗貨輪開火并將其控制 該伊朗發(fā)飆了

頭條要聞

牛彈琴:美國(guó)向伊朗貨輪開火并將其控制 該伊朗發(fā)飆了

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂(lè)要聞

何潤(rùn)東漲粉百萬(wàn)!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

月之暗面IPO迷局

汽車要聞

29分鐘大定破萬(wàn) 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

教育
健康
房產(chǎn)
時(shí)尚
軍事航空

教育要聞

辛集千余名少年逐夢(mèng)田徑賽場(chǎng)盡展青春力量

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

房產(chǎn)要聞

官宣簽約最強(qiáng)城更!海口樓市,突然殺入神秘房企!

今年最流行的衣服竟然是它?高級(jí)又氣質(zhì)!

軍事要聞

特朗普:美艦向伊朗貨船開火炸出個(gè)洞

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版