国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

生成式推理再排序,可能會(huì)是LLM4RecSys的新突破口嗎?

0
分享至



大模型(LLM)的世界知識(shí)和推理能力是實(shí)現(xiàn)下一代推薦系統(tǒng),即基于大模型的推薦系統(tǒng)(LLM4Recsys)的重要基石。來(lái)自meta ai的研究者們嘗試將推理模型引入再排序階段,推薦系統(tǒng)的最后一環(huán)。

推薦系統(tǒng)需要推理模型嗎?

深度學(xué)習(xí)成為推薦系統(tǒng)的標(biāo)準(zhǔn)范式已經(jīng)有十年左右的歷史。RNN/Transformer/GNN等模型在用戶交互數(shù)據(jù)上的性能已經(jīng)被開發(fā)得非常接近飽和。正如近些年大語(yǔ)言模型,尤其是推理模型在通用任務(wù)上的優(yōu)異性能所揭示得,讓推薦系統(tǒng)先思考再做出決定或許可以再次突破現(xiàn)有框架的性能上限;同時(shí),還能為推薦的結(jié)果提供一定的可解釋性。

論文通過(guò)監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)來(lái)賦予通用推理模型在序列推薦任務(wù)上的推理能力。提出的訓(xùn)練策略最終超過(guò)了LLM4Recsys標(biāo)桿,OneRec-Think;提升了約2.4%Recall@5和約1.3%NDCG@5。





●論文標(biāo)題:

Generative Reasoning Re-ranker

●論文地址:

https://arxiv.org/pdf/2602.07774

中期訓(xùn)練,內(nèi)化物品的語(yǔ)意ID

語(yǔ)意ID(semantic ID,SID)已經(jīng)成為基于序列模型的推薦系統(tǒng)的標(biāo)準(zhǔn)技術(shù)之一,它的核心想法是通過(guò)多層次的聚類來(lái)賦予物品從粗到細(xì)粒度的標(biāo)簽。常用的模型一般有Residual-Quantized Variational Autoencoder(RQ-VAE)和RQ-Kmeans;這篇論文使用的是RQ-VAE,并且基于常規(guī)的對(duì)比學(xué)習(xí)損失函數(shù)。同時(shí),為了防止碼本坍縮,即有多個(gè)物品會(huì)被同時(shí)映射到一個(gè)SID的情況,本文采用了成熟的處理方案,用RQ-Kmeans先做初始化,結(jié)合EMA平滑更新字典,重置死碼本,加入多樣性損失函數(shù),并且對(duì)最后一至兩位SID賦予隨機(jī)整數(shù)。

本文的中期訓(xùn)練采用的策略和OneRec-Think保持一致,將生成的SID混入自然語(yǔ)言組成的物品描述、物品預(yù)測(cè)等一系列任務(wù)中,去最小化next token prediction loss以優(yōu)化SID的embedding來(lái)內(nèi)化物品的本身語(yǔ)意。

推理路徑的生成

推理路徑(Reasoning trace)的生成是本文的核心技術(shù)之一。預(yù)訓(xùn)練的推理模型并不具有(很強(qiáng)的)對(duì)物品序列的推理和解釋能力,尤其是考慮到在現(xiàn)實(shí)場(chǎng)景中需要實(shí)際部署時(shí)受限于延遲限制,LLM的體量有限,例如僅僅能支持最大8B。

論文的核心想法是將大體量的LLM(比如32B模型)的推理能力蒸餾給小體量的LLM:即大LLM產(chǎn)生高質(zhì)量的推理路徑,再讓小LLM去學(xué)習(xí)以增強(qiáng)其在推薦場(chǎng)景下的推理能力。目標(biāo)采樣(target sampling)和拒絕采樣(reject sampling)兩種技術(shù)被使用了:



目標(biāo)采樣的核心想法就是把交互歷史和下一個(gè)真實(shí)交互物品的信息都交給LLM以生成解釋。該解釋就被作為reasoning trace。



拒絕采樣則是只將交互歷史提供給LLM以預(yù)測(cè)下一個(gè)交互的物品以及生成解釋。一旦預(yù)測(cè)的結(jié)果和數(shù)據(jù)集的標(biāo)準(zhǔn)答案(ground truth)不一致,則繼續(xù)重復(fù)推理直到答對(duì)或者達(dá)到設(shè)定的最多重復(fù)推理次數(shù)。

這兩種推理路徑的生成方式各有優(yōu)劣:

  • 目標(biāo)采樣對(duì)每一個(gè)樣本只需要推理一次,但是LLM可能會(huì)“牽強(qiáng)附會(huì)”,做“馬后炮”式的解釋。
  • 拒絕采樣生成的reasoning trace一般質(zhì)量更高,因?yàn)殄e(cuò)誤的reasoning trace很可能沒(méi)法引導(dǎo)出正確的答案,而采樣過(guò)程又會(huì)一直持續(xù)到得到正確的答案為止。缺點(diǎn)也很顯然,對(duì)單一樣本需要多次推理,尤其是一些難的樣本。

推理賦能的再排序階段

開頭提過(guò),論文重點(diǎn)關(guān)注再排序(re-ranking)階段。該階段在常規(guī)業(yè)界推薦漏斗中位于最后一環(huán),以檢索(retrieval)和排序(ranking)階段的輸出作為輸入。作為學(xué)術(shù)研究,為了保持整個(gè)pipeline簡(jiǎn)潔,論文將LLM本身預(yù)先作為retriever,輸入交互歷史,預(yù)測(cè)下一個(gè)最有可能的物品,采用beam search生成排序過(guò)的候選列表。再將該候選列表和交互歷史一同輸入LLM去做重排序。

為了賦于小體量LLM(比如8B)完整的貼合推薦場(chǎng)景的推理能力,上一步生成的推理路徑先通過(guò)SFT手把手教給模型,這一步可以保證LLM的推理能力的下限。



為了進(jìn)一步提高模型的推理能力,強(qiáng)化學(xué)習(xí)配合推薦場(chǎng)景設(shè)計(jì)的reward在本文中被使用。在再排序場(chǎng)景下,顯然,目標(biāo)物品的排序被模型提升的越多,模型的表現(xiàn)越好;這就是排序獎(jiǎng)勵(lì)



它測(cè)量的是經(jīng)過(guò)模型重排序以后目標(biāo)物品的排位變化。

另一種常見(jiàn)的獎(jiǎng)勵(lì)則是格式獎(jiǎng)勵(lì),即LLM的輸出還是保持著reasoning trace加最終答案,即排序過(guò)的列表,的理想格式。然而,簡(jiǎn)單地將格式獎(jiǎng)勵(lì)和任務(wù)相關(guān)的排序獎(jiǎng)勵(lì)加和成最終獎(jiǎng)勵(lì)在再排序任務(wù)中不可行,原因是預(yù)排序的候選列表是作為模型輸入的,模型可以通過(guò)完全不改變候選列表來(lái)放棄排序獎(jiǎng)勵(lì),而單純hack格式獎(jiǎng)勵(lì)?;诖耍罱K的格式獎(jiǎng)勵(lì)被設(shè)計(jì)成只有排序獎(jiǎng)勵(lì)為正的時(shí)候才會(huì)被考慮。該獎(jiǎng)勵(lì)被嵌入在DAPO優(yōu)化框架中去更新LLM的參數(shù)。



重排序的提升空間

論文的最重要實(shí)驗(yàn)結(jié)果披露出,重排序階段引入推理能力,尤其是通過(guò)強(qiáng)化學(xué)習(xí)增強(qiáng),可以進(jìn)一步提升性能上限。具體實(shí)驗(yàn)對(duì)比了(1)該模型的預(yù)排序結(jié)果(Pre-rank),(2)僅依靠SFT訓(xùn)練過(guò)得排序結(jié)果,和(3)強(qiáng)化學(xué)習(xí)進(jìn)一步增強(qiáng)過(guò)的排序結(jié)果:



有一些有趣的發(fā)現(xiàn):

  • SFT可以給模型一定的推理能力,但是單單依靠SFT可能會(huì)傷害模型最終的準(zhǔn)確度。
  • 沒(méi)有SFT直接通過(guò)強(qiáng)化學(xué)習(xí)(RL-zeroshot)并不能直接帶來(lái)顯著性能提升。
  • 拒絕采樣相比目標(biāo)采樣能獲得更高質(zhì)量的推理路徑。

下一步?

這篇論文的有趣之處在于,它不僅僅提供了~2%的Recall性能提升,而是提供了一種新的范式:模型不再是去單純擬合交互的概率分布,而是去擬合推理路徑和交互的聯(lián)合分布。

同時(shí)也不可否認(rèn)的是,重排序階段是應(yīng)用推理模型的好場(chǎng)所,因?yàn)樵撾A段剩下的候選物品是整個(gè)推薦漏斗中最少的了。模型在給予候選集的情況下逐一比較、推理,符合人類的思維流程。

那么,在檢索和排序階段,候選集大小成千上萬(wàn)的情況下,如何有效率地進(jìn)行超大規(guī)模的候選集篩選?如何把海量的候選集有效率地塞入推理模型有限的輸入窗口?如何控制昂貴的推理成本?如何滿足用戶體驗(yàn)所需要的超低時(shí)限?此外,現(xiàn)有策略也依賴拒絕采樣生成的高質(zhì)量推理路徑,這在候選集超大的情況下所需要的重采樣次數(shù)將完全不可接受,樣本的效率將成為訓(xùn)練成敗的關(guān)鍵因素。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
和兒子微信聊天的“媽媽”其實(shí)是殺人嫌犯!裝修工強(qiáng)奸未遂殺害女子,用她手機(jī)欺騙家屬

和兒子微信聊天的“媽媽”其實(shí)是殺人嫌犯!裝修工強(qiáng)奸未遂殺害女子,用她手機(jī)欺騙家屬

瀟湘晨報(bào)
2026-04-08 12:05:19
鄭麗文上海直言:大陸發(fā)達(dá)程度超乎認(rèn)知,統(tǒng)一是臺(tái)灣唯一正道

鄭麗文上海直言:大陸發(fā)達(dá)程度超乎認(rèn)知,統(tǒng)一是臺(tái)灣唯一正道

果媽聊娛樂(lè)
2026-04-08 09:29:44
中俄反對(duì)涉霍爾木茲海峽決議草案,草案未獲通過(guò);伊朗代表:感謝中俄!

中俄反對(duì)涉霍爾木茲海峽決議草案,草案未獲通過(guò);伊朗代表:感謝中俄!

大風(fēng)新聞
2026-04-08 11:03:05
監(jiān)控系統(tǒng)出現(xiàn)漏洞,300多人 被帶走?海康威視回應(yīng)

監(jiān)控系統(tǒng)出現(xiàn)漏洞,300多人 被帶走???低暬貞?yīng)

每日經(jīng)濟(jì)新聞
2026-04-07 15:06:19
女子孕期收到丈夫和其他女性的不雅照,才得知他有4個(gè)微信、6個(gè)手機(jī)號(hào)!更過(guò)分的是,男方一家人還藏匿孩子…民警已介入

女子孕期收到丈夫和其他女性的不雅照,才得知他有4個(gè)微信、6個(gè)手機(jī)號(hào)!更過(guò)分的是,男方一家人還藏匿孩子…民警已介入

大風(fēng)新聞
2026-04-08 12:27:03
隱藏38億年!人類首次捕捉到月球東方海,宇航員:完全超乎想象

隱藏38億年!人類首次捕捉到月球東方海,宇航員:完全超乎想象

大衛(wèi)聊科技
2026-04-07 12:57:55
特朗普的一個(gè)更大麻煩,來(lái)了……

特朗普的一個(gè)更大麻煩,來(lái)了……

補(bǔ)壹刀
2026-04-08 09:45:35
以軍總參謀長(zhǎng):將加大對(duì)伊朗的打擊力度

以軍總參謀長(zhǎng):將加大對(duì)伊朗的打擊力度

財(cái)聯(lián)社
2026-04-08 00:20:12
鄭麗文剛抵滬,沉默8天的賴清德重申愿和大陸交流,但有一個(gè)前提

鄭麗文剛抵滬,沉默8天的賴清德重申愿和大陸交流,但有一個(gè)前提

李健政觀察
2026-04-07 18:22:06
為了鄭麗文專機(jī)能順利落地,解放軍果斷亮出底牌,痛擊臺(tái)獨(dú)要害

為了鄭麗文專機(jī)能順利落地,解放軍果斷亮出底牌,痛擊臺(tái)獨(dú)要害

Ck的蜜糖
2026-04-08 12:06:23
549億遺產(chǎn)稅后李在镕獨(dú)贏,三星再無(wú)“長(zhǎng)公主”

549億遺產(chǎn)稅后李在镕獨(dú)贏,三星再無(wú)“長(zhǎng)公主”

和訊網(wǎng)
2026-04-08 10:42:20
快訊!典型的不識(shí)時(shí)務(wù)者——侯友宜!

快訊!典型的不識(shí)時(shí)務(wù)者——侯友宜!

達(dá)文西看世界
2026-04-08 10:55:48
原來(lái)陳麗華長(zhǎng)子是他,北大畢業(yè),31歲接手家業(yè),他才是富華掌舵人

原來(lái)陳麗華長(zhǎng)子是他,北大畢業(yè),31歲接手家業(yè),他才是富華掌舵人

冷紫葉
2026-04-07 15:26:07
日本餐飲巨頭食其家創(chuàng)始人心梗去世,終年77歲

日本餐飲巨頭食其家創(chuàng)始人心梗去世,終年77歲

紅星新聞
2026-04-07 13:24:07
嫁82歲第二富豪,生倆娃住8億別墅,她比鄧文迪高明穩(wěn)坐第6把交椅

嫁82歲第二富豪,生倆娃住8億別墅,她比鄧文迪高明穩(wěn)坐第6把交椅

凡知
2026-04-07 22:27:06
停火、談判、通航,“最后期限”之際的伊朗戰(zhàn)事最新進(jìn)展

?;?、談判、通航,“最后期限”之際的伊朗戰(zhàn)事最新進(jìn)展

極目新聞
2026-04-08 08:36:22
RIP!羅馬尼亞80歲老帥因病去世:12天前率隊(duì)無(wú)緣世界杯 氣暈住院

RIP!羅馬尼亞80歲老帥因病去世:12天前率隊(duì)無(wú)緣世界杯 氣暈住院

風(fēng)過(guò)鄉(xiāng)
2026-04-08 04:55:06
美國(guó)完全陷入中國(guó)的圈套!紐約時(shí)報(bào):特朗普正在領(lǐng)導(dǎo)超級(jí)大國(guó)自殺

美國(guó)完全陷入中國(guó)的圈套!紐約時(shí)報(bào):特朗普正在領(lǐng)導(dǎo)超級(jí)大國(guó)自殺

混沌錄
2026-04-07 22:00:06
長(zhǎng)汀車輛墜河5人死亡事件真相曝光:老公喝了酒,讓第一次摸車的老婆開……

長(zhǎng)汀車輛墜河5人死亡事件真相曝光:老公喝了酒,讓第一次摸車的老婆開……

貼小君
2026-04-08 07:57:37
此人屠殺百萬(wàn)民眾,卻被專家吹捧為千古完人、民族英雄,實(shí)在可笑

此人屠殺百萬(wàn)民眾,卻被專家吹捧為千古完人、民族英雄,實(shí)在可笑

長(zhǎng)風(fēng)文史
2026-04-07 20:53:07
2026-04-08 14:24:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12709文章數(shù) 142618關(guān)注度
往期回顧 全部

科技要聞

造出地表最強(qiáng)AI,卻死活不給你用!

頭條要聞

裝修工強(qiáng)奸未遂殺雇主 死者兒子跟"媽"聊天發(fā)現(xiàn)不對(duì)勁

頭條要聞

裝修工強(qiáng)奸未遂殺雇主 死者兒子跟"媽"聊天發(fā)現(xiàn)不對(duì)勁

體育要聞

皇馬1.5億巨星浪費(fèi)超級(jí)單刀 丟球攤手抱怨

娛樂(lè)要聞

楊穎鄧超低調(diào)現(xiàn)身觀眾席 支持陳赫話劇

財(cái)經(jīng)要聞

特朗普同意?;饍芍?伊朗:接受?;鹛嶙h

汽車要聞

5門5座/新復(fù)古造型 繽果Pro將于4月14日開啟預(yù)售

態(tài)度原創(chuàng)

親子
游戲
本地
時(shí)尚
公開課

親子要聞

我會(huì)多種動(dòng)物語(yǔ)言!

國(guó)產(chǎn)新高度!實(shí)機(jī)展示“絲襪”質(zhì)感 還能拉扯?

本地新聞

跟著歌聲游安徽,聽古村回響

闊腿褲失寵了?今年這幾條褲子最時(shí)髦!

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版