国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Shop-R1: 給AI補上「內(nèi)心戲」,在RL博弈中復刻人類網(wǎng)購腦

0
分享至



某電商平臺上,一名用戶反復對比三款降噪耳機的評價、續(xù)航與材質(zhì)。這購物決策背后藏著預算、參數(shù)對比與審美偏好的博弈。但在 AI 智能體(Agent)的世界里,這種糾結往往不存在。傳統(tǒng)的 AI 購物助手更像是一個任務完成機器:接到指令,搜索,下單。他們或許能跑通流程,卻完全無法理解用戶為何在最后一刻因為一條關于 “夾耳朵” 的差評而放棄支付。簡而言之,傳統(tǒng)的電商 Agent 只是任務導向的(task-oriented),而不是模擬導向的(simulation-oriented)。為此,來自亞馬遜(Amazon)的研究團隊提出了名為 Shop-R1 的訓練框架 。



  • 論文標題:Shop-R1: Rewarding LLMs to Simulate Human Behavior in Online Shopping via Reinforcement Learning
  • 論文地址: https://arxiv.org/abs/2507.17842
  • 項目主頁:https://damon-demon.github.io/shop-r1.html
  • 代碼和數(shù)據(jù):公司法務審核中... (Coming Soon!)

Shop-R1:從 “指令執(zhí)行” 到 “行為復刻”

在傳統(tǒng)的電商 AI 研究中,衡量標準往往是單一的成功率。然而,真實世界的網(wǎng)購環(huán)境是一個充滿噪聲、促銷陷阱與主觀偏好的動態(tài)迷宮。研究團隊觀察到,這種 “黑盒式” 的任務導向模型在面對復雜環(huán)境時,往往會產(chǎn)生邏輯斷層:它們可能因為偶然的網(wǎng)頁跳轉完成了任務,卻完全偏離了真實人類的消費習慣。

Shop-R1 的核心野心,是實現(xiàn)從 “任務完成” 到 “行為模擬” 的范式轉移。對于模擬導向的購物 Agent,它的終極挑戰(zhàn)在于:它需實時解構歷史瀏覽鏈路與當前的交互細節(jié),從而在動態(tài)的上千種可能的操作中精準預測用戶在當前頁面維度的下一步操作。為了復刻決策過程,Shop-R1 將復雜的網(wǎng)購過程中的行為歸納為三類動作:

  • 打字輸入(Type)
  • 點擊(Click)
  • 終結(Terminate)



模型以用戶過往瀏覽頁面及對應操作作為輸入,并以結構化的 JSON 形式輸出對用戶下一步動作(Action)的預測以及其背后的推理邏輯(Rationale)。



Shop-R1 采用雙階段訓練范式:首先通過監(jiān)督微調(diào)(SFT)實現(xiàn)行為基準的 “冷啟動”;隨后在強化學習(RL)階段,利用多層級獎勵機制(Hierarchical Rewards)驅動深度迭代,旨在提升模型在復雜動態(tài)環(huán)境下的邏輯推理與泛化表現(xiàn)。



第一階段:SFT 冷啟動

這種監(jiān)督式初始化(supervised initialization)在訓練流程的早期階段發(fā)揮了關鍵作用,它幫助模型盡早內(nèi)化上下文(context)、推理過程(rationale)與動作(action)之間的結構性依賴關系。通過在一開始就讓模型建立這些模式,進而顯著提升了后續(xù)強化學習(RL)階段的穩(wěn)定性和樣本效率。更重要的是,這種方法為什么樣的長文本輸出才算高質(zhì)量提供了明確的信號,例如正確命名被點擊的按鈕或給出有意義的搜索查詢。而這些能力如果僅依賴強化學習往往難以獲得,尤其是在獎勵信號稀疏且延遲的情況下。

第二階段:多層級獎勵的強化學習

為了在人類行為模擬(human behavior simulation)場景中更好地引導策略優(yōu)化,每一步?jīng)Q策被拆分為兩個子任務:rationale 生成和 action 預測。針對每個子任務,分別設計了專門的獎勵函數(shù),以提升模型的對齊性(alignment)和可解釋性(interpretability)。

1)二值格式獎勵(Binary Format Reward)

為了保證能夠方便且正確地從模型輸出中解析出預測的 rationale 和 action,引入了二值格式獎勵,鼓勵模型以結構化 JSON 格式生成響應。該格式遵循一個字典結構,包含兩個鍵:rationale 和 action。

2)推理獎勵 (Rational Reward)

對于 rationale 生成,采用 self-certainty score,用于衡量模型對其生成 rationale 的置信程度。具體而言,我們計算模型在詞表上的預測分布與均勻分布之間的 KL 散度,并在整個輸出序列上取平均。

3)層級式動作獎勵 (Hierarchical Action Reward)

對于 action 預測,我們用一種層級式獎勵機制(hierarchical reward scheme)替代了原本脆弱的二值獎勵信號。該機制同時對粗粒度的動作類型細粒度的子動作給予獎勵,從而穩(wěn)定訓練過程,并抑制退化的reward hacking策略。這種層級獎勵機制使得獎勵空間更加稠密(densify the reward landscape):它擴大了能夠獲得正收益的軌跡集合,使智能體能夠擺脫在策略搜索過程中常見的“無獎勵平臺(no-reward plateau)”,同時也使得 reward hacking 的收益變得不再劃算。

具體而言,一旦高層動作類型預測正確,無論該動作是簡單還是復雜,都可以獲得相同的粗粒度獎勵;而只有較復雜的動作,才可以通過其長文本子組件(sub-actions)進一步獲得額外獎勵。因此,簡單地反復執(zhí)行 “terminate” 這一簡單動作將不再具有競爭性的回報,而完整執(zhí)行 (“click”, “type_and_submit”) 等動作序列則成為收益最高的策略。比如,“click” 動作包含一個子動作,用于指定需要點擊的按鈕名稱;只要子組件預測正確,模型即可獲得部分獎勵。類似地,“type_and_submit” 也包含子動作,用于提供需要輸入并提交的文本內(nèi)容。相比之下,“terminate” 不包含任何子動作,因此僅在動作類型層級進行評分。

在評估預測準確度時,我們采用任務特定的指標:

  • 對于離散的動作類型,使用exact match(完全匹配)作為判定標準;
  • 對于自由文本形式的子動作,則使用ROUGE-L進行評估。
  • 對于文本型子動作(例如按鈕標簽或搜索查詢),當其與真實答案之間的 ROUGE-L 相似度超過預設閾值(例如 0.75)時,將根據(jù)相似度大小給予相應的軟獎勵(soft reward)。

4)難度感知獎勵縮放因子(Difficulty-Aware Reward Scaling, DARS)

由于長文本子動作預測難度較高 (現(xiàn)代網(wǎng)頁可能包含數(shù)千個候選元素)我們進一步引入了DARS,對正確預測這些組件的獎勵進行放大。該機制可以有效防止一種常見的 reward hacking 行為:智能體不斷選擇簡單的 “terminate” 動作來獲取容易的獎勵。



實驗結果

如表格所示,直接使用 zero-shot 提示幾乎無法完成該任務,Qwen-2.5-3B-Instruct 的 exact-action 準確率僅 0.32%,說明長序列網(wǎng)頁行為無法僅靠通用指令能力恢復。僅使用 稀疏二值獎勵的強化學習同樣效果有限,從零訓練僅達到 1.01% exact-match 和 6.17% type accuracy。

相比之下,一輪 監(jiān)督微調(diào)(SFT)可以顯著提升性能(16.76% exact-match,22.25% type accuracy),表明密集的示例軌跡對于學習 context → rationale → action 的結構非常關鍵。但在 SFT 之后繼續(xù)使用二值獎勵 RL 提升有限。而 Shop-R1 通過結合層級獎勵、self-certainty 信號、格式獎勵以及難度感知獎勵縮放,將 exact-action accuracy 提升至 27.72%(相對 僅 SFT 提升 65%),同時顯著提升動作類型指標,表明模型不僅更容易識別正確意圖,也能更準確生成按鈕名稱或搜索查詢等長文本參數(shù)。



未來展望:視覺感官與性格派 AI

Shop-R1 的出現(xiàn)僅僅揭開了電商 Agent 進化史的一角,未來的突破點將集中在感官增強與個性化模擬上。

引入視覺語言模型(VLM)[1] 將是下一場進化的重頭戲?,F(xiàn)有的 Agent 高度依賴 HTML 代碼,但人類網(wǎng)購時,往往會被一張富有氛圍感的頭圖擊中,或通過買家秀實拍圖的細節(jié)來判斷質(zhì)感。賦予 AI “看” 的能力,意味著它能捕捉到那些無法被文本描述的隱含情緒。

更具顛覆性的構想在于“性格化” (Character Injection)[2]。通過調(diào)整強化學習的獎勵權重,研究人員可以賦予 AI 不同的消費畫像:

  • “極致性價比黨”:會自動過濾所有冗余配件,在預算邊緣反復橫跳以尋找最優(yōu)解。
  • “精致參數(shù)控”:會花費 80% 的權重分析硬件指標與差評,而非廣告推薦。
  • “顏值正義者”:視覺美感將成為其最高決策優(yōu)先級。

這種多樣化的智能體矩陣,將使 AI 能夠復刻出真實世界中 “千人千面” 的消費心理。

結語:電商的 “購物模擬器”

Shop-R1 的落地價值,遠不止于幫用戶省下對比時間。對于電商巨頭而言,它更像是一個低成本、高保真的 “虛擬 A/B 測試” 環(huán)境。在傳統(tǒng)的運營邏輯中,測試一個新的推薦算法或頁面布局,往往需要真實的流量和真金白銀的補貼。而擁有了 Shop-R1 這樣具備 “人類邏輯” 的模擬導向智能體,平臺可以在實驗室環(huán)境中投喂數(shù)萬個 “AI 購物者”,觀察它們在面對價格波動、界面改版時的實時反饋。這不再是一個簡單的對話框,而是一個深刻理解人類欲望與權衡的購物模擬器。當 AI 開始學會解構那些復雜的瀏覽鏈路,并精準預測下一秒的操作時,人類與算法之間的博弈,才真正進入了認知的深水區(qū)。

參考文獻:

[1] Zhang Y, Gesi J, Xue R, et al. See, Think, Act: Online Shopper Behavior Simulation with VLM Agents [J]. arXiv preprint arXiv:2510.19245, 2025.

[2] Wang Z, Lu Y, Zhang Y, et al. Customer-R1: Personalized simulation of human behaviors via RL-based LLM agent in online shopping [J]. arXiv preprint arXiv:2510.07230, 2025.

第一作者介紹:

張益萌,現(xiàn)任 Amazon Applied Scientist,研究方向為生成式 AI、AI Agent 與多模態(tài)智能體。2025 年于 Michigan State University 獲計算機科學博士學位,曾為 OPTML 實驗室成員,導師為劉思佳副教授。曾就讀于 Columbia University 與 University of Sheffield。其研究關注高效機器學習、模型魯棒性與安全,涵蓋 LLM、擴散模型和對抗學習等領域,在 CVPR、NeurIPS、ICLR、ICML 等國際會議發(fā)表多篇論文。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
沙特:若對伊開戰(zhàn)將啟動巴基斯坦核保護傘

沙特:若對伊開戰(zhàn)將啟動巴基斯坦核保護傘

Nee看
2026-03-25 19:07:00
特朗普殺了他全家!他會當伊朗張學良嗎?

特朗普殺了他全家!他會當伊朗張學良嗎?

烏鴉校尉
2026-03-25 18:19:47
馬筱梅眼含淚水回應!買房真因不是自私,汪小菲第一次和張?zhí)m同隊

馬筱梅眼含淚水回應!買房真因不是自私,汪小菲第一次和張?zhí)m同隊

潮鹿逐夢
2026-03-24 13:13:55
研究所所長猥褻下屬后續(xù),女主多張高清照曝光,知情人再爆料

研究所所長猥褻下屬后續(xù),女主多張高清照曝光,知情人再爆料

觀察鑒娛
2026-03-26 09:25:28
不得不說,面相真的能看出一個人的路子。停播快兩個月的李亞鵬,

不得不說,面相真的能看出一個人的路子。停播快兩個月的李亞鵬,

小光侃娛樂
2026-03-26 17:05:03
為什么只有革命衛(wèi)隊與美以干,而伊朗40萬國防軍沉默觀戰(zhàn)?

為什么只有革命衛(wèi)隊與美以干,而伊朗40萬國防軍沉默觀戰(zhàn)?

廖保平
2026-03-17 09:04:38
連蔡依林都在玩,“雪山救狐貍”到底是什么梗?對話視頻原創(chuàng)作者:最初只是為了賣醬板鴨,特意設置反轉劇情,沒想到會這么火

連蔡依林都在玩,“雪山救狐貍”到底是什么梗?對話視頻原創(chuàng)作者:最初只是為了賣醬板鴨,特意設置反轉劇情,沒想到會這么火

極目新聞
2026-03-25 19:37:57
露出了狐貍尾巴?朱立倫主動邀約國民黨“立委”,或為逼宮鄭麗文

露出了狐貍尾巴?朱立倫主動邀約國民黨“立委”,或為逼宮鄭麗文

承受之重
2026-03-25 12:45:53
1981年,彭真獄中見江青,江青出言不遜提出:我要見華國鋒鄧小平

1981年,彭真獄中見江青,江青出言不遜提出:我要見華國鋒鄧小平

微野談寫作
2026-01-27 06:00:03
人情薄如紙!丈夫住院100天沒人探望,出院當天大伯突然打來電話

人情薄如紙!丈夫住院100天沒人探望,出院當天大伯突然打來電話

水泥土的搞笑
2026-03-26 17:37:27
15戰(zhàn)14勝,加時掀翻東部第一!新鷹王27+8+12證明賤賣特雷楊有理

15戰(zhàn)14勝,加時掀翻東部第一!新鷹王27+8+12證明賤賣特雷楊有理

鍋子籃球
2026-03-26 11:25:55
充電樁市場價格戰(zhàn)慘烈!每度電服務費收三毛 利潤只有4分錢

充電樁市場價格戰(zhàn)慘烈!每度電服務費收三毛 利潤只有4分錢

快科技
2026-03-24 00:22:40
江蘇擬建一條過江通道,或將再破“世界紀錄”

江蘇擬建一條過江通道,或將再破“世界紀錄”

水泥土的搞笑
2026-03-26 14:04:59
到底是誰讓馬景濤穿這身衣服的?簡直是災難現(xiàn)場!

到底是誰讓馬景濤穿這身衣服的?簡直是災難現(xiàn)場!

西樓知趣雜談
2026-03-25 23:41:24
美軍發(fā)布戰(zhàn)果,摧毀中國產(chǎn)戰(zhàn)機,伊朗空軍損失殆盡

美軍發(fā)布戰(zhàn)果,摧毀中國產(chǎn)戰(zhàn)機,伊朗空軍損失殆盡

愛吃醋的貓咪
2026-03-22 22:29:08
利空突襲,全線殺跌!

利空突襲,全線殺跌!

中國基金報
2026-03-26 13:16:51
周杰倫的INS被網(wǎng)友沖爆,新歌MV里手表調(diào)到“83”,疑用舊戀情炒作賣新唱片

周杰倫的INS被網(wǎng)友沖爆,新歌MV里手表調(diào)到“83”,疑用舊戀情炒作賣新唱片

回旋鏢
2026-03-25 20:38:44
延壽9年,心臟病風險降60%!悉尼大學最新:飲食、睡眠、運動最佳組合出爐,小改變也大有益

延壽9年,心臟病風險降60%!悉尼大學最新:飲食、睡眠、運動最佳組合出爐,小改變也大有益

醫(yī)諾維
2026-03-24 17:02:18
廣東:力爭到2026年底 建成50個以上特色鮮明、功能突出的生產(chǎn)性服務業(yè)集聚區(qū)

廣東:力爭到2026年底 建成50個以上特色鮮明、功能突出的生產(chǎn)性服務業(yè)集聚區(qū)

財聯(lián)社
2026-03-26 10:15:09
中國軍事專家送日本3句話,太絕了,真不是嚇唬他們

中國軍事專家送日本3句話,太絕了,真不是嚇唬他們

安安說
2026-03-26 11:21:19
2026-03-26 20:03:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12606文章數(shù) 142594關注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權,700名員工卻下崗

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

本地
房產(chǎn)
游戲
健康
公開課

本地新聞

救命,這只醬板鴨已經(jīng)在我手機復仇了一萬遍

房產(chǎn)要聞

突發(fā),三亞又有大批征遷補償方案出爐!

《迷你金屬2》4月開啟開發(fā)版測試 軍事題材戰(zhàn)略模擬

轉頭就暈的耳石癥,能開車上班嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版