国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Scaling Law 仍然成立,企業(yè)搜廣推怎么做才能少踩“坑”?

0
分享至


作者 | AICon 全球人工智能開發(fā)與應(yīng)用大會

策劃 | 羅燕珊

編輯 | 宇琪

當(dāng)大模型從通用技術(shù)探索深入產(chǎn)業(yè)場景,搜索、廣告與推薦系統(tǒng)作為連接用戶需求與業(yè)務(wù)價值的核心鏈路,正迎來全鏈路智能重構(gòu)。那么,生成式推薦真正落地后的關(guān)鍵挑戰(zhàn)是什么?又應(yīng)該如何解決?

近日 InfoQ《極客有約》X AICon 直播欄目特別邀請了京東內(nèi)容推薦架構(gòu)負責(zé)人顏林擔(dān)任主持人,和榮耀 AI 算法專家馮曉東、京東算法總監(jiān)張澤華、中科大計算機學(xué)院副教授王皓一起,在AICon全球人工智能開發(fā)與應(yīng)用大會2025 北京站即將召開之際,共同探討生成式推薦的落地洞察。

部分精彩觀點如下:

  • 行業(yè)真正做到端到端的統(tǒng)一 pipeline 仍有較大差距,更多工作還是在 pipeline 的單點與大模型結(jié)合。

  • 搜廣推場景中的 scaling law 依然成立,并且仍在快速上升階段。

  • 低價值場景用小模型覆蓋,高價值場景用大模型爭取額外收益。

  • 不應(yīng)拘泥于某項技術(shù)是否是主流,也不必期待每次都帶來爆發(fā)式收益,所有革命性進展都是逐步積累而成的。


完整直播回放可查看:
https://www.infoq.cn/video/0ViWrdqyQwNvO7TdQpyD

以下內(nèi)容基于直播速記整理,經(jīng) InfoQ 刪減。

1 大模型改變了搜廣推了什么?

顏林:在各位負責(zé)的業(yè)務(wù)里,如果只用一句話概括:大模型真正改變的是搜廣推系統(tǒng)的哪一塊?能否結(jié)合一個典型場景簡單對比一下以前和現(xiàn)在的做法?

馮曉東:目前變化最大的環(huán)節(jié)在于特征工程,因為我們現(xiàn)階段的線上模型尚未完全接入生成式模型,而是主要利用大語言模型,為特征構(gòu)建提供更豐富的補充。

以廣告業(yè)務(wù)為例,我們擁有大量廣告素材,需要從中提取合適的特征。過去一年我們嘗試了多種多模態(tài)大模型,用于生成標(biāo)簽化特征,甚至獲取向量化的語義特征。特征挖掘一直是搜廣推領(lǐng)域的痛點,同時也是提升效果的關(guān)鍵。大模型在大量開源語料上完成預(yù)訓(xùn)練,具備推理能力,不僅能基于用戶歷史行為挖掘特征,也能補充具有推理性質(zhì)的增量知識。

因此,我們在用戶側(cè)嘗試了多項探索,將傳統(tǒng)依賴歷史統(tǒng)計、序列、交叉等方式構(gòu)建的特征統(tǒng)一規(guī)劃為長序列特征,再結(jié)合大語言模型或生成式推薦的序列建模能力,離線提取用戶偏好或向量化表示。通過這種方式,我們預(yù)計能在很大程度上解決特征工程中的瓶頸,同時減少線上模型對統(tǒng)計類、交叉類特征的依賴,從而提升推理效率。

王皓:從學(xué)術(shù)界的角度來說,過去一年,我們持續(xù)關(guān)注如何讓模型規(guī)模擴大并具備可擴展性(scaling)。我們發(fā)現(xiàn),模型能否真正實現(xiàn) scaling,很大程度取決于數(shù)據(jù)的質(zhì)量、配比以及整體準(zhǔn)備情況。在不同任務(wù)下,只要數(shù)據(jù)質(zhì)量與結(jié)構(gòu)設(shè)置得當(dāng),模型做大做深后往往都能呈現(xiàn)出良好的 scaling 能力。

但從高校環(huán)境來看,算力受限,使得許多工程化方案較難落地。因此,學(xué)界近年來更加關(guān)注如何在有限算力下讓模型訓(xùn)練得更長、序列更長、行為信息更豐富,或者探索更輕量化的 attention 機制,以提升長序列計算效率。同時,推薦系統(tǒng)是否能夠在推理層面具備更強的 reasoning 能力,也是正在探索的方向。當(dāng)前大部分研究仍基于傳統(tǒng)的 HSTU 路線,但未來是否繼續(xù)沿用或需要回到既有路徑,學(xué)界也在不斷討論。

張澤華:大模型剛出現(xiàn)時大家非常興奮,但過去一年這種熱情有所回落,核心原因在于:大模型看似“fancy”,但要讓這件“fancy”的事情持續(xù)發(fā)揮價值,需要大量基礎(chǔ)性的“dirty work”。例如,如何清洗數(shù)據(jù)、如何構(gòu)建高質(zhì)量的思維鏈樣本、如何在多模態(tài)場景中實現(xiàn)語義對齊等。這些工作占去了我們大量時間和精力,一旦處理不夠扎實,大模型在搜廣推場景中的實際收益就會受到明顯限制,算力堆得再多也難以發(fā)揮其真正潛力。

因此,我們過去一年最大的體會之一,是從傳統(tǒng)特征工程轉(zhuǎn)向更系統(tǒng)化的數(shù)據(jù)與樣本構(gòu)建方式。這不僅需要新的方法,也需要投入大量人力物力,建立有效的數(shù)據(jù)組織體系,才能真正讓樣本構(gòu)建落地。

2 系統(tǒng)與模型怎么成長?

顏林:在架構(gòu)演進上,大家所在團隊更偏向于在現(xiàn)有 pipeline 上逐步疊加大模型,還是會針對某些環(huán)節(jié)重新設(shè)計新鏈路?這中間有沒有經(jīng)歷過比較激烈的取舍或爭論?

馮曉東:在實際落地中,全面重構(gòu) pipeline 的成本極高,帶來的收益也難以量化,特別是在低價值場景中更是如此。因此,盡管我們會持續(xù)討論生成式架構(gòu)的未來形態(tài),但在真實實驗中,仍是圍繞 pipeline 的某些環(huán)節(jié)逐步探索。例如在特征工程中,我們優(yōu)先思考如何與大模型結(jié)合、如何疊加其能力。第一階段是讓大模型先進行補充;第二階段再嘗試用大模型替代某些環(huán)節(jié);再往后,我們考慮在現(xiàn)有的召回、粗排、精排、重排鏈路中,先替代召回,再進一步替代召回與重排等模塊。這會是一個逐步迭代的過程,但我們依然相信從長期看,顛覆式 pipeline 有機會最終落地。

張澤華:最初我們對大模型非常樂觀,期望能“一步到位”,由模型直接端到端輸出推薦或搜索結(jié)果。以電商搜索為例,我們希望大模型能同時理解用戶 query、上下文信息以及隱性偏好,從而一次性完成檢索。但實際結(jié)果發(fā)現(xiàn),這種端到端方式在多數(shù)場景中不僅無收益,甚至出現(xiàn)負向效果,因此我們開始系統(tǒng)性拆解問題。過去一年中,我和團隊幾乎把召回、粗排、精排、創(chuàng)意機制、計費、出價等所有環(huán)節(jié)逐一拆開,并在每個環(huán)節(jié)單獨驗證收益。

最終驗證發(fā)現(xiàn),大模型能力主要體現(xiàn)在兩個方面:第一是強語義理解,第二是一定程度的推理能力。它們適合的場景,一是傳統(tǒng)算法語義理解較弱的部分;二是具有較長邏輯鏈路的任務(wù)。比如曝光后立即點擊,這類毫秒級反饋鏈路較短,大模型難以發(fā)揮優(yōu)勢;但在電商中,從興趣形成到?jīng)Q策、下單甚至收貨后的行為,這是一條極長鏈路,在這類任務(wù)中,大模型往往能取得明顯收益。

因此,我們內(nèi)部很多爭論都圍繞取舍展開。第一,大模型規(guī)模變大,會大幅增加實時推理成本和算力開銷,而效果提升卻未必成比例。傳統(tǒng)模型幾分鐘或數(shù)小時即可上線驗證,但大模型訓(xùn)練和驗證可能需要周級甚至月級周期,這就引發(fā)了效率與收益之間的矛盾。

第二,大模型需要大量標(biāo)準(zhǔn)化、高質(zhì)量的新樣本,而傳統(tǒng)場景中這類數(shù)據(jù)往往缺失,需要投入巨大的人力物力重新構(gòu)造。一旦標(biāo)注不足或質(zhì)量不穩(wěn),大模型不僅無收益,還可能產(chǎn)生負向效果;但標(biāo)注足夠多時,成本又極高。工業(yè)界必須考慮投入產(chǎn)出比(ROI),而我們也觀察到大模型不僅在參數(shù)規(guī)模上存在 scaling law,在精煉樣本的數(shù)量和質(zhì)量上也呈現(xiàn) scaling 曲線。

王皓:近期大家雖然都在構(gòu)建完整的大模型 pipeline,但深入分析后可以看到,真正被大規(guī)模使用的大模型能力通常集中在個別環(huán)節(jié)。例如做特征交互、生成更豐富的特征;或?qū)⒋竽P腿谌胝倩啬K,以增強召回效果。行業(yè)真正做到端到端的統(tǒng)一 pipeline 仍有較大差距,更多工作還是在 pipeline 的單點與大模型結(jié)合。學(xué)界也是類似的趨勢,主要在各個模塊上做針對性創(chuàng)新,而不是已經(jīng)完全實現(xiàn)一體化的推薦鏈路。目前學(xué)界與業(yè)界都更接近于“多點突破”,而非“全鏈路重構(gòu)”。

顏林:在推薦 / 廣告場景下,如何看待 scaling law?

馮曉東:推薦領(lǐng)域的模型同樣具備 scaling law,而且我認為其邊際效益遠未觸及上限,尚未像大語言模型那樣出現(xiàn)明顯的邊際遞減。

原因主要涉及兩個方面:數(shù)據(jù)與線上推理能力。首先,搜廣推依賴的是用戶行為數(shù)據(jù),與語言模型相比,我們的樣本量更大、序列 token 更長。當(dāng)前模型普遍覆蓋億級用戶,單個用戶的行為序列長度動輒上千甚至上萬。在如此規(guī)模下,若想完全挖掘行為模式,模型需要具備極高復(fù)雜度,甚至可能比語言模型更復(fù)雜。因此,我們必須在模型復(fù)雜度與線上推理能力之間尋找平衡。由于線上資源受限,我們實際上并未釋放模型的全部潛能。其次,盡管 scaling law 的趨勢明確,但要讓模型能力真正最大化,目前主要仍依賴在線下進一步擴大規(guī)模。如何把線下能力有效遷移到線上,是后續(xù)需要重點解決的問題。

王皓:第一個問題是:推薦領(lǐng)域的 scaling law 應(yīng)該如何定義?它是否等同于語言模型中的 scaling law?我們最近做了一個推薦 Scaling Law 方向的工作,過程中發(fā)現(xiàn)不同數(shù)據(jù)集、不同任務(wù)擬合得到的 scaling 曲線差異很大,并不存在像語言模型那樣一個統(tǒng)一的公式,尤其是在推薦領(lǐng)域中,performance 更依賴 loss,而我們觀察到的 scaling 規(guī)律也主要體現(xiàn)在 loss 層面。

基于此,我們提出了 P-law(performance law)的定義形式:在不同推薦數(shù)據(jù)集上,將 item ID 詞表歸一為相同規(guī)模,將數(shù)據(jù)質(zhì)量約束統(tǒng)一為一致指標(biāo)后,我們發(fā)現(xiàn)不論是在傳統(tǒng)模型還是 LLama、SOTA 模型上,都能擬合出較為統(tǒng)一的 scaling 規(guī)律。說明推薦領(lǐng)域是可以研究通用 scaling law 的,而非完全碎片化。

第二個問題是:既然 scaling law 可以擬合,我們是否已經(jīng)接近它的上限?推薦模型到底需要多大規(guī)模?當(dāng)前的模型與數(shù)據(jù)是否足以支撐繼續(xù)擴大?我的看法是:推薦模型規(guī)模普遍還不夠大,還遠未到達 scaling law 的極限。而且推薦未來到底走哪條技術(shù)路線,是繼續(xù)沿著 sequence-to-sequence(S2S),還是朝 unified LLM 發(fā)展,目前也沒有共識。

張澤華:在推薦與廣告場景中,我們距離 scaling law 的天花板還非常遙遠。首先,以典型搜廣推場景為例,如果假設(shè)使用一個真正端到端的模型,在 300 毫秒的推理預(yù)算內(nèi)完成所有計算,要同時理解用戶特征、興趣序列和候選 item,經(jīng)過反算后,我們推測模型參數(shù)量至少需要十幾個 billion 才能支撐。然而,即使如此,工程、算力和網(wǎng)絡(luò)通信必須全部壓到極限,300 毫秒已經(jīng)接近行業(yè)上限。

第二個例子來自我們對模型推理的可視化研究。以 7B 規(guī)模模型為例,我們逐步分析其每一層的中間狀態(tài)后發(fā)現(xiàn),不少區(qū)域的參數(shù)幾乎不影響最終結(jié)果。這意味著小模型能力不足的原因并非單純參數(shù)量少,而是有效參數(shù)比例低。

第三,當(dāng)我們采用 MoE 結(jié)構(gòu)處理如 query–SKU 這種典型任務(wù)時,隨著模型參數(shù)規(guī)模擴大,尤其是有效參數(shù)占比提升時,性能呈現(xiàn)明確的 scaling 趨勢。這證明在推薦領(lǐng)域,有效參數(shù)規(guī)模比總參數(shù)規(guī)模更關(guān)鍵。

此外,我們目前的許多模型,無論傳統(tǒng)模型還是 MoE,都做了大量裁剪和折中,有效計算量和可分辨度受到限制。因此,僅僅從 8B 換到 10B 不能保證提升,關(guān)鍵是有效參與推理的部分是否真正擴大。一旦擴大,效果提升趨勢非常明顯。

接下來分享幾個我們在放寬約束后的實驗發(fā)現(xiàn)。第一,如果暫時不考慮 300 毫秒的實時限制,而允許 3 秒甚至 30 秒推理,我們即可使用更大規(guī)模的模型。在不做結(jié)構(gòu)裁剪的前提下,模型參與推理的有效參數(shù)大幅增加。在線下評測中,當(dāng)規(guī)模擴大到 200B–300B 時,其效果明顯優(yōu)于 8B–10B。

第二,當(dāng)我們放寬 input 的限制,把用戶 query、歷史行為以及商品豐富的描述全部作為輸入時,模型效果進一步提升。此時的 prompt 已非常復(fù)雜,但 scaling 趨勢依然明顯,只是斜率不如前幾項那么陡。

綜合以上,我認為搜廣推場景中的 scaling law 依然成立,并且仍在快速上升階段。關(guān)鍵問題是如何讓 scaling 趨勢不僅體現(xiàn)在論文和離線評測中,而是真正轉(zhuǎn)化為線上收益。如何在推理耗時、工程成本與規(guī)模擴展之間找到平衡,將是未來最重要的研究方向。

顏林:通常是如何平衡模型規(guī)模、收益和算力 / 時延成本的?在哪些場景里會更傾向于“小而精”的模型?

馮曉東:大模型上線時勢必面臨性能瓶頸,而要突破這些瓶頸往往需要投入大量人力物力進行優(yōu)化,并配備更多或更高規(guī)格的 GPU。因此在實際過程中,我們首先的目標(biāo)自然是盡可能降低成本。在這一點上,我們主要做了兩類探索。第一類是模型蒸餾,無論是大語言模型還是生成式序列模型,我們都嘗試用大模型去蒸餾小模型,或以對比學(xué)習(xí)等方式讓教師網(wǎng)絡(luò)幫助線上小模型學(xué)習(xí),從而在保持線下效果的前提下降低線上推理成本。

第二類方法是分層剪枝,也可以理解為壓縮。例如某些模型可能有十幾層,我們會先嘗試只保留一兩層,觀察其在序列任務(wù)中是否仍有收益,并據(jù)此裁剪后上線。另一種類似做法借鑒了 DeepSeek 的 MoE 機制,將大專家拆分成多個小專家并加入路由機制,以減少推理時的激活參數(shù)量,提升線上性能。

理想情況當(dāng)然是所有場景都能用小而精的模型取得良好效果,但當(dāng)前小模型仍有明顯天花板。因此我們會優(yōu)先在低價值場景中使用小模型甚至通用小模型;在高價值場景中,如果 ROI 能覆蓋成本,我們才會嘗試規(guī)模更大的模型。整體策略仍是:低價值場景用小模型覆蓋,高價值場景用大模型爭取額外收益。

王皓:從學(xué)術(shù)角度看,我們還觀察到一個現(xiàn)象:在推薦的長鏈路中,不同階段所需的模型規(guī)模其實不同。例如從召回到粗排再到精排,每一階段對模型大小的需求并不一致,這意味著模型規(guī)模并非越大越好,而是可以在不同階段進行區(qū)分設(shè)計。

第二個觀察是,很多人希望用 2B 規(guī)模模型達到 8B 或 10B 的表現(xiàn)。除了蒸餾,我們也嘗試從另一個方向切入:既然許多場景的高質(zhì)量數(shù)據(jù)尚未觸頂,我們能否通過生成更多高質(zhì)量數(shù)據(jù),訓(xùn)練出性能更好的小模型?我們并不是直接做蒸餾,而是利用大模型生成更純凈、更高質(zhì)量的訓(xùn)練數(shù)據(jù),讓小模型在數(shù)據(jù)端突破瓶頸。按照我們提出的 P-Law 規(guī)律,小模型仍有很大提升空間。如果目標(biāo)模型處于 2B–3B 區(qū)間,我們會用更大模型持續(xù)生成數(shù)據(jù),讓小模型逐步逼近這一能力上限。

張澤華:模型只要能在特定場景中達到目標(biāo)效果,它就是合格的模型。剩下的都是 ROI 的問題,包括算力、人力與數(shù)據(jù)成本。因此關(guān)鍵是資源的最優(yōu)分配,而非一味追求更大規(guī)模。

推薦領(lǐng)域存在三類“類 scaling law”趨勢?;诖耍绻覀兪掷镏挥幸粋€ 2B 的模型,如何讓它的能力最大化?無非幾條路徑:第一,提高有效參與推理的參數(shù)比例;第二,給予模型更高質(zhì)量、更純凈的訓(xùn)練樣本;第三,即便模型小,也可以在輸入、輸出的設(shè)計上擴大規(guī)模,讓其“物盡其用”。

此外,在企業(yè)環(huán)境中還有一個現(xiàn)實因素:老板是否認可 ROI。例如一個 671B 的模型,可能需要 16 卡或 32 卡主流 GPU 才能跑起來,并且要支撐每秒上萬次請求,還得在幾秒內(nèi)完成完整推理,這帶來的成本是指數(shù)級增長的。與此同時,推理延遲無法通過無限堆卡來無限降低,因此必須在算力投入與延遲之間找到最優(yōu)的平衡區(qū)間。

低價值場景自然更適合小模型,即便只達到大模型 40% 的能力也完全足夠。而在核心高價值場景,例如開屏、信息流、搜索核心位,即便大模型只能帶來小幅提升,大家仍愿意投入資源去擴模型規(guī)模以爭取額外收益。

顏林:當(dāng)大模型真正上線到生產(chǎn)系統(tǒng)之后,大家遇到過的主要工程挑戰(zhàn)是什么(時延、吞吐、資源成本、穩(wěn)定性等)?從這些經(jīng)歷中總結(jié)下來,有哪些坑是可以提醒下同行的?

馮曉東:搜廣推領(lǐng)域的模型高度依賴用戶的近期或?qū)崟r數(shù)據(jù),因此模型必須能夠快速迭代。傳統(tǒng)推薦模型已經(jīng)能夠?qū)崿F(xiàn)分鐘級或小時級更新,但我們當(dāng)前采用的大模型,其訓(xùn)練和推理都在線下進行,要同步更新就非常困難。核心問題在于,如何讓實時或進線產(chǎn)生的大量用戶行為能夠及時輸入模型,并支撐模型快速迭代更新。

我們嘗試的優(yōu)化方向包括:其一,設(shè)計更高效的數(shù)據(jù)流 pipeline,確保生成式推薦模型在訓(xùn)練時能迅速獲取樣本及必要的序列特征,并以合適方式輸入模型。其二是模型的更新方式。對于增量更新,我們需要判斷究竟是進行全量全參更新,還是只更新部分參數(shù)。因此我們做了許多實驗,例如僅更新最后幾層、僅更新關(guān)鍵任務(wù)的幾個塔、或只更新共享網(wǎng)絡(luò)等。我們也嘗試過全參更新,但會遇到上一批生產(chǎn)數(shù)據(jù)尚未訓(xùn)練完、下一批數(shù)據(jù)又已到來的情況。為平衡訓(xùn)練成本和更新效率,我們最終更多采用“凍結(jié)部分參數(shù)”的方式,以取得更穩(wěn)定的更新效果。

王皓:最大的困難之一是在線與離線結(jié)果長期無法對齊,離線實驗表現(xiàn)良好,但上線后的結(jié)果常常差異很大。另一個問題是,當(dāng)我們嘗試上線一個更大規(guī)?;蛐掳娴哪P蜁r,會發(fā)現(xiàn)線上已有一個相對老舊但長期訓(xùn)練的模型。雖然該模型結(jié)構(gòu)簡單、規(guī)模較小,但因長期基于歷史數(shù)據(jù)持續(xù)更新,它對一年甚至更長周期的數(shù)據(jù)都有充分學(xué)習(xí)。而新模型往往只基于最近幾個月的數(shù)據(jù)訓(xùn)練,盡管離線驗證中性能更優(yōu),但在真實線上場景中卻很難打敗長期訓(xùn)練的舊模型。

因此,即便驗證通過,新模型依舊難以上線。我們面臨的問題是:如何讓更新后的新模型既利用近期數(shù)據(jù),又能有效繼承長期數(shù)據(jù),從而真正超過線上模型?隨著版本增多,需要重新訓(xùn)練的歷史數(shù)據(jù)越來越多,訓(xùn)練與驗證成本也隨之大幅上升。

張澤華:王皓老師提到的“離在線對不齊”,是在模型穩(wěn)定運行之后仍然存在的問題。而在模型能夠穩(wěn)定運行之前,其實還有更多“坑”。大模型時代算法迭代非???,新模型的發(fā)布節(jié)奏往往以周甚至小時計,這帶來巨大的適配成本。很多算法工程師希望下載一個開源模型就能直接跑在業(yè)務(wù)場景上,但業(yè)務(wù)數(shù)據(jù)有自身結(jié)構(gòu),訓(xùn)練平臺與資源組織方式也不同,因此實際適配難度遠比預(yù)期高。

適配完成后,大家又希望盡快做在線 AB 實驗。但離線能跑通并不意味著能滿足線上 serving 的資源和時延要求,尤其是在工業(yè)環(huán)境中,這個 gap 通常非常大。國內(nèi)雖然有組織會做 0-day 的在線適配,但一旦你在模型結(jié)構(gòu)中做了任何微調(diào),線上 serving 圖通常需要大規(guī)模重寫,迭代成本非常高。

此外,不同版本模型常常使用不同的 tokenizer,但許多工程師在上線前并不會特別關(guān)注 tokenizer 的變更,而是更關(guān)注參數(shù)量是否更新。一旦 tokenizer 未對齊,模型效果就會出現(xiàn)不可預(yù)測的問題。

另一個難點在于,工業(yè)場景下用戶行為的分布本身就是算法系統(tǒng)長期影響的結(jié)果。例如,在某些 App 中,歷史模型已篩選出一批習(xí)慣“搜→看→點→買”的高效率用戶。如果你的新模型更適合“慢節(jié)奏、喜歡比較”的用戶,即使模型本身更好,在現(xiàn)有交互環(huán)境下也可能表現(xiàn)不佳。因此,模型上線后往往需要通過大量隨機流量,經(jīng)歷一個漫長的“探索—利用”期,才能評估其真實表現(xiàn)。

很多情況下,新模型上線表現(xiàn)不佳并非模型本身的問題,而是實驗環(huán)境不夠友好。為解決這一點,我們開發(fā)了一套工具,包括多智能體強化學(xué)習(xí)模擬器,能夠基于上下文和系統(tǒng)行為構(gòu)造沙箱環(huán)境,讓基線模型和新模型先在模擬環(huán)境中對比,從而獲得相對客觀的評價?,F(xiàn)實環(huán)境中無法獲得某個用戶在兩種模型下的“反事實”表現(xiàn),而模擬器可以一定程度上彌補這一缺失。此外,我們會不斷將線上樣本回放到離線或進線的模擬器中,支持大規(guī)模持續(xù)強化學(xué)習(xí)。在大模型場景下,無論全參還是局部參數(shù)更新,其校驗機制都必須更加嚴謹。

3 從推薦到廣告:生成式、智能體與知識工程

顏林:目前生成式能力在各位所負責(zé)業(yè)務(wù)中的主要定位是什么?更多是做創(chuàng)意 / 文案 / 特征輔助,還是已經(jīng)開始承擔(dān)候選生成、策略規(guī)劃等更核心的工作?以及,個人最期待、但覺得還需要一段時間才能成熟的應(yīng)用方向是什么?

馮曉東:目前生成式技術(shù)在我們業(yè)務(wù)中集中在多模態(tài)內(nèi)容的理解與生成,例如營銷與廣告素材的自動生成。在算法落地方面,我們也在探索生成式推薦的可能性。由于生成式模型具備一定推理能力,我們會基于用戶歷史的離線數(shù)據(jù),先進行推理特征的生成,相當(dāng)于在用戶已有知識體系上補充增量知識。

我們內(nèi)部也持續(xù)討論一個重要問題:生成式推薦是否能夠完全替代線上推薦系統(tǒng)的能力。大家的愿景是一致的,即希望逐步朝這個方向演進。若生成式推薦能承擔(dān)全流程線上推斷,首先能顯著簡化線上工程體系,從而進一步節(jié)省成本;其次,它在大規(guī)模在線推斷中可能帶來顯著的業(yè)務(wù)效果提升。

王皓:沿著生成式推薦的發(fā)展趨勢來看,它正逐漸呈現(xiàn)系統(tǒng)工程化的特征,即構(gòu)建完整的推薦 pipeline,將各環(huán)節(jié)流程化,并在統(tǒng)一范式下解決多個任務(wù)。因此,學(xué)界的研究重點也逐步轉(zhuǎn)向如何優(yōu)化 pipeline 各細節(jié)、打通不同模塊的銜接,而在此框架內(nèi)做顛覆式創(chuàng)新的空間似乎相對有限。

張澤華:從工業(yè)界的視角來看,大家的目標(biāo)都是盡可能發(fā)揮大模型的作用。創(chuàng)意文案類任務(wù)已經(jīng)大規(guī)模應(yīng)用,尤其是圖像、視頻等多模態(tài)內(nèi)容的生成,在擴散模型階段就已展示出巨大潛力,如今在 AIGC 的演進中仍然保持高速發(fā)展。語言類模型出現(xiàn)后,文案生成進一步普及。我最近參加行業(yè)交流時發(fā)現(xiàn),無論是營銷、電商還是微商領(lǐng)域,很多團隊已經(jīng)非常熟練地使用大模型智能體進行視頻制作、文案生成及創(chuàng)意加工。

在零售等企業(yè)內(nèi)部,這類能力也逐漸滲透到更多場景中。例如本次直播過程中,自動翻譯、自動文案總結(jié)、會議紀(jì)要生成、要點抽取等能力,都是基于大模型的自然延伸。在更核心的業(yè)務(wù)任務(wù)中,例如 item 篩選、廣告投放策略規(guī)劃等,許多團隊也在嘗試使用大模型提升效率。特別是在面向“小 B 端”,即沒有專門研發(fā)團隊的商家群體,自動化工具尤為受歡迎。無論是生成營銷文案、整合外部數(shù)據(jù)還是自動挑選關(guān)鍵評論,這類功能都已非常普遍。

我個人認為接下來值得期待的方向,是出現(xiàn)真正具有高度靈活性的智能體。當(dāng)前的大部分智能體仍基于人工定義的 workflow,由人預(yù)設(shè)步驟與業(yè)務(wù)邏輯,本質(zhì)上屬于流水線式執(zhí)行。而未來更具價值的智能體,應(yīng)具備自主規(guī)劃與自主研究能力,能夠在更少人工干預(yù)的情況下完成復(fù)雜任務(wù)。

顏林:從智能體、知識工程、系統(tǒng)架構(gòu)、行業(yè)標(biāo)準(zhǔn)等不同角度出發(fā),你會如何描述:大模型時代,一個“成熟的”搜廣推系統(tǒng)應(yīng)該長成什么樣的生態(tài)?這對團隊分工和角色有什么影響?

馮曉東:我認為未來特征工程可能會逐漸弱化甚至消失,并被知識工程取代。也就是說,模型學(xué)習(xí)可能直接基于用戶的原始行為語料來構(gòu)建,不再依賴大量人工設(shè)計的特征,而是需要通過增量知識進行補充。這類增量知識,例如基于大模型能力構(gòu)建的知識庫,可以為推薦系統(tǒng)帶來新的優(yōu)勢。以冷啟動為例,有了更多開源或預(yù)訓(xùn)練的知識,知識工程能夠彌補冷啟動過程中的信息不足。

此外,隨著模型直接使用大量用戶行為序列和原始特征,我們還需要引入上下文信息、item 畫像或用戶基礎(chǔ)畫像等內(nèi)容,這些都可以通過知識工程進行系統(tǒng)性豐富。

再說系統(tǒng)架構(gòu)的變化,未來智能體可能在搜廣推中扮演更重要的角色。目前各家公司在智能體編排方面已有大量實踐,我們也在思考是否可以將特征工程或模型訓(xùn)練流程以智能體編排的方式推進。換句話說,未來搜廣推的算法工程師可能會逐漸演變?yōu)椤芭苣9こ處煛薄?/p>

王皓:從學(xué)術(shù)角度來看,有兩個根本性問題需要明確。第一個問題是搜廣推的基礎(chǔ)模型究竟應(yīng)該是什么?它應(yīng)該基于怎樣的機制來實現(xiàn)決策?只有想清楚基礎(chǔ)的決策模型,我們才有可能進一步討論智能體、自動編排等能力。如果不解決“如何將 ID 這樣的離散表示融入模型”這一核心問題,我們很難真正往下推進。

第二個問題是:如果我們希望讓整個系統(tǒng)最終變成 workflow 或 problem-based 的形式,并通過智能體來完成任務(wù),那就必須首先把這個任務(wù)形式化定義出來。我們需要明確任務(wù)的邊界、結(jié)構(gòu)與規(guī)則,使模型能夠理解并解決它。怎么定義任務(wù)、怎么表達問題本身,是比解決模型細節(jié)更難的環(huán)節(jié)。

張澤華:在不同業(yè)務(wù)場景下,問題的定義確實差異很大。例如傳統(tǒng)推薦的召回與粗排,本質(zhì)上就是信息檢索:粗排是對子集的篩選,召回策略寬松或嚴格都能接受;而精排與重排階段,則需要大量 ID 之外的輔助信息。

輔助信息大致有幾類:第一,item 與 item 之間的關(guān)系;第二,用戶在前一次結(jié)果與當(dāng)前展示之間是否產(chǎn)生興趣變化;第三,一些人為定義的重排指標(biāo),如多樣性、新穎性;第四,則是多模態(tài)信息。例如推薦一件商品時,不僅是商品本身,還有價格變化、優(yōu)惠信息、圖片質(zhì)量等因素都會帶來影響。比如圖片美觀度、上下文差異甚至一些“反常圖片”帶來的好奇心,都會顯著提升點擊率。

在基礎(chǔ)模型的測試上,我們發(fā)現(xiàn)對于傳統(tǒng)信息檢索類任務(wù),目前的大語言模型(尤其是稠密結(jié)構(gòu))表現(xiàn)相對適用,引入 MoE 也沒有太大問題。但對于典型的曝光→點擊→轉(zhuǎn)化這樣的單鏈路任務(wù),HSTU 類模型,需要結(jié)合用戶與當(dāng)前上下文交互,再疊加大量背景信息,會更適合具體業(yè)務(wù)場景。

觀眾:離線和在線不對齊,新模型打不過舊模型,這樣的問題該如何處理?

張澤華:新舊模型對不齊大致有兩個層面的原因。第一,在傳統(tǒng)模型中,在線模型在 online learning 的過程中會不斷累積數(shù)據(jù),而離線模型只能在特定時間點獲取有限數(shù)據(jù),因此離線效果即使優(yōu)于在線,但由于在線模型長期積累,實際仍可能更強,這就導(dǎo)致新模型難以在短期內(nèi)打過舊模型。

第二個層面是離線評測與線上環(huán)境之間存在失真,這在工業(yè)界非常常見。在大模型中,這類失真甚至?xí)环糯?,原因主要有兩點。第一,傳統(tǒng) CTR 類模型本質(zhì)上是“小稠密 + 大 embedding table”,大量依賴稀疏 ID 特征,而真正可學(xué)習(xí)的稠密參數(shù)很有限,因此模型具有更多不可變結(jié)構(gòu),導(dǎo)致線上失真程度較低。第二,大模型的參數(shù)量巨大,離線推理與在線推理的路由機制可能存在差異,導(dǎo)致誤差被進一步放大。

對于傳統(tǒng) online learning 無法打平的問題,如果離線訓(xùn)練無法提供足夠數(shù)據(jù),就要判斷取舍。若離線模型雖然離線評估更好,但潛力不足,而在線實驗表現(xiàn)不如舊模型,那繼續(xù)維護舊模型是更合理的;但如果離線模型雖然短期略差,但擴大參數(shù)或數(shù)據(jù)后會有更陡峭的 scaling 曲線,那么可以接受短期損失,將新模型推上線上,保證團隊整體迭代節(jié)奏順暢。

第二類結(jié)構(gòu)性誤差問題沒有絕對解法。若誤差特別大,要回到訓(xùn)練與評測環(huán)節(jié)排查;若誤差在可接受范圍內(nèi),則應(yīng)直接通過 AB 實驗檢驗其是否能隨著時間逐步收斂。

王皓:在推薦領(lǐng)域,HSTU 這套范式是否可能成為未來的推薦基礎(chǔ)大模型?我們未來應(yīng)該走向“RL for reward”的方向,將推薦轉(zhuǎn)化為反語言模型式的決策任務(wù),還是繼續(xù)沿用 HSTU,讓其成為長期的反推選模型結(jié)構(gòu)?

馮曉東:之所以包括我們在內(nèi)的許多團隊都選擇 HSTU,是因為它本質(zhì)上仍是 Transformer 風(fēng)格的結(jié)構(gòu),但對長序列用戶行為的處理具有獨特優(yōu)勢。因此可以明確的是:序列模型是推薦領(lǐng)域的關(guān)鍵方向。

目前 HSTU 作為一種生成式序列模型,為我們提供了不錯的 base model。盡管推薦系統(tǒng)和大語言模型都尚未跳出 Transformer 結(jié)構(gòu),但過去推薦系統(tǒng)的發(fā)展確實大量借鑒了 NLP 與 CV 的網(wǎng)絡(luò)結(jié)構(gòu),例如 CNN 在推薦中的應(yīng)用。因此我始終期待未來推薦系統(tǒng)能夠結(jié)合自身數(shù)據(jù)特征與業(yè)務(wù)特征,發(fā)展出新的、更貼合長序列特點的模型結(jié)構(gòu)。

顏林:在過去這一兩年大模型和搜廣推的實踐里,有哪一件事情是讓你改變過自己原本的判斷的?比如:曾經(jīng)覺得不重要但現(xiàn)在很重要,或者相反?

馮曉東:我們一直關(guān)注一個問題:大模型是否會在推薦領(lǐng)域產(chǎn)生顛覆性的影響。我最初的判斷是,基于語言 Token 的建模方式并不完全適用于推薦場景。因為用戶行為序列在轉(zhuǎn)換成 Token 后,其上下文之間往往不具備類似自然語言那種強邏輯性的結(jié)構(gòu),因此傳統(tǒng)語言模型并不能直接替代推薦模型來生成推薦結(jié)果。直到 Meta 提出 HSTU,我才意識到序列模型在推薦場景的潛力被進一步釋放。HSTU 以 Transformer 為基礎(chǔ),但對用戶長行為序列的處理方式更契合推薦系統(tǒng)的需求,也為我們提供了全新的方向啟發(fā)。序列建模會是推薦領(lǐng)域的核心方向,大語言模型在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計和整體建模思想上確實為我們提供了重要參考。

王皓:推薦系統(tǒng)實際上一直在沿著大語言模型的路線演進,只是過程中會遇到如何處理 ID、擴大詞表、推理時延等工程與結(jié)構(gòu)問題。從長期趨勢看,推薦系統(tǒng)仍需與基礎(chǔ)語言模型深度結(jié)合。只有在此基礎(chǔ)上,我們才能構(gòu)建面向不同業(yè)態(tài)和公司場景的通用大模型。

另一個關(guān)鍵挑戰(zhàn)在于數(shù)據(jù)。模型性能的上限取決于高質(zhì)量數(shù)據(jù)的數(shù)量,而未來的重要研究點仍會集中于如何構(gòu)建更多高質(zhì)量數(shù)據(jù)、如何擴大模型規(guī)模以及如何進一步提升性能。

張澤華:行業(yè)共識是“有多少人工,就有多少智能”。過去一年,業(yè)界在結(jié)構(gòu)、優(yōu)化器、attention 等方面不斷創(chuàng)新,但真正落到工業(yè)場景,數(shù)據(jù)是決定性因素,沒有高質(zhì)量數(shù)據(jù),所有結(jié)構(gòu)創(chuàng)新都無法發(fā)揮。通用大模型在垂直領(lǐng)域的效果往往很差,因此我們必須沉淀專業(yè)化的知識工程。我們內(nèi)部將其總結(jié)為六大類知識體系,并在推薦、廣告、搜索等場景中帶來了顯著提升,很多改進都達到兩位數(shù)甚至更高收益。

回到“推薦系統(tǒng)到底在解決什么用戶問題”。以電商為例,用戶可能帶著明確意圖進入 App,例如搜索特定型號,這時系統(tǒng)只需快速給出直接結(jié)果。但在用戶漫無目的瀏覽時,他們有更高耐心接收不同品類的內(nèi)容;而當(dāng)進入“貨比三家”的深度對比階段,用戶會進行反復(fù)思考,此時推薦系統(tǒng)的任務(wù)不再是傳統(tǒng)召回與排序,而是利用模型的推理能力來輔助決策。

例如比較手機規(guī)格、容量或屏幕優(yōu)劣,本質(zhì)是一種反復(fù)權(quán)衡的 reasoning 過程。傳統(tǒng)算法可以部分支持,但新一代大模型的推理能力能夠提供新的解決手段。因此我們在探索新的推薦路徑,例如在不同意圖狀態(tài)下的搜推策略:用戶隨意瀏覽、明確搜索、深度對比、爭取優(yōu)惠等。

顏林:如果讓你給現(xiàn)在在一線做推薦 / 廣告算法的同學(xué)一句建議,結(jié)合大模型的浪潮,你會建議什么?

馮曉東:最初探索大模型與推薦系統(tǒng)結(jié)合時,我們也并不確定最終形態(tài)。傳統(tǒng)推薦模型本身也是從不同方向借鑒、引入并不斷改進的。因此在真正落地時,我們首先思考的問題是:未來如果走向生成式推薦,那么我們在現(xiàn)階段應(yīng)該如何切入?我們的做法是先把業(yè)務(wù)鏈路完整拆解,無論是廣告還是傳統(tǒng)推薦,逐段分析每個環(huán)節(jié)的核心目標(biāo),并判斷哪些環(huán)節(jié)最適合與大模型結(jié)合。

找到切入點后,不必過度關(guān)注模型上線后究竟能提升多少效果。我們更看重的是是否真正解決了某個問題,只要能在效果、運營成本或推理成本中帶來任何方面的優(yōu)化,都值得嘗試。不應(yīng)拘泥于某項技術(shù)是否是主流,也不必期待每次都帶來爆發(fā)式收益,所有革命性進展都是逐步積累而成的。在未來回望時,可能某一次迭代便成為真正的突破。

王皓:一個真正的基礎(chǔ)模型應(yīng)該能解決多類任務(wù),并能在不同公司間遷移、共享和復(fù)用,這是生態(tài)價值的核心。另一個重要思考是,我們的系統(tǒng)是完整鏈路,而不僅是單點技術(shù)。模型或系統(tǒng)需要形成“產(chǎn)品力”,需要讓別人看到其獨特性和不可替代性。盡管理論上的鏈路類似,但我們必須思考自身的壁壘和差異化:我們的場景優(yōu)勢是什么?哪些能力是別人無法輕易獲得的?這將決定最終的競爭力。

張澤華:在過去幾年,大模型演進的趨勢始終指向更綜合的方向。從早期簡單的 CV 模型,到 NLP 時代的 BERT,再到如今的 Transformer 大模型,以及行業(yè)內(nèi)大量嘗試的多模態(tài)融合模型,如 ViT、DiT 等等。無論是搜索、推薦,還是傳統(tǒng)算法升級,本質(zhì)要解決的業(yè)務(wù)問題并不會消失,它們只會轉(zhuǎn)移。比如先解決某一模態(tài)的問題,另一模態(tài)仍需要處理;先解決檢索問題,排序問題仍然存在。只是方法和路徑不同,本質(zhì)問題依舊。因此我對大家最大建議是,不要給自己設(shè)定過強的邊界或挑揀式學(xué)習(xí),所有核心問題最終都必須被解決,而且需要被解決得足夠好。

AI 重塑組織的浪潮已至,Agentic 企業(yè)時代正式開啟!當(dāng) AI 不再是單純的輔助工具,而是深度融入業(yè)務(wù)核心、驅(qū)動組織形態(tài)與運作邏輯全面革新的核心力量。

把握行業(yè)變革關(guān)鍵節(jié)點,12 月 19 日 - 20 日,AICon 全球人工智能開發(fā)與應(yīng)用大會(北京站) 即將重磅啟幕!本屆大會精準(zhǔn)錨定行業(yè)前沿,聚焦大模型訓(xùn)練與推理、AI Agent、研發(fā)新范式與組織革新,邀您共同深入探討:如何構(gòu)建起可信賴、可規(guī)?;⒖缮虡I(yè)化的 Agentic 操作系統(tǒng),讓 AI 真正成為企業(yè)降本增效、突破增長天花板的核心引擎。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
深夜大瓜!曝闞清子生下女兒沒保住,沒有膀胱和肛門,產(chǎn)前狀態(tài)差

深夜大瓜!曝闞清子生下女兒沒保住,沒有膀胱和肛門,產(chǎn)前狀態(tài)差

阿纂看事
2025-12-24 09:19:51
別說是成龍了,換作誰看到這顏值,都會笑得合不攏嘴吧!

別說是成龍了,換作誰看到這顏值,都會笑得合不攏嘴吧!

小椰的奶奶
2025-12-25 00:41:16
失業(yè)的人越來越多了

失業(yè)的人越來越多了

曹多魚的財經(jīng)世界
2025-12-24 14:56:20
反轉(zhuǎn)!龐叔令《亞洲周刊》怒撕劉芳菲節(jié)目:請的龐氏后人是冒牌貨

反轉(zhuǎn)!龐叔令《亞洲周刊》怒撕劉芳菲節(jié)目:請的龐氏后人是冒牌貨

鋭娛之樂
2025-12-24 15:51:40
北斗、GPS同時被干擾!栗正杰:殺敵一千自損八千

北斗、GPS同時被干擾!栗正杰:殺敵一千自損八千

看看新聞Knews
2025-12-21 20:41:10
林詩棟新教練到位!王勵勤的“王牌”能帶他沖破天花

林詩棟新教練到位!王勵勤的“王牌”能帶他沖破天花

眼界看視野
2025-12-24 20:48:02
18場打入15球送出5次助攻,菲利克斯聽C羅的話去沙特,是對了

18場打入15球送出5次助攻,菲利克斯聽C羅的話去沙特,是對了

星耀國際足壇
2025-12-24 23:39:03
英國首富、戴森公司創(chuàng)始人將6.24億英鎊轉(zhuǎn)至新加坡,其英國實體股本被削減至1英鎊

英國首富、戴森公司創(chuàng)始人將6.24億英鎊轉(zhuǎn)至新加坡,其英國實體股本被削減至1英鎊

紅星新聞
2025-12-24 21:58:21
廣東臺的衰敗:從“萬人空巷”到“無人問津”,被誰奪走了靈魂

廣東臺的衰敗:從“萬人空巷”到“無人問津”,被誰奪走了靈魂

阿訊說天下
2025-12-24 17:14:51
被攻擊后 快手直播緊急拉閘前的兩小時

被攻擊后 快手直播緊急拉閘前的兩小時

新京報
2025-12-24 09:39:29
醫(yī)學(xué)博士:腫瘤越來越高發(fā),我們究竟被隱瞞了什么?

醫(yī)學(xué)博士:腫瘤越來越高發(fā),我們究竟被隱瞞了什么?

深度報
2025-12-21 23:01:02
降息,突發(fā)大消息!黃金直線跳水!中概股,拉升!

降息,突發(fā)大消息!黃金直線跳水!中概股,拉升!

證券時報e公司
2025-12-24 23:23:36
A股:股民站穩(wěn)扶好,深夜傳來4大利好,周四將迎更大級別行情?

A股:股民站穩(wěn)扶好,深夜傳來4大利好,周四將迎更大級別行情?

股市皆大事
2025-12-24 19:55:36
“荒唐”的事一直在發(fā)生,真是太諷刺了!

“荒唐”的事一直在發(fā)生,真是太諷刺了!

高三倒計時
2025-12-24 15:21:26
俄羅斯為何將烏克蘭兒童送往朝鮮

俄羅斯為何將烏克蘭兒童送往朝鮮

桂系007
2025-12-24 23:56:30
對手:很榮幸碰C羅!他是僅次于梅西的世界老二!致敬魯尼!

對手:很榮幸碰C羅!他是僅次于梅西的世界老二!致敬魯尼!

氧氣是個地鐵
2025-12-24 17:10:11
美日對中國最恐懼的是海南封關(guān),如果成功,推廣全國就天下無敵了

美日對中國最恐懼的是海南封關(guān),如果成功,推廣全國就天下無敵了

我心縱橫天地間
2025-12-24 16:47:33
蘿莉島的骯臟超乎想象,克林頓喜歡年輕女孩,科學(xué)家霍金竟是???>
    </a>
        <h3>
      <a href=趣文說娛
2025-12-24 18:50:15
斯普利特:楊瀚森在防守端犯了幾個錯誤,克林根保護籃板更好

斯普利特:楊瀚森在防守端犯了幾個錯誤,克林根保護籃板更好

懂球帝
2025-12-24 15:05:06
秦嵐的腳部照片在網(wǎng)上爆紅,這背后是否有利益鏈的爭議?

秦嵐的腳部照片在網(wǎng)上爆紅,這背后是否有利益鏈的爭議?

動物奇奇怪怪
2025-12-22 05:25:09
2025-12-25 02:03:00
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術(shù)社區(qū)媒體
11864文章數(shù) 51647關(guān)注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

幼兒園8人遇難學(xué)生家屬:女兒4歲 今年9月才入讀

頭條要聞

幼兒園8人遇難學(xué)生家屬:女兒4歲 今年9月才入讀

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財經(jīng)要聞

北京進一步放松限購 滬深是否會跟進?

汽車要聞

“運動版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

旅游
本地
教育
游戲
軍事航空

旅游要聞

豫西地下4000年:地坑院的重生,藏著中國古村振興的密碼!

本地新聞

云游安徽|一川江水潤安慶,一塔一戲一城史

教育要聞

掏空家底全力托舉子女,這是父母最大的悲哀

前《DOTA2》選手起訴LGD 稱拖欠近14萬賽事獎金

軍事要聞

軍事專家:"特朗普級"戰(zhàn)艦設(shè)計疑大量借鑒中國055大驅(qū)

無障礙瀏覽 進入關(guān)懷版