網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

快手新論文：用模型把推薦算法寫成詩

2025-10-30 16:49:24　來源: AI異類

北京舉報

分享至

在視頻流的世界里，算法是唯一不會疲倦的導演。

算法，決定了我們每天刷到什么，看多久，會不會點個贊、留個言。

我們以為是自己在選擇內(nèi)容，其實是算法在選擇你。

過去幾年，短視頻平臺在推薦系統(tǒng)上已經(jīng)走到了一個高度相似的階段——

大模型負責預測用戶可能的反應，人工公式把多個目標拼成一個總分，得分最高的內(nèi)容被推到你面前。

這套邏輯，叫“啟發(fā)式排序融合公式”，便宜、靈活、好調。但也因為它太人工、太線性、太局限，讓整個推薦系統(tǒng)始終像一臺被人操控的機器，完全沒到能自己思考的生命體。

快手決定打破這個范式。

他們在最新的論文里，公開了一套名為 EMER（End-to-End Multi-objective Ensemble Ranking） 的「端到端多目標排序機制框架」，說白了，就是要讓算法學會自己“決定什么更重要”。

https://arxiv.org/pdf/2508.05093

讀完快手團隊在arXiv發(fā)的這篇技術論文《An End-to-End Multi-objective Ensemble Ranking Framework for Video Recommendation》，我發(fā)現(xiàn)：

它不是那種特別枯燥的純學術研究總結，也不像公眾號上大量的“AI助力創(chuàng)作”的故事，有點像是一份能一比一學習的、工程級的算法模型筆記。

就好像是快手把他們最牛的算法團隊的核心經(jīng)驗，悄悄給開源了。

01 把推薦算法“模型化”

快手這套新框架的本質，是把推薦這件事徹底「模型化」。

過去的推薦邏輯，其實還是在人類邏輯里打轉：先去預測點擊率、停留時長、點贊量，然后人工寫一個公式，把這些指標加權起來，得出一個最終的分數(shù)。

這種方法簡單、可解釋，但肯定有上限。

于是，快手的工程師不打算這么玩了。他們直接讓模型自己去“學排序”，讓系統(tǒng)在多目標之間找到一個動態(tài)的平衡點。

讓用戶既看得久，也更愿意回來。給我的感覺這是一個非常「工程師氣質」的思路，推薦系統(tǒng)從手工調權重，開始進入到全自動的智能博弈階段。

更有意思的是，快手不是單獨評估每個視頻，而是一次性把候選視頻打包進模型里，讓算法理解這些視頻之間的相對關系。

在這一點上，它像是在讓機器擁有一種「比較感」：

同樣是20條視頻，哪一條能更好地滿足這個用戶此刻的興趣？算法不再追求絕對分數(shù)，而是學習「這條視頻比那條更合適」。

從結果來看，拿到的收益也已經(jīng)很有確定性。

快手設計落地的這套「基于模型的端到端多目標融合排序機制框架」，似乎有機會代替?zhèn)鹘y(tǒng)的人工設計的啟發(fā)式排序融合公式。

實驗推全前的Launch實驗、推全后的反轉實驗，都觀察了超過一個月，從反轉實驗數(shù)據(jù)來看，用戶體驗提升顯著：

快手極速版App：七日留存+0.196%，App停留時長+1.392%，單列短視頻觀看次數(shù)+1.044%；
快手主App：七日留存+0.133%，App停留時長+1.199%，單列短視頻觀看次數(shù)+2.996%。

在OneRec鏈路，快手也進行了嘗試，作為OneRec的Reward Model進行生效，可提升App停留時長0.56%，留存有顯著正向趨勢，反轉實驗也在長期觀察中。

02 排序不再是“打分”，而是“比較”

在快手的視角里，推薦系統(tǒng)的核心不是“給每個視頻打幾分”，要理解“這些視頻之間的相對關系”。

我也越來越覺得，算法肯定得懂得：在一個請求下，這二十條視頻里，哪一條更適合當前的用戶。

為此，快手團隊在最底層就重新組織了數(shù)據(jù)樣本。

傳統(tǒng)算法只看被用戶點開的幾個視頻，而 EMER 把 一次請求的所有候選視頻——不論是否曝光，都打包成一個樣本。

這讓模型能在候選集內(nèi)部建立比較關系，也解決了長期困擾業(yè)界的曝光偏差問題。

快手還給模型加上了“相對位置特征”（Normalized Rank），讓算法知道：“這個視頻在候選列表里排第幾”。

整個模型采用 Transformer 架構，因為它天生擅長理解“序列關系”，能捕捉視頻與視頻之間微妙的相互作用。

跟以前不一樣的是，算法第一次不僅知道這個視頻好不好，還知道它比另一個視頻好多少。

03 從“調公式”到“自我進化”

推薦算法的復雜，不僅在數(shù)據(jù)，還在目標。

用戶滿意度，就很難用單一數(shù)據(jù)指標衡量：它可能是“看完的時長”、“點贊”、“評論”、“轉發(fā)”，還有“下一次愿不愿意回來”，以及所有這些要素的叉乘組合。

這些目標有時候又會互相沖突——優(yōu)化時長會損失互動，提升互動又可能犧牲停留。

傳統(tǒng)方案靠人工調權重，就好比是普通飛行員去駕駛宇宙飛船，用人腦去控制上百個推力平衡。

而 EMER 的思路是：讓算法自己學會調所有電門。

快手設計了一個叫 Advantage Evaluator（優(yōu)勢評估器） 的機制，讓模型在訓練過程中不斷比較“當前版本”和“舊版本”的表現(xiàn)，動態(tài)調整各目標的損失權重。

當系統(tǒng)發(fā)現(xiàn)“觀看時長變好了但點贊掉了”，它會自動提升點贊目標的權重；如果點贊又上來了，就再去補強時長。

就遠遠不是調參了，這種自我進化（Self-Evolution）的訓練方案，也就是這套新框架的核心機制。

簡單說，這套“自我進化”機制，就是讓算法學會自己調節(jié)優(yōu)先級。

EMER 的“優(yōu)勢評估器”相當于給算法裝了一個“自省模塊”——它會實時比較新舊模型的表現(xiàn)，如果發(fā)現(xiàn)某個目標變差了，就自動提高它的權重去補救；表現(xiàn)好的目標權重則降低，避免過擬合。

這種動態(tài)學習的結果是，模型自己學會了“學習”。在快手的實驗中，它成功融合了 78 個不同目標，模型能在這78個目標之間自己平衡取舍，不用人干預，還能隨著用戶行為變化不斷優(yōu)化。

到這里，我真心覺得，快手的算法已經(jīng)不只是會學習，而是會“學著怎么學習”，然后順理成章也就有了核心指標的提升——

就像第一部分說的，快手極速版、主站App，在推薦系統(tǒng)的核心指標如LT、時長、vv和互動等指標上，都取得了顯著的提升。

而目前的LT折線圖結果則表明，LT仍然有不斷上升的趨勢。

在一個億級日活平臺上，這些指標提升，也意味著巨大的商業(yè)價值。

04 用戶滿意度這件事，終于被“定義”了

算法世界最難的部分，不是算力，也不是模型，而是“定義什么是好”。

快手提出了兩個解決思路：

一是“相對滿意度”——不用去追求用戶的絕對好惡，而是比較用戶對不同視頻的反應。

基于用戶的多種反饋信息，很難定義一個用戶滿意度的絕對水平；但是可以基于用戶在收到推薦后的后驗反饋，來判斷一個指標條件是否相對更優(yōu)于另一個指標條件。

快手團隊定義了層次化的滿意度關系（“多重正反饋 > 單一正反饋 > 無正反饋”）來定義。對于單個item而言，收到的正反饋數(shù)量越多，其相對滿意度就越高。

如果一個視頻同時獲得點贊和長時觀看，它的滿意度就高于只獲得其中一個的視頻。模型通過 Pairwise Logistic Loss 學習這種相對優(yōu)劣關系。

二是“多維代理指標”：

盡管后驗反饋為滿意度的量化提供了寶貴的洞察信息，但其固有的曝光偏差和信號稀疏性是無法回避的局限。因此，EMER 從多目標優(yōu)化的角度引入了互補的解決方案。

簡單來說，就是用戶滿意度不能靠一個指標定義，所以快手引入多個先驗信號（Pxtrs），讓模型同時學習多個維度的排序性能。

這讓算法能在保持實時性的同時，覆蓋深層次的用戶反饋，比如延遲轉化、跨業(yè)務信號等。

而多維指標的融合，又被放進自演化機制中動態(tài)調權，使得模型始終保持均衡。

在大規(guī)模推薦系統(tǒng)中，多任務模型能為每個候選項提供豐富的先驗信號（Pxtrs）。這些信號本質上都反映了用戶滿意度的不同維度。

快手方面認為，提升某個信號的排序效果，就能提升相應維度的用戶滿意度，所有信號的排序效果同時提升，將共同促進整體用戶滿意度的提高。

我就感受到一種很“快手式”的哲學：不用非要定義什么是完美，只要讓系統(tǒng)自己在真實反饋中不斷接近滿意。

05 IPUT：用單位時間去衡量真實體驗

工業(yè)界有一個常見的噩夢叫“離在線不一致”——離線看著模型指標漂亮，上線后一塌糊涂。

快手也遇到過這種問題：離線的互動AUC高得離譜，結果上線后互動總量下降。

原因是，離線優(yōu)化關注的是“單個視頻的互動概率”，而線上目標其實是“單位時間內(nèi)的總互動量”。

這兩者方向完全不一樣。

快手提出了一個新指標：IPUT（Interaction Probability per Unit Time），即單位時間內(nèi)的互動概率。

通過將優(yōu)化目標從 pxtr 轉化為 IPUT，將模型的學習方向從“最大化單次互動的可能性”，精準地調整為“最大化單位時間內(nèi)的互動效率”。

這個方法就從根本上消除了“解耦悖論”，顯著提升了離線評估與在線業(yè)務表現(xiàn)的一致性，為模型離線的高效迭代奠定了基礎。

換句話說，它把模型優(yōu)化的目標從“我能讓你對這個視頻互動”變成“我能讓你在一分鐘里多互動幾次”。

不得不說還是挺有算法創(chuàng)意的。

口說無憑，看數(shù)據(jù)結果，效果也很顯著，對真實用戶環(huán)境的模擬和測試，看起來能很好的應用到現(xiàn)實快手用戶體驗里。

而且我發(fā)現(xiàn)，快手的技術革命，不只是模型上的，還有組織。

論文里提到，他們在內(nèi)部同時推進了“群治 + 自治”的排序機制，讓不同業(yè)務線以 留存貢獻度 為核心指標，統(tǒng)一在一條流量分配邏輯上競爭。

不像很多大公司的內(nèi)部掣肘，在快手“群治 + 自治”的排序機制下，不同業(yè)務不再靠資源爭奪流量，而是靠算法競爭貢獻。

這樣去推演，推薦系統(tǒng)也就不只是技術工具，有一天也會成為公司的內(nèi)部博弈規(guī)則。

在 OneRec 鏈路中，快手也把 EMER 框架用作 Reward Model，App 停留時長提升了 0.56%，留存仍在長期上升。

看到一個很清晰的趨勢：推薦算法已經(jīng)不再只是“推薦視頻”，而是在優(yōu)化整個生態(tài)的能量流動、優(yōu)化一家公司的未來效率。

06 技術的意義，不只是指標

當我們討論這些百分號和公式時，其實討論的是人。

一個更聰明的算法，意味著每個人的注意力被更精準地引導；
一個更懂“比較”的排序系統(tǒng)，意味著內(nèi)容分發(fā)開始進入多維博弈的新時代。

過去，推薦系統(tǒng)像流水線：把內(nèi)容裝上分數(shù)標簽，送上熱榜；而現(xiàn)在，它像一場動態(tài)協(xié)奏：算法在實時地聽取用戶反饋，自我修正，學著去理解人。

這場技術變革的深意在于：推薦不再只是“給你看什么”，而是“理解你為什么會看”。

https://arxiv.org/abs/2508.05093

在視頻平臺玩家里中，快手可能不是宣傳自己最激進的，但它的工程底色更深。

當別人在聊流量和增長，快手的算法團隊在談“用戶滿意度的量化”、“單位時間互動密度”、“自演化的多目標優(yōu)化”。

而這些聽起來稍顯冷門的技術詞匯，其實正在悄悄改變整個行業(yè)的邏輯。

我更感興趣的，是這背后透露出的行業(yè)方向。

過去幾年，短視頻平臺都在講「內(nèi)容為王」，但快手的實踐在提醒我們：內(nèi)容的王冠，最終是算法戴上的。

推薦系統(tǒng)不再是幕后，而是成為整個內(nèi)容產(chǎn)業(yè)的前臺——決定哪些作品能被看到，哪些創(chuàng)作者能成長，甚至影響一個城市的消費節(jié)奏。

未來幾年，這種算法的演進會繼續(xù)加速。

短視頻推薦會從“爆款邏輯”走向“場景邏輯”，算法會越來越懂得區(qū)分“午休想看輕松的”“地鐵上想看搞笑的”“深夜想看治愈的”。它會更懂情緒、更懂節(jié)奏。

快手的框架正是為這種“多目標、多場景”的推薦時代鋪路。

算法不再是工具，而是一種公司思維。

而能把算法變成戰(zhàn)略的人，才真正掌握了未來的分發(fā)權。

“當算法有了模型，內(nèi)容世界的江湖，也就開始重新排序?！?/blockquote>

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

讓LLM不再話癆，快手HiPO框架來了

機器之心Pro 2025-11-03 15:10:48
0 跟貼 0
快速躥紅的Hermes Agent，會成為下一個OpenClaw嗎？

鈦媒體APP 2026-04-09 15:54:53
1 跟貼 1

MiniMax發(fā)布MMX-CLI，兩行代碼安裝調用，“龍蝦”多模態(tài)能力大漲

智東西 2026-04-09 15:44:48
2 跟貼 2

文生圖進入Agent時代：港中文聯(lián)合伯克利開源Gen-Searcher

機器之心Pro 2026-04-09 15:34:25
4 跟貼 4
CMU開源首份Agentic Search日志數(shù)據(jù)，把Agent拆開給你看

機器之心Pro 2026-02-09 12:05:13
0 跟貼 0

生成式推理再排序，可能會是LLM4RecSys的新突破口嗎？

機器之心Pro 2026-04-08 11:52:53
0 跟貼 0

AI不再「炫技」，淘寶要讓技術解決用戶每一個具體問題

機器之心Pro 2025-10-28 14:02:58
0 跟貼 0
林俊旸點贊，干翻字節(jié)Seedance 2.0的“歡樂馬”模型，阿里造？

智東西 2026-04-09 23:55:18
0 跟貼 0

賈平凹之女賈淺淺涉嫌論文抄襲，校方通報：啟動調查程序

主持人楊楊 2026-04-09 11:21:47
0 跟貼 0
原來這屆中國AI年輕人，已經(jīng)卷到業(yè)界都驚了

機器之心Pro 2025-12-03 12:03:29
0 跟貼 0
星巴克中國“易主”，“新東家”亮相：將開更多新店！星巴克全球CFO：中國將繼續(xù)是我們?nèi)驑I(yè)務中非常重要的一部分

每日經(jīng)濟新聞 2026-04-09 14:19:51
6864 跟貼 6864
身體出現(xiàn)這5個信號，是在“喊救命”，千萬別不當回事！

愛生活的小寧 2026-04-09 09:04:57
0 跟貼 0
「敢不敢」勝過「能不能」，萬字解析可靈 AI 的「非典型」突圍路

鈦媒體APP 2026-04-09 19:29:35
0 跟貼 0
商湯“穿越周期”的價值一直被低估

36氪 2026-04-09 20:19:22
0 跟貼 0
快手辛巴重出江湖，高調拿下美女徒弟

新浪財經(jīng) 2026-04-09 18:35:19
3 跟貼 3
霍爾木茲海峽已再次關閉

央視新聞客戶端 2026-04-09 05:32:07
33106 跟貼 33106
太好了，這次是真的東北！“東北神調”在快手火了 | 地球知識局

地球知識局 2026-03-05 11:12:22
0 跟貼 0
開發(fā)時間從數(shù)月縮短到幾天，Anthropic開始批發(fā)智能體了

智東西 2026-04-09 15:54:18
1 跟貼 1
“龍蝦熱”能持續(xù)多久？AI智能體重塑軟件業(yè)的危與機

財聯(lián)社 2026-04-09 19:30:06
0 跟貼 0
GenEval從61%狂拉到92%，全面超越GPT-4o的TDM-R1模型來了

機器之心Pro 2026-04-09 19:57:13
0 跟貼 0
黎巴嫩宣布全國哀悼

南方都市報 2026-04-09 09:24:03
23844 跟貼 23844
豆包「最新版」首發(fā)別克，大模型上車熱來了

新智駕 2026-04-09 18:08:13
0 跟貼 0
探索無限：2的根號迭代之旅

文明不過星感冒v 2026-04-08 10:40:09
0 跟貼 0
大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0
他在牢里當老大，她在外頭挖坑埋了他

萌妹觀影 2026-04-08 11:19:01
1 跟貼 1
辛中驛大集，吊爐大燒餅元一個，我在快手為奧運健兒加油

干飯人小張呀 2026-04-05 10:42:07
0 跟貼 0
賈淺淺，真深深地查？

第五小強 2026-04-10 00:25:57
0 跟貼 0
女生寫論文僅睡4小時，鍛煉時倒下心跳呼吸全無，救治3天奇跡蘇醒

掌聞視訊 2026-04-07 18:32:55
0 跟貼 0
新華視評｜算法成“算計”此風當剎

新華社 2026-04-08 14:14:05
0 跟貼 0
賈淺淺被指涉嫌學術論文抄襲，西北大學：已啟動調查

梨視頻 2026-04-09 19:45:23
0 跟貼 0
賈平凹女兒賈淺淺論文涉大面積抄襲

中安在線 2026-04-09 15:44:01
0 跟貼 0
女生熬夜寫論文，每天僅睡4小時。跑步時猝死倒地，救治3天奇跡蘇醒

齊魯頻道 2026-04-08 10:05:30
0 跟貼 0
城市更新顛覆購房邏輯，財富縮水風險

紀超講樓市 2026-04-08 06:16:42
0 跟貼 0
微軟把發(fā)售日藏進數(shù)學公式，玩家解了3小時才看懂

字節(jié)漫游指南 2026-04-09 16:28:56
0 跟貼 0
不到一個月已融資2.7億美元！地瓜機器人“一腦多形”加速全球化

每日經(jīng)濟新聞 2026-04-09 21:43:05
0 跟貼 0
亞馬遜計劃在密西西比州數(shù)據(jù)中心投資250億美元

財聯(lián)社 2026-04-09 23:20:03
0 跟貼 0
21歲女大學生熬夜寫論文，鍛煉時突然倒地心跳呼吸全無

江西都市現(xiàn)場 2026-04-07 15:48:08
0 跟貼 0
看見車上有這種“裝飾”，請立刻報警！

吳中公安 2026-04-09 19:16:09
0 跟貼 0
Meta億元天團首個大模型交卷！耗時九個月，一雪Llama前恥

量子位 2026-04-09 09:48:05
8 跟貼 8
亞馬遜股價延續(xù)漲勢，最新上漲3.8%

每日經(jīng)濟新聞 2026-04-09 23:28:04
0 跟貼 0

51集諜戰(zhàn)大劇來襲，連續(xù)4天全國第一，這部諜戰(zhàn)作品值得一看

AI異類

從硅谷到中關村，AI信息與測評

148文章數(shù) 6關注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

時尚

手機

公開課

軍事航空

家居要聞

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產(chǎn)30天

手機 / 數(shù)碼

房產(chǎn) / 家居

快手新論文：用模型把推薦算法寫成詩

Meta凌晨首發(fā)閉源大模型 扎克伯格又行了？

以色列總理：同意與黎巴嫩直接談判

以色列總理：同意與黎巴嫩直接談判

8萬人面前心臟驟停 現(xiàn)在他還站在球場上

金莎官宣結婚 與老公孫丞瀟相差18歲

停火又懸了，最糟糕的情況要來了？

文飛掌舵，給神行者帶來了什么？

態(tài)度原創(chuàng)

清新自然 復古風尚

越來越流行的松弛感穿搭，照著穿就很好看

榮耀600系列再次曝光：AI兩億主攝+AI按鍵，電池超大！

黎真主黨發(fā)射火箭彈 回應以違反?；饏f(xié)議

Meta凌晨首發(fā)閉源大模型扎克伯格又行了？

8萬人面前心臟驟停現(xiàn)在他還站在球場上

金莎官宣結婚與老公孫丞瀟相差18歲

停火又懸了，最糟糕的情況要來了？

文飛掌舵，給神行者帶來了什么？

清新自然復古風尚

榮耀600系列再次曝光：AI兩億主攝+AI按鍵，電池超大！

黎真主黨發(fā)射火箭彈回應以違反?；饏f(xié)議