網易首頁 > 網易號 > 正文申請入駐

姚順雨在騰訊首個研究：在“上下文”這事上，在座的各位都不及格

2026-02-05 10:11:02　來源: 硅星人

北京舉報

分享至

作者｜周一笑
郵箱｜ zhouyixiao@pingwest.com

2025年4月，還在OpenAI的姚順雨發(fā)了一篇博文《The Second Half》，提出一個判斷：AI進入下半場了，接下來比的不是誰模型更大，而是誰能更好地定義問題。

半年后他加入騰訊。又過了兩個月，他主導的第一個研究成果發(fā)布了。這個成果并未推出新模型，它直接拋出了一個數(shù)據，GPT-5.1在一項新測試中只拿到了23.7%。

測試的設定很簡單，把所有需要的信息都放在上下文里，讓模型去完成任務?？嫉氖悄Ｐ湍芊駨难矍暗牟牧侠飳W會新東西。

結果是模型看了，但沒學會。

沒法作弊的考試

這篇論文叫CL-bench，全稱Context Learning Benchmark，2026年2月3日由騰訊混元團隊和復旦大學聯(lián)合發(fā)布。作為項目負責人，姚順雨排在作者列表的最后一位。

Context Learning不是新概念，但這篇論文對它的定義極為苛刻，模型必須從上下文中學習到預訓練階段不存在的新知識，并正確應用。簡單說，要讓模型現(xiàn)場學會它沒見過的東西，不只是“回憶”它以前見過的內容。

為了實現(xiàn)這個目標，研究團隊在數(shù)據構建上下了狠功夫。

目前業(yè)界防止數(shù)據污染最常見的做法比較簡單粗暴，設定時間切割點（比如只考2024年以后的新聞）、把題庫藏起來不公開、或者用算法去重。CL-bench做的完全是另一回事，它在“造物”。

研究團隊組織了一批領域專家，憑空虛構了多個平行宇宙和假知識。比如，他們編造了一部叫《Sol Accord》（索爾協(xié)定）的星際法律，在現(xiàn)實中根本不存在，模型不可能在預訓練數(shù)據里背過相關法條；他們還編造了一個SkyNet無人機SDK，里面的函數(shù)名、調用規(guī)則全是假的，模型如果用它記憶里的Python知識去寫代碼，必錯無疑。此外，他們還修改了現(xiàn)實世界的內容來創(chuàng)建變體，比如改變歷史事件的走向、調整科學定義，并納入一些極其小眾、幾乎不可能出現(xiàn)在預訓練數(shù)據中的長尾內容。

即便是表現(xiàn)最好的 GPT-5.1平均得分也僅為23.7分。

這種通過“反事實”和“全虛構”來構建benchmark的方法，是對抗刷榜最徹底、也是最難的手段。驗證效果很直接，在不給任何上下文的情況下，讓GPT-5.1直接做這些任務，結果只能做對不到1%。這說明模型確實沒見過這些知識，必須從給定的上下文里學。沒法作弊，也是通過率只有17.2%的核心原因。

最終，CL-bench包含了500個復雜上下文、1899個任務、31607個驗證標準。平均每個上下文的標注耗時約20小時，全部由資深領域專家制作。這個工作量本身就說明了研究團隊的野心，他們想造的不是一個刷分榜單，而是一把真正能測出模型“學習能力”的尺子。

四種角色，四場考試

在這場測試中，AI需要扮演四種角色。

有時它是法官，需要依據一部從未見過的虛構法律斷案。給它一部長達2.3萬字、剛剛生效的新法律，讓它判一起真實糾紛。法條全是新的，判例全是新的，模型必須現(xiàn)場閱讀、理解、應用。

有時它是程序員，必須用一種全新的語法寫代碼。比如基于一門新設計的編程語言規(guī)范，實現(xiàn)一個帶有時間條件終止的周期性程序。模型如果用它記憶里的語法，必錯無疑。它必須嚴格遵守這個"假文檔"的規(guī)則。

有時它是操作員，需要在一套從未見過的工作流系統(tǒng)里完成任務。按照一份全新的產品手冊，一步步執(zhí)行操作。流程圖是新的，術語是新的，約束條件是新的。

最難的時候，它要像科學家一樣，面對一堆雜亂的實驗數(shù)據，自己從頭推導規(guī)律。比如分析300份原始實驗日志，推導關系式并估計共振常數(shù)。前三種角色本質上是演繹推理，給你規(guī)則讓你應用。這一種是歸納推理，讓你從數(shù)據中自己發(fā)現(xiàn)規(guī)則。

這四類場景覆蓋了大部分真實工作中需要的學習能力：讀文檔、學規(guī)則、照流程、找規(guī)律。這也是為什么CL-bench的結果如此令人擔憂，如果模型連這些基本的學習任務都做不好，它在真實工作場景中的表現(xiàn)可想而知。

CL-bench的任務類別分布

前沿模型集體翻車

研究團隊在CL-bench上測試了十個最先進的語言模型，結果相當慘淡。

平均任務解決率只有17.2%。表現(xiàn)最好的GPT-5.1 (High)也只有23.7%。要知道，所有完成任務需要的信息都已經明確給出了，就在上下文里，模型卻在絕大多數(shù)任務上失敗了。

論文詳細分析了失敗原因，幾個發(fā)現(xiàn)值得注意。

忽略或誤用上下文是導致失敗的主要原因。導致錯誤的主因往往并非信息缺失，模型對上下文關鍵細節(jié)的忽視才是癥結所在。更有意思的是，在許多情況下，模型會傾向于使用它在預訓練階段學到的"老經驗"來解決任務，即使上下文明確定義了新的規(guī)則、概念或程序，它也不去學習和使用。這就像一個固執(zhí)的老員工，寧可用自己的老辦法，也不愿意看新文檔。

長上下文處理和指令遵循是必要但不充分條件。那些難以跨上下文追蹤依賴關系或難以精確遵循約束的模型，表現(xiàn)確實更差。但即使是能夠處理長輸入、可靠遵循指令的模型，仍然在許多任務上失敗。這說明上下文學習需要的能力，遠不止能處理長文本和能“聽話”。

歸納推理遠比演繹推理難。在科學家類任務上，模型的表現(xiàn)明顯更差，任務解決率通常低于10%，而且結果波動很大。從數(shù)據中發(fā)現(xiàn)規(guī)律，比應用給定的規(guī)則要難得多。這或許指向了當前大模型架構的一個根本性局限。

此外，論文還發(fā)現(xiàn)，更高的推理強度通常能提升上下文學習效果。比如GPT-5.1在高推理強度設置下，在某些任務上的表現(xiàn)提升了約6%。但其他模型提升有限甚至下降，說明單靠多想一會兒并不夠，模型還必須能正確吸收和組織上下文信息。

姚順雨的預判

2025年4月，姚順雨在博文《The Second Half》中提出了一個核心觀點，AI發(fā)展正在從“上半場”進入“下半場”。上半場的主題是如何訓練出更強的模型，更大的參數(shù)、更多的數(shù)據、更強的算力。下半場的主題則變了，如何定義正確的問題，如何評估真正的進步。

他寫道，評估將比訓練更重要。我們不再只是問“我們能訓練出一個能解決X的模型嗎”，而是在問“我們應該訓練AI去做什么，以及如何衡量真正的進步”。

在一次訪談中，他進一步解釋，現(xiàn)在方法的問題已基本解決，真正重要的是，我們要用這個通用方法，解決什么問題？

CL-bench定義了什么問題？它定義的問題是，模型能否從當前上下文中學習？

這個問題之前被忽視了。行業(yè)的隱含假設是，只要上下文給到位（context engineering做得好），模型就能完成任務。CL-bench的數(shù)據打破了這個假設，給到位，不等于做得對。上下文學習，作為一項基礎的模型能力，被嚴重低估了。

姚順雨在2024年主導過另一個benchmark，τ-bench（ICLR 2025）。那個測試關注的是Agent能否遵循領域規(guī)則、與用戶進行多輪交互。CL-bench則更進一步，測的是模型能否從上下文學習新知識。兩者共同指向一個判斷，真實世界需要的是學習能力，而非做題能力。

CL-bench論文原文有一段話很精準：大語言模型主要依賴“參數(shù)化知識”，這是預訓練階段壓縮進模型權重的靜態(tài)記憶。推理時，模型大多調用這些存儲的內部知識，而非主動從新輸入信息中吸收養(yǎng)分。因此，當前優(yōu)化的模型擅長推理它們“知道”的事情，但用戶需要的是讓模型解決依賴于混亂且動態(tài)變化的上下文的任務。

行業(yè)正在發(fā)生什么變化

如果把近幾年AI發(fā)展的主旋律做個簡單梳理，大致是這樣的：2024年的主旋律是Scaling，更大的模型、更多的數(shù)據、更強的算力；2025年的主旋律是Reasoning，以o1、R1、Deep Research為代表的推理能力提升。

那么2026年呢？CL-bench指向了一個可能的新方向，Context Learning。

從Prompt Engineering到Context Learning的演進路徑

有意思的是，西方大廠目前主要在解決另一個問題。Anthropic在2024年底發(fā)布了MCP（Model Context Protocol），OpenAI和Google隨后跟進，這個協(xié)議被稱為AI界的USB-C"，目的是讓模型更容易接入外部工具和數(shù)據源。2025年12月，Anthropic、OpenAI和Block聯(lián)合成立了Agentic AI Foundation，將MCP捐贈給Linux基金會，推動開源標準化。同月，Anthropic又發(fā)布了Agent Skills開放標準，讓AI能執(zhí)行更具體的任務。

這些努力解決的都是如何把context送進模型的問題，如何讓模型接入更多數(shù)據源，如何讓模型調用更多工具，如何讓模型執(zhí)行更復雜的工作流。

CL-bench問的是，送進去之后，模型能學會嗎？

Anthropic自己的研究也觸及了類似問題。他們在關于context engineering的博文中提到了context rot現(xiàn)象，隨著上下文長度增加，模型召回信息的能力會下降。但CL-bench揭示的問題是。即使上下文不長，模型也不一定能“學會”里面的新知識。這是學習能力，與檢索無關。

論文在展望部分提到了一個更遠的挑戰(zhàn)，即使上下文學習能力提升了，它仍然是“會消失的”（ephemeral），上下文窗口清空，學到的東西就沒了。下一步的挑戰(zhàn)是Memory Consolidation（記憶鞏固），如何讓從上下文中學到的知識持久化？這可能是2026年之后的新戰(zhàn)場。

這對騰訊意味著什么

姚順雨入職騰訊后主導的第一個研究輸出，他選擇用一個benchmark重新定義問題。

目前騰訊混元在國內大模型市場的份額并不領先，字節(jié)豆包、阿里通義排在前面。在這個局面下，騰訊選擇關注一個更基礎的問題：模型的學習能力。

這個選擇可能和騰訊的業(yè)務基因有關。騰訊是社交和游戲巨頭，其核心業(yè)務本質就是海量的“動態(tài)上下文”，聊天記錄、游戲狀態(tài)、用戶行為。姚順雨強調Context Learning，可能是在為騰訊最核心的業(yè)務場景打地基，讓AI讀懂此時此刻的用戶，而不是通過預訓練讀懂過去的用戶。

他入職后說過：騰訊To C基因更強，要思考如何讓大模型給用戶提供更多價值。很多時候需要的不是更大模型、更強的強化學習，而是額外的Context。

這或許才是AI真正進入人類社會的門票，不再做一個博學的旁觀者。

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.