国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

姚順雨在騰訊首個研究:在“上下文”這事上,在座的各位都不及格

0
分享至


作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com

2025年4月,還在OpenAI的姚順雨發(fā)了一篇博文《The Second Half》,提出一個判斷:AI進入下半場了,接下來比的不是誰模型更大,而是誰能更好地定義問題。

半年后他加入騰訊。又過了兩個月,他主導的第一個研究成果發(fā)布了。這個成果并未推出新模型,它直接拋出了一個數(shù)據,GPT-5.1在一項新測試中只拿到了23.7%。

測試的設定很簡單,把所有需要的信息都放在上下文里,讓模型去完成任務??嫉氖悄P湍芊駨难矍暗牟牧侠飳W會新東西。

結果是模型看了,但沒學會。

1

沒法作弊的考試

這篇論文叫CL-bench,全稱Context Learning Benchmark,2026年2月3日由騰訊混元團隊和復旦大學聯(lián)合發(fā)布。作為項目負責人,姚順雨排在作者列表的最后一位。


Context Learning不是新概念,但這篇論文對它的定義極為苛刻,模型必須從上下文中學習到預訓練階段不存在的新知識,并正確應用。簡單說,要讓模型現(xiàn)場學會它沒見過的東西,不只是“回憶”它以前見過的內容。

為了實現(xiàn)這個目標,研究團隊在數(shù)據構建上下了狠功夫。

目前業(yè)界防止數(shù)據污染最常見的做法比較簡單粗暴,設定時間切割點(比如只考2024年以后的新聞)、把題庫藏起來不公開、或者用算法去重。CL-bench做的完全是另一回事,它在“造物”。

研究團隊組織了一批領域專家,憑空虛構了多個平行宇宙和假知識。比如,他們編造了一部叫《Sol Accord》(索爾協(xié)定)的星際法律,在現(xiàn)實中根本不存在,模型不可能在預訓練數(shù)據里背過相關法條;他們還編造了一個SkyNet無人機SDK,里面的函數(shù)名、調用規(guī)則全是假的,模型如果用它記憶里的Python知識去寫代碼,必錯無疑。此外,他們還修改了現(xiàn)實世界的內容來創(chuàng)建變體,比如改變歷史事件的走向、調整科學定義,并納入一些極其小眾、幾乎不可能出現(xiàn)在預訓練數(shù)據中的長尾內容。


即便是表現(xiàn)最好的 GPT-5.1平均得分也僅為23.7分。

這種通過“反事實”和“全虛構”來構建benchmark的方法,是對抗刷榜最徹底、也是最難的手段。驗證效果很直接,在不給任何上下文的情況下,讓GPT-5.1直接做這些任務,結果只能做對不到1%。這說明模型確實沒見過這些知識,必須從給定的上下文里學。沒法作弊,也是通過率只有17.2%的核心原因。

最終,CL-bench包含了500個復雜上下文、1899個任務、31607個驗證標準。平均每個上下文的標注耗時約20小時,全部由資深領域專家制作。這個工作量本身就說明了研究團隊的野心,他們想造的不是一個刷分榜單,而是一把真正能測出模型“學習能力”的尺子。

1

四種角色,四場考試

在這場測試中,AI需要扮演四種角色。

有時它是法官,需要依據一部從未見過的虛構法律斷案。給它一部長達2.3萬字、剛剛生效的新法律,讓它判一起真實糾紛。法條全是新的,判例全是新的,模型必須現(xiàn)場閱讀、理解、應用。

有時它是程序員,必須用一種全新的語法寫代碼。比如基于一門新設計的編程語言規(guī)范,實現(xiàn)一個帶有時間條件終止的周期性程序。模型如果用它記憶里的語法,必錯無疑。它必須嚴格遵守這個"假文檔"的規(guī)則。

有時它是操作員,需要在一套從未見過的工作流系統(tǒng)里完成任務。按照一份全新的產品手冊,一步步執(zhí)行操作。流程圖是新的,術語是新的,約束條件是新的。

最難的時候,它要像科學家一樣,面對一堆雜亂的實驗數(shù)據,自己從頭推導規(guī)律。比如分析300份原始實驗日志,推導關系式并估計共振常數(shù)。前三種角色本質上是演繹推理,給你規(guī)則讓你應用。這一種是歸納推理,讓你從數(shù)據中自己發(fā)現(xiàn)規(guī)則。

這四類場景覆蓋了大部分真實工作中需要的學習能力:讀文檔、學規(guī)則、照流程、找規(guī)律。這也是為什么CL-bench的結果如此令人擔憂,如果模型連這些基本的學習任務都做不好,它在真實工作場景中的表現(xiàn)可想而知。


CL-bench的任務類別分布

1

前沿模型集體翻車

研究團隊在CL-bench上測試了十個最先進的語言模型,結果相當慘淡。

平均任務解決率只有17.2%。表現(xiàn)最好的GPT-5.1 (High)也只有23.7%。要知道,所有完成任務需要的信息都已經明確給出了,就在上下文里,模型卻在絕大多數(shù)任務上失敗了。


論文詳細分析了失敗原因,幾個發(fā)現(xiàn)值得注意。

忽略或誤用上下文是導致失敗的主要原因。導致錯誤的主因往往并非信息缺失,模型對上下文關鍵細節(jié)的忽視才是癥結所在。更有意思的是,在許多情況下,模型會傾向于使用它在預訓練階段學到的"老經驗"來解決任務,即使上下文明確定義了新的規(guī)則、概念或程序,它也不去學習和使用。這就像一個固執(zhí)的老員工,寧可用自己的老辦法,也不愿意看新文檔。

長上下文處理和指令遵循是必要但不充分條件。那些難以跨上下文追蹤依賴關系或難以精確遵循約束的模型,表現(xiàn)確實更差。但即使是能夠處理長輸入、可靠遵循指令的模型,仍然在許多任務上失敗。這說明上下文學習需要的能力,遠不止能處理長文本和能“聽話”。

歸納推理遠比演繹推理難。在科學家類任務上,模型的表現(xiàn)明顯更差,任務解決率通常低于10%,而且結果波動很大。從數(shù)據中發(fā)現(xiàn)規(guī)律,比應用給定的規(guī)則要難得多。這或許指向了當前大模型架構的一個根本性局限。

此外,論文還發(fā)現(xiàn),更高的推理強度通常能提升上下文學習效果。比如GPT-5.1在高推理強度設置下,在某些任務上的表現(xiàn)提升了約6%。但其他模型提升有限甚至下降,說明單靠多想一會兒并不夠,模型還必須能正確吸收和組織上下文信息。

1

姚順雨的預判

2025年4月,姚順雨在博文《The Second Half》中提出了一個核心觀點,AI發(fā)展正在從“上半場”進入“下半場”。上半場的主題是如何訓練出更強的模型,更大的參數(shù)、更多的數(shù)據、更強的算力。下半場的主題則變了,如何定義正確的問題,如何評估真正的進步。

他寫道,評估將比訓練更重要。我們不再只是問“我們能訓練出一個能解決X的模型嗎”,而是在問“我們應該訓練AI去做什么,以及如何衡量真正的進步”。

在一次訪談中,他進一步解釋,現(xiàn)在方法的問題已基本解決,真正重要的是,我們要用這個通用方法,解決什么問題?

CL-bench定義了什么問題?它定義的問題是,模型能否從當前上下文中學習?

這個問題之前被忽視了。行業(yè)的隱含假設是,只要上下文給到位(context engineering做得好),模型就能完成任務。CL-bench的數(shù)據打破了這個假設,給到位,不等于做得對。上下文學習,作為一項基礎的模型能力,被嚴重低估了。

姚順雨在2024年主導過另一個benchmark,τ-bench(ICLR 2025)。那個測試關注的是Agent能否遵循領域規(guī)則、與用戶進行多輪交互。CL-bench則更進一步,測的是模型能否從上下文學習新知識。兩者共同指向一個判斷,真實世界需要的是學習能力,而非做題能力。

CL-bench論文原文有一段話很精準:大語言模型主要依賴“參數(shù)化知識”,這是預訓練階段壓縮進模型權重的靜態(tài)記憶。推理時,模型大多調用這些存儲的內部知識,而非主動從新輸入信息中吸收養(yǎng)分。因此,當前優(yōu)化的模型擅長推理它們“知道”的事情,但用戶需要的是讓模型解決依賴于混亂且動態(tài)變化的上下文的任務。

1

行業(yè)正在發(fā)生什么變化

如果把近幾年AI發(fā)展的主旋律做個簡單梳理,大致是這樣的:2024年的主旋律是Scaling,更大的模型、更多的數(shù)據、更強的算力;2025年的主旋律是Reasoning,以o1、R1、Deep Research為代表的推理能力提升。

那么2026年呢?CL-bench指向了一個可能的新方向,Context Learning。


從Prompt Engineering到Context Learning的演進路徑

有意思的是,西方大廠目前主要在解決另一個問題。Anthropic在2024年底發(fā)布了MCP(Model Context Protocol),OpenAI和Google隨后跟進,這個協(xié)議被稱為AI界的USB-C",目的是讓模型更容易接入外部工具和數(shù)據源。2025年12月,Anthropic、OpenAI和Block聯(lián)合成立了Agentic AI Foundation,將MCP捐贈給Linux基金會,推動開源標準化。同月,Anthropic又發(fā)布了Agent Skills開放標準,讓AI能執(zhí)行更具體的任務。

這些努力解決的都是如何把context送進模型的問題,如何讓模型接入更多數(shù)據源,如何讓模型調用更多工具,如何讓模型執(zhí)行更復雜的工作流。

CL-bench問的是,送進去之后,模型能學會嗎?

Anthropic自己的研究也觸及了類似問題。他們在關于context engineering的博文中提到了context rot現(xiàn)象,隨著上下文長度增加,模型召回信息的能力會下降。但CL-bench揭示的問題是。即使上下文不長,模型也不一定能“學會”里面的新知識。這是學習能力,與檢索無關。

論文在展望部分提到了一個更遠的挑戰(zhàn),即使上下文學習能力提升了,它仍然是“會消失的”(ephemeral),上下文窗口清空,學到的東西就沒了。下一步的挑戰(zhàn)是Memory Consolidation(記憶鞏固),如何讓從上下文中學到的知識持久化?這可能是2026年之后的新戰(zhàn)場。

1

這對騰訊意味著什么

姚順雨入職騰訊后主導的第一個研究輸出,他選擇用一個benchmark重新定義問題。

目前騰訊混元在國內大模型市場的份額并不領先,字節(jié)豆包、阿里通義排在前面。在這個局面下,騰訊選擇關注一個更基礎的問題:模型的學習能力。

這個選擇可能和騰訊的業(yè)務基因有關。騰訊是社交和游戲巨頭,其核心業(yè)務本質就是海量的“動態(tài)上下文”,聊天記錄、游戲狀態(tài)、用戶行為。姚順雨強調Context Learning,可能是在為騰訊最核心的業(yè)務場景打地基,讓AI讀懂此時此刻的用戶,而不是通過預訓練讀懂過去的用戶。

他入職后說過:騰訊To C基因更強,要思考如何讓大模型給用戶提供更多價值。很多時候需要的不是更大模型、更強的強化學習,而是額外的Context。

這或許才是AI真正進入人類社會的門票,不再做一個博學的旁觀者。


點個愛心,再走 吧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
AI會在所有事情上超越我們!3800億估值公司CEO警告:海嘯將至人類卻假裝沒看到

AI會在所有事情上超越我們!3800億估值公司CEO警告:海嘯將至人類卻假裝沒看到

知識圈
2026-02-27 16:57:06
王思聰母親林寧疑似低調探視孩子!母愛無聲卻溫暖人心

王思聰母親林寧疑似低調探視孩子!母愛無聲卻溫暖人心

草莓解說體育
2026-03-01 01:40:14
持續(xù)4天空襲!從德黑蘭到伊斯法罕:美以優(yōu)先癱瘓伊朗指揮體系

持續(xù)4天空襲!從德黑蘭到伊斯法罕:美以優(yōu)先癱瘓伊朗指揮體系

裝甲鏟史官
2026-02-28 16:11:24
率隊2-1絕殺!U23國足隊長留洋爆發(fā):穿10號送助攻雙響 視頻曝光

率隊2-1絕殺!U23國足隊長留洋爆發(fā):穿10號送助攻雙響 視頻曝光

侃球熊弟
2026-02-28 10:06:33
羅馬皇帝征服帕爾米拉,下命羞辱反叛女皇芝諾比婭碾碎她的尊嚴

羅馬皇帝征服帕爾米拉,下命羞辱反叛女皇芝諾比婭碾碎她的尊嚴

嘮叨說歷史
2026-01-15 16:34:01
搬家前我拔了路由器,隔壁寶媽竟報警抓我,當晚,我讓她沒招了

搬家前我拔了路由器,隔壁寶媽竟報警抓我,當晚,我讓她沒招了

奶茶麥子
2026-02-28 18:51:07
第一批免簽去俄羅斯的中產傻眼了

第一批免簽去俄羅斯的中產傻眼了

風向觀察
2025-12-16 18:26:08
基辛格直言,美國100年搞垮了4個世界老二,第五個會反手干掉美國

基辛格直言,美國100年搞垮了4個世界老二,第五個會反手干掉美國

文史達觀
2024-03-07 14:02:52
多米尼加總統(tǒng)稱發(fā)現(xiàn)逾1.5億噸稀土礦藏 或將成關鍵礦產供應國

多米尼加總統(tǒng)稱發(fā)現(xiàn)逾1.5億噸稀土礦藏 或將成關鍵礦產供應國

財聯(lián)社
2026-02-28 19:05:08
中國駐符拉迪沃斯托克總領館:18-65歲在俄長期居留男性 須同意在俄軍事單位等至少服役1年

中國駐符拉迪沃斯托克總領館:18-65歲在俄長期居留男性 須同意在俄軍事單位等至少服役1年

閃電新聞
2026-02-26 12:56:09
荷蘭半導體專家:ASML花費40年鉆研光刻機,中國企業(yè)竟比ASML還狠

荷蘭半導體專家:ASML花費40年鉆研光刻機,中國企業(yè)竟比ASML還狠

策略述
2026-02-28 17:11:40
中國最后一位太監(jiān)孫耀庭自述:晚上伺候娘娘時,鞋底必須藏蒼耳

中國最后一位太監(jiān)孫耀庭自述:晚上伺候娘娘時,鞋底必須藏蒼耳

妙知
2025-08-28 10:19:43
美媒稱自由式滑雪女王谷愛凌“浮現(xiàn)新謎團” ,出生記錄父親欄為空白

美媒稱自由式滑雪女王谷愛凌“浮現(xiàn)新謎團” ,出生記錄父親欄為空白

阿廢冷眼觀察所
2026-02-28 16:14:52
大炮一響,黃金萬兩:美伊畫風突變,市場預期直接被“炸”翻

大炮一響,黃金萬兩:美伊畫風突變,市場預期直接被“炸”翻

債市邦
2026-02-28 17:24:38
你占過最大的便宜是啥?網友:我也是,撿漏一個老公

你占過最大的便宜是啥?網友:我也是,撿漏一個老公

帶你感受人間冷暖
2026-02-25 00:17:46
上海政府給他們外地人每人免費送套房子,未來可行,短期內還不會

上海政府給他們外地人每人免費送套房子,未來可行,短期內還不會

上海云河
2026-02-28 19:06:33
伊朗的投降王牌:只要美國松綁,出賣中國利益絕不會有半點猶豫

伊朗的投降王牌:只要美國松綁,出賣中國利益絕不會有半點猶豫

老范談史
2026-02-28 06:45:51
“黃暴”美劇《斯巴達克斯》中最讓人垂涎欲滴的三個女角色

“黃暴”美劇《斯巴達克斯》中最讓人垂涎欲滴的三個女角色

小徐講八卦
2026-02-17 12:05:05
澳門的賭臺,正在批量消失!不是沒人賭了而是算法讓賭客徹底破防

澳門的賭臺,正在批量消失!不是沒人賭了而是算法讓賭客徹底破防

芭比衣櫥
2026-02-28 00:22:21
商務部:自2026年3月1日起,對原產于加拿大的進口油菜籽征收反傾銷稅

商務部:自2026年3月1日起,對原產于加拿大的進口油菜籽征收反傾銷稅

界面新聞
2026-02-28 15:35:48
2026-03-01 08:28:49
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎,歡迎來到這個星球。
2894文章數(shù) 10458關注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

特朗普:對伊朗的不間斷打擊將持續(xù)一周甚至更長時間

頭條要聞

特朗普:對伊朗的不間斷打擊將持續(xù)一周甚至更長時間

體育要聞

球隊主力全報銷?頂風擺爛演都不演了

娛樂要聞

周杰倫兒子正面照曝光,與父親好像

財經要聞

沖突爆發(fā) 市場變天?

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

藝術
旅游
本地
手機
公開課

藝術要聞

驚艷!這位天使般的女子與油畫讓人心動不已!

旅游要聞

北京頤和園蠟梅刷屏,70年古株盛放,藏著早春最動人的中國式浪漫

本地新聞

津南好·四時總相宜

手機要聞

小米17/17 Ultra國際版發(fā)布:售價過萬 國行版用戶看完直呼賺了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版