国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

剛剛,騰訊姚順雨團(tuán)隊(duì)首個(gè)成果發(fā)布!揭示大模型真正瓶頸

0
分享至


智東西
作者 程茜
編輯 心緣

智東西2月3日?qǐng)?bào)道,剛剛,騰訊混元官網(wǎng)正式上線姚順雨團(tuán)隊(duì)最新成果,發(fā)布了專門評(píng)測大語言模型能否從上下文(Context)中學(xué)習(xí)新知識(shí)并正確應(yīng)用的基準(zhǔn)CL-bench。

這是姚順雨加入騰訊混元擔(dān)任首席AI科學(xué)家后,其團(tuán)隊(duì)首次發(fā)布研究成果,也是騰訊混元技術(shù)博客首次公開。


▲騰訊混元技術(shù)博客及致謝部分

大模型與人類在解決問題時(shí)關(guān)鍵區(qū)別為,大模型只能依賴預(yù)訓(xùn)練階段的靜態(tài)記憶,而人可以實(shí)時(shí)根據(jù)現(xiàn)場情況完成任務(wù)。騰訊混元研究團(tuán)隊(duì)實(shí)測發(fā)現(xiàn),當(dāng)前的SOTA模型幾乎都不會(huì)從上下文中學(xué)習(xí),表現(xiàn)最好的GPT-5.1(high)任務(wù)成功率也僅有23.7%。


基于此,該團(tuán)隊(duì)打造CL-bench就只有一個(gè)核心目標(biāo):要求模型在解決每個(gè)任務(wù)時(shí),都必須從上下文中學(xué)習(xí)模型預(yù)訓(xùn)練中不存在的新知識(shí),并正確應(yīng)用。

騰訊混元技術(shù)博客地址:https://hy.tencent.com/research

項(xiàng)目主頁:www.clbench.com

一、讓大模型不再死記硬背,新基準(zhǔn)包含500個(gè)復(fù)雜上下文任務(wù)

過去幾年,大語言模型進(jìn)步飛快,能解開奧數(shù)級(jí)別的難題、推演復(fù)雜的編程邏輯,甚至能通過那些人類需要苦讀數(shù)年才能拿下的專業(yè)資格考試。但其背后有一個(gè)關(guān)鍵門檻,大模型即使能在考場拿滿分,但未必能勝任真實(shí)世界工作。

人類可以在執(zhí)行任務(wù)中實(shí)時(shí)從眼前的環(huán)境進(jìn)行學(xué)習(xí)。但大語言模型主要依賴“參數(shù)化知識(shí)”,即在預(yù)訓(xùn)練階段被壓縮進(jìn)模型權(quán)重里的靜態(tài)記憶。在推理時(shí),模型更多是在調(diào)用這些封存的內(nèi)部知識(shí),而不是主動(dòng)從當(dāng)前輸入的新信息中汲取營養(yǎng)。

因此,目前優(yōu)化出的模型擅長對(duì)自己“已知”的事物進(jìn)行推理,但用戶需要的,卻是讓模型解決那些依賴于雜亂、動(dòng)態(tài)變化的上下文的任務(wù)。

基于此,混元研究人員希望彌合這一差距,從根本上改變模型的優(yōu)化方向,他們構(gòu)建了專門評(píng)測大語言模型能否從上下文中學(xué)習(xí)新知識(shí)并正確應(yīng)用的基準(zhǔn)CL-bench。


▲大語言模型的范式轉(zhuǎn)變

CL-bench包含由專家制作的500個(gè)復(fù)雜上下文、1899個(gè)任務(wù)和31607個(gè)驗(yàn)證標(biāo)準(zhǔn)。其對(duì)模型的要求為:要求模型必須在解決每個(gè)任務(wù)都從上下文中學(xué)習(xí)到模型預(yù)訓(xùn)練中不存在的新知識(shí),并正確應(yīng)用。

模型需要學(xué)習(xí)的知識(shí)非常廣泛,包括新的領(lǐng)域知識(shí)、不熟悉的規(guī)則系統(tǒng)、復(fù)雜的產(chǎn)品工作流,甚至是必須從實(shí)驗(yàn)數(shù)據(jù)中推導(dǎo)歸納出的定律或結(jié)論。

所有這些知識(shí)要么是由領(lǐng)域?qū)<彝耆聵?gòu)建的,要么是取自那些不太可能出現(xiàn)在當(dāng)前前沿模型訓(xùn)練數(shù)據(jù)中的小眾、長尾來源。因此,模型無法通過回憶靜態(tài)的參數(shù)化知識(shí)來解決任務(wù),都要求模型從提供的上下文進(jìn)行學(xué)習(xí)并應(yīng)用。

具體來說,CL-bench涵蓋了四種廣泛的現(xiàn)實(shí)世界上下文學(xué)習(xí)場景:


▲CL-bench的上下文分類體系。

領(lǐng)域知識(shí)推理:上下文提供特定的領(lǐng)域知識(shí),例如虛構(gòu)的法律體系、創(chuàng)新的金融工具或小眾專業(yè)知識(shí),模型需要利用這些知識(shí)來推理并解決具體問題。

規(guī)則系統(tǒng)應(yīng)用:上下文提供新定義的正式系統(tǒng),例如新的游戲機(jī)制、數(shù)學(xué)形式體系、編程語法或技術(shù)標(biāo)準(zhǔn),模型必須理解并應(yīng)用這些規(guī)則來執(zhí)行任務(wù)。

程序性任務(wù)執(zhí)行:上下文提供復(fù)雜的過程系統(tǒng),例如工作流、產(chǎn)品手冊和操作指南,模型必須理解并應(yīng)用這些程序性信息來完成任務(wù)。

經(jīng)驗(yàn)發(fā)現(xiàn)與模擬:上下文提供復(fù)雜系統(tǒng)內(nèi)的實(shí)驗(yàn)數(shù)據(jù)、觀測記錄或模擬環(huán)境。與前幾類涉及演繹推理不同,這一類專注于歸納推理,模型必須從數(shù)據(jù)中發(fā)現(xiàn)潛在的定律或結(jié)論,并應(yīng)用它們來解決任務(wù)。


▲CL-bench示例,解決這些任務(wù)要求大語言模型從提供的上下文中學(xué)習(xí)

這些類別包含了大部分現(xiàn)實(shí)世界工作中常見的演繹推理和歸納推理任務(wù),能衡量模型的上下文學(xué)習(xí)能力。

二、模型成功率僅為17.2%,得出5大關(guān)鍵結(jié)論

研究人員在CL-bench上評(píng)估了十個(gè)主流大語言模型。

平均來看,模型僅解決了17.2%的任務(wù)。其中GPT-5.1(High)解決了23.7%的任務(wù)。

換句話說,盡管上下文中擁有解決每個(gè)任務(wù)所需的全部信息,但模型還是在絕大多數(shù)任務(wù)上都失敗了。這表明當(dāng)前的SOTA模型幾乎都不會(huì)從上下文中學(xué)習(xí)。


▲十個(gè)前沿模型在CL-bench上的任務(wù)解決率

混元研究團(tuán)隊(duì)得出幾個(gè)關(guān)鍵結(jié)論:

1)忽略或誤用上下文是導(dǎo)致失敗的主要原因。

許多錯(cuò)誤并非源于信息缺失,而是因?yàn)槟P秃鲆暳松舷挛闹械年P(guān)鍵細(xì)節(jié),或錯(cuò)誤地應(yīng)用了它們。在許多情況下,模型只會(huì)利用預(yù)訓(xùn)練學(xué)習(xí)到的靜態(tài)知識(shí)來解決任務(wù),即使上下文明確定義了新的規(guī)則、概念或程序,模型也不會(huì)學(xué)習(xí)和利用。


▲各模型錯(cuò)誤類型的分布

2、長上下文推理和指令遵循是必要的,但不是充分條件。

案例分析表明,那些難以跨長上下文追蹤依賴關(guān)系或難以精確遵循約束的模型,往往表現(xiàn)得更差。然而,即使是能夠處理長輸入并可靠遵循指令的模型,仍然在許多任務(wù)上失敗。上下文學(xué)習(xí)需要的能力,遠(yuǎn)不止長上下文理解和指令遵循能力。

3、從實(shí)驗(yàn)數(shù)據(jù)和環(huán)境模擬中進(jìn)行歸納推理比演繹應(yīng)用更困難。

演繹任務(wù)讓模型根據(jù)上下文中明確給出的規(guī)則和流程進(jìn)行應(yīng)用,而經(jīng)驗(yàn)發(fā)現(xiàn)和環(huán)境模擬類任務(wù)則要求歸納推理,也就是從數(shù)據(jù)中總結(jié)規(guī)律或在虛擬環(huán)境中探索。模型在這類任務(wù)上的表現(xiàn)明顯較差,任務(wù)解決率通常低于10%,且結(jié)果波動(dòng)大。這表明發(fā)現(xiàn)規(guī)律遠(yuǎn)比應(yīng)用規(guī)則更具挑戰(zhàn)性。


▲GPT-5.1在高/低推理強(qiáng)度設(shè)置下,各子類別表現(xiàn)對(duì)比

4、更高的推理強(qiáng)度通常能提升上下文學(xué)習(xí)效果。

對(duì)部分模型來說,增加推理強(qiáng)度可以改善表現(xiàn),使模型更深入地理解復(fù)雜上下文。例如,GPT-5.1在管理類和實(shí)驗(yàn)數(shù)據(jù)類任務(wù)上的表現(xiàn)提升約6%,但其他模型提升有限甚至可能下降,說明單靠更多推理并不足夠,模型還必須能夠正確吸收和組織上下文信息。


▲不同輸入長度下模型上下文學(xué)習(xí)表現(xiàn)的變化趨勢

5、上下文學(xué)習(xí)的難度與上下文長度相關(guān),但短上下文也可能很復(fù)雜。

較長的上下文通常讓所有模型的任務(wù)更難,這驗(yàn)證了長上下文處理仍是關(guān)鍵瓶頸。然而,即使是短上下文,如果包含信息密集、規(guī)則隱含、依賴復(fù)雜或約束嚴(yán)格的內(nèi)容,也依然很具挑戰(zhàn)性,說明上下文學(xué)習(xí)的難度不僅僅來源于長度,也來自于其復(fù)雜度。

CL-bench充分解釋了大語言模型在真實(shí)場景中為什么經(jīng)常出錯(cuò):即使有了上下文工程,給模型準(zhǔn)備好了所需的上下文,模型也會(huì)失敗。如果模型不能真正從中學(xué)習(xí),僅僅提供上下文是不夠的。上下文學(xué)習(xí)作為一項(xiàng)模型基礎(chǔ)的學(xué)習(xí)能力,很大程度上被忽視了。

三、上下文都是自包含,測試任務(wù)采用無污染設(shè)計(jì)

CL-bench中的每個(gè)上下文都是完全自包含(Self-contained)的,解決任務(wù)所需的所有信息都顯式地提供在上下文本身之中:不需要外部檢索,也不允許隱藏假設(shè)。


▲解決CL-bench中的任務(wù)需要模型從相應(yīng)的上下文中學(xué)習(xí)新知識(shí)

為了確保性能真正反映上下文學(xué)習(xí),而不是記憶或數(shù)據(jù)泄露,CL-bench采用了無污染(Contamination-free)設(shè)計(jì):

虛構(gòu)創(chuàng)作:專家創(chuàng)作完全虛構(gòu)的內(nèi)容,例如為虛構(gòu)國家設(shè)計(jì)一套完整的法律體系,包括新穎的判例和法律原則,或創(chuàng)建具有獨(dú)特語法和語義的新編程語言。

現(xiàn)有內(nèi)容的修改:專家修改現(xiàn)實(shí)世界的內(nèi)容以創(chuàng)建變體,例如更改歷史事件、改變科學(xué)和數(shù)學(xué)定義,或修改技術(shù)文檔和標(biāo)準(zhǔn)。

整合小眾和新興內(nèi)容:專家納入了在預(yù)訓(xùn)練數(shù)據(jù)集中代表性極低的小眾或近期新興內(nèi)容,如前沿研究發(fā)現(xiàn)、新發(fā)布的產(chǎn)品手冊或技術(shù)文檔,以及來自專門領(lǐng)域的特定知識(shí)。

在不提供任何上下文的情況下,GPT-5.1(High)僅能解決不到1%的任務(wù)。這也證明數(shù)據(jù)是無污染的,模型若不從Context中學(xué)習(xí),幾乎完全無法解決這些任務(wù)。

此外,CL-bench的設(shè)計(jì)具有高復(fù)雜性和序列依賴性。其中,51.1%的任務(wù)需要序列依賴,意味著后續(xù)任務(wù)的解決方案取決于早期交互的結(jié)果。這種多輪次設(shè)計(jì)會(huì)增加任務(wù)難度。

平均而言,領(lǐng)域?qū)<一ㄙM(fèi)約20小時(shí)標(biāo)注每個(gè)上下文,以確保任務(wù)構(gòu)建的質(zhì)量和深度。

與此同時(shí),CL-bench中的每個(gè)任務(wù)都是完全可驗(yàn)證的。每個(gè)上下文平均關(guān)聯(lián)63.2個(gè)驗(yàn)證標(biāo)準(zhǔn),每個(gè)任務(wù)包含16.6個(gè)評(píng)估標(biāo)準(zhǔn)。

結(jié)語:大模型如何記憶,將成2026年核心主題

混元技術(shù)博客還提到了混元研究團(tuán)隊(duì)后續(xù)的關(guān)注重點(diǎn),包括如何讓模型提升上下文學(xué)習(xí)能力、如何讓大模型從上下文中學(xué)習(xí)到的知識(shí)持久化。

如果模型的上下文學(xué)習(xí)能力能像之前其他能力那樣被提升上去,人類在AI系統(tǒng)中的角色將發(fā)生轉(zhuǎn)變:人類不再是主要的數(shù)據(jù)提供者(training data provider),而變成了上下文提供者。競爭的焦點(diǎn)將從“誰能把模型訓(xùn)練得更好”,轉(zhuǎn)向“誰能為任務(wù)提供最豐富、最相關(guān)的上下文”。

他們認(rèn)為,大模型如何記憶很可能成為2026年的另一個(gè)核心主題,要充分發(fā)揮大語言模型的潛力,可能需要新的架構(gòu)、新的優(yōu)化方式來決定“該保留什么”。

未來,一旦大模型上下文學(xué)習(xí)與記憶變得可靠,模型或許就能實(shí)現(xiàn)自主學(xué)習(xí),它們將自主準(zhǔn)備上下文,從中學(xué)習(xí)并自我鞏固。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
女子在胖東來1小時(shí)消費(fèi)近15萬,稱相信品質(zhì),排隊(duì)也要來買黃金,1分鐘試戴加付款,極速購買

女子在胖東來1小時(shí)消費(fèi)近15萬,稱相信品質(zhì),排隊(duì)也要來買黃金,1分鐘試戴加付款,極速購買

觀威海
2026-02-26 10:54:09
超級(jí)杯海港VS北京國安:雙鐵腰坐鎮(zhèn) 蒯紀(jì)聞?lì)I(lǐng)銜 中國香港前鋒出擊

超級(jí)杯海港VS北京國安:雙鐵腰坐鎮(zhèn) 蒯紀(jì)聞?lì)I(lǐng)銜 中國香港前鋒出擊

零度眼看球
2026-02-27 12:36:30
特斯拉宣布三月最新優(yōu)惠,真是無話可說!

特斯拉宣布三月最新優(yōu)惠,真是無話可說!

XCiOS俱樂部
2026-02-26 19:48:11
小米SU7成都碰撞事故出鑒定結(jié)果,車門打不開原因披露:167km/h撞擊后低壓系統(tǒng)斷電,導(dǎo)致車門外把手釋放功能失效

小米SU7成都碰撞事故出鑒定結(jié)果,車門打不開原因披露:167km/h撞擊后低壓系統(tǒng)斷電,導(dǎo)致車門外把手釋放功能失效

揚(yáng)子晚報(bào)
2026-02-26 14:23:54
金正恩:如果美國撤回對(duì)朝敵視政策,朝鮮沒有理由不與美國友好相處

金正恩:如果美國撤回對(duì)朝敵視政策,朝鮮沒有理由不與美國友好相處

界面新聞
2026-02-26 10:30:52
美國女議員:谷愛凌生在美國卻不尊重美國 不回中國還要回美國

美國女議員:谷愛凌生在美國卻不尊重美國 不回中國還要回美國

念洲
2026-02-26 08:33:10
58歲中國男子龍某某,在日本涉嫌盜竊被逮捕……

58歲中國男子龍某某,在日本涉嫌盜竊被逮捕……

日本窗
2026-02-27 15:11:05
81年江蘇農(nóng)婦撿到紅色印章上交國家,日本人驚呼:百年難題解開了

81年江蘇農(nóng)婦撿到紅色印章上交國家,日本人驚呼:百年難題解開了

春秋硯
2026-02-25 10:45:04
進(jìn)攻欲望不強(qiáng),詹姆斯全場16投7中得到15分6板5助,正負(fù)值+5

進(jìn)攻欲望不強(qiáng),詹姆斯全場16投7中得到15分6板5助,正負(fù)值+5

懂球帝
2026-02-27 12:49:07
夸美國空氣比中國甜的楊舒平,逃回國內(nèi)之后,如今過得怎么樣?

夸美國空氣比中國甜的楊舒平,逃回國內(nèi)之后,如今過得怎么樣?

不八卦掌門人
2026-02-27 14:42:20
大批F16出動(dòng),美重兵逼近黃海,不到1天,特朗普:中方實(shí)力太強(qiáng)大

大批F16出動(dòng),美重兵逼近黃海,不到1天,特朗普:中方實(shí)力太強(qiáng)大

南宗歷史
2026-02-25 02:43:32
35歲中國音樂家在美身亡:路邊換輪胎不幸被卡車撞倒,曾是中美音樂交流中堅(jiān)力量

35歲中國音樂家在美身亡:路邊換輪胎不幸被卡車撞倒,曾是中美音樂交流中堅(jiān)力量

紅星新聞
2026-02-26 12:36:32
“專科男生古茗8小時(shí)”事件,被全網(wǎng)嘲笑:無知的人連裝都不會(huì)裝

“??颇猩跑?小時(shí)”事件,被全網(wǎng)嘲笑:無知的人連裝都不會(huì)裝

妍妍教育日記
2026-02-26 20:37:12
紐約世貿(mào)中心重建工程進(jìn)入最后階段 2號(hào)樓將成美國運(yùn)通新總部

紐約世貿(mào)中心重建工程進(jìn)入最后階段 2號(hào)樓將成美國運(yùn)通新總部

cnBeta.COM
2026-02-27 00:52:05
谷愛凌回應(yīng)冬奧神圖出圈:當(dāng)時(shí)在自己的眼神里看到了王者

谷愛凌回應(yīng)冬奧神圖出圈:當(dāng)時(shí)在自己的眼神里看到了王者

懂球帝
2026-02-25 13:42:11
2-0!英超創(chuàng)紀(jì)錄:水晶宮+森林晉級(jí),9隊(duì)全進(jìn)歐戰(zhàn)16強(qiáng),有望拿3冠

2-0!英超創(chuàng)紀(jì)錄:水晶宮+森林晉級(jí),9隊(duì)全進(jìn)歐戰(zhàn)16強(qiáng),有望拿3冠

體育知多少
2026-02-27 07:27:23
示弱就是毀滅!網(wǎng)友怒了:若20億拿不回,誰來守護(hù)百萬億海外資產(chǎn)

示弱就是毀滅!網(wǎng)友怒了:若20億拿不回,誰來守護(hù)百萬億海外資產(chǎn)

達(dá)文西看世界
2026-02-27 11:35:54
WTT大滿貫:2月27日賽程公布!孫穎莎迎內(nèi)戰(zhàn),國乒再戰(zhàn)早田、橋本

WTT大滿貫:2月27日賽程公布!孫穎莎迎內(nèi)戰(zhàn),國乒再戰(zhàn)早田、橋本

米果說識(shí)
2026-02-27 14:18:45
就是一整塊屏!廣東新聞聯(lián)播提前展示OPPO Find N6:微距展示肉眼幾乎看不到折痕

就是一整塊屏!廣東新聞聯(lián)播提前展示OPPO Find N6:微距展示肉眼幾乎看不到折痕

快科技
2026-02-27 10:42:00
7連板!河南“電力+算力”牛股股價(jià)翻倍

7連板!河南“電力+算力”牛股股價(jià)翻倍

新浪財(cái)經(jīng)
2026-02-27 12:45:02
2026-02-27 16:00:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。
11268文章數(shù) 116982關(guān)注度
往期回顧 全部

科技要聞

英偉達(dá)業(yè)績亮眼仍跌5% 兩大因素成核心隱憂

頭條要聞

24歲女子生下1男4女五胞胎 孩子爸爸稱"心情像過山車"

頭條要聞

24歲女子生下1男4女五胞胎 孩子爸爸稱"心情像過山車"

體育要聞

一場必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

繼網(wǎng)暴谷愛凌后 美國欲沒收其全部收入

財(cái)經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

寶馬X5傳承版發(fā)布:給經(jīng)典G05的一場體面謝幕?

態(tài)度原創(chuàng)

親子
房產(chǎn)
藝術(shù)
數(shù)碼
教育

親子要聞

別讓“語遲必顯貴”耽誤了孩子,晚說話不一定是好事兒

房產(chǎn)要聞

重磅!海南“十五五”規(guī)劃出爐!未來五年,方向定了!

藝術(shù)要聞

紫氣東來,好運(yùn)一整年!

數(shù)碼要聞

聯(lián)想Lenovo Tab Plus Gen2平板電腦現(xiàn)身,大外凸揚(yáng)聲器模組

教育要聞

中考數(shù)學(xué),計(jì)算題,別想太簡單

無障礙瀏覽 進(jìn)入關(guān)懷版