国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

騰訊混元CL-bench續(xù)作發(fā)布,讓大模型讀懂你的日常生活

0
分享至



機(jī)器之心發(fā)布

我們對于 “個人助手” 的想象,正在變得越來越具體。

一個真正嵌入日常生活的 AI 助手,需要能夠從每個人生活中的蛛絲馬跡里學(xué)習(xí)和理解,解決復(fù)雜生活場景中問題。

在 AGI-Next 前沿峰會上,騰訊姚順雨舉了一個很生活化的例子:當(dāng)你問 AI “今天吃什么” 時,真正限制答案質(zhì)量的,可能不是模型不夠大,也不是推理不夠強(qiáng),而是它不知道你今天冷不冷、想不想吃熱的、最近和朋友聊過什么、家人又有什么偏好需要納入考慮。

因此,下一代 AI 助手真正需要的,往往不是記住更多 “知識”,而是對 “生活上下文(context)” 的理解與推理。這也正是 CL-Bench family 最新續(xù)作 CL-Bench Life 想要回答的問題。



  • 論文題目:CL-Bench Life: Can Language Models Learn from Real-Life Context?
  • 項(xiàng)目主頁:www.clbench.com

下面,我們將結(jié)合混元模型團(tuán)隊(duì)的最新博客《Real life is where context gets hard》,看看那些人類應(yīng)對起來幾乎毫不費(fèi)力的日常,對于 AI 來說為何如此棘手。

  • 博客鏈接:https://hy.tencent.com/research/100039

在日常生活中,Context 的復(fù)雜性以另一形式展現(xiàn)

The other half of context learning

想要真正解決現(xiàn)實(shí)世界的問題,AI 不能僅僅依賴訓(xùn)練時記住的知識,它必須從當(dāng)下正在發(fā)生的事情中學(xué)習(xí)新的 context、基于它們進(jìn)行推理,并記住那些真正關(guān)鍵的信息。此前,我們打造了CL-Bench來測試這種上下文學(xué)習(xí)能力。但現(xiàn)在回過頭看,我們給 AI 了 一個巨大的捷徑:context 已被提前整理好。



圖:專業(yè)領(lǐng)域或工作場景中的 context 結(jié)構(gòu)相對清晰,知識點(diǎn)更聚焦(左);日常生活中的 context 更凌亂,更碎片化,往往包含多個話題(右)。

這種假設(shè)在專業(yè)的領(lǐng)域下相對成立,但在大家的日常生活中卻截然不同。回想一下我們每天都要面對的 context:

① 在一個日常閑聊和各種話題交錯展開的親友群中,理清大家本周末的時間安排、出行意愿、忌口等信息,敲定一份大家都能接受的周末旅行計(jì)劃;

② 從 “文件傳輸助手” 里散落的幾十條沒來得及讀的分享鏈接和隨手寫的備忘錄中,拼湊出一份完整的產(chǎn)品規(guī)劃;

③ 又或是從自己過去大半年斷斷續(xù)續(xù)的運(yùn)動打卡和康復(fù)日志中,分析出某個部位總是容易受傷的真正原因。生活是混亂的、極其碎片化的,僅僅依靠時間線勉強(qiáng)串聯(lián)。



圖:三個日常生活面臨的 context 例子。Case 1: AI 需要分析一段冗長、嘈雜的多人群聊,其中包含多條交錯討論線、不斷變化的計(jì)劃,以及分散在不同時段的時間沖突,來幫助組織一次讀書會;Case 2: AI 需要分析大量零散的騎行記錄、車況維修記錄、突發(fā)事件和日記,為五天騎行計(jì)劃籌備一份以安全為核心的檢查單;Case 3: AI 需要分析某個用戶數(shù)百條受傷前后的訓(xùn)練記錄,判斷哪些肌群受到的影響最大并安排恢復(fù)計(jì)劃。

我們常常低估了這對 AI 來說有多難。最初的CL-Bench測試的是模型能否掌握并用好復(fù)雜的新知識。但現(xiàn)實(shí)生活從來沒有發(fā)給我們一本 “說明書”。AI 不能只停留在理解干巴巴的規(guī)則上;它還必須能夠在混亂、稀碎的線索中拼湊出事情的真相,并在各種干擾下保持極高的魯棒性。



圖:CL-bench 和 CL-bench Life 所覆蓋的兩類 context-learning。

如果真想讓 AI 蛻變?yōu)檎嬲乃饺酥?,它們就必須切?shí)讀懂我們到底是如何生活的。為了邁出這一步,騰訊混元團(tuán)隊(duì)彌補(bǔ)了 CL-bench 未覆蓋的場景,正式推出CL-Bench Life

Introducing CL-bench Life

為了精準(zhǔn)衡量 AI 在現(xiàn)實(shí)生活中的 “上下文學(xué)習(xí)” 能力,騰訊混元正式推出了CL-Bench Life。這是一個完全由人工精心構(gòu)建的基準(zhǔn),包含了 405 個真實(shí)的任務(wù)

為了最大限度地覆蓋最常見的真實(shí)場景,研究團(tuán)隊(duì)將整個測試基準(zhǔn)劃分為三大核心類別



圖:CL-bench Life 的 context 分類體系。

1.溝通與社交互動(與他人交互時產(chǎn)生的上下文): 這一類覆蓋一對一私聊,混亂的多人群聊,活躍的社區(qū)討論等場景。要在這類任務(wù)中成功,AI 必須學(xué)會 “讀懂話外之意”。它需要理解復(fù)雜的人際關(guān)系,感知隱藏的情緒變化,推理出一個群體如何逐漸形成共識,并從日常閑聊中分析出真正有用的信息。

2.碎片信息與修改軌跡(圍繞自身主動產(chǎn)生的上下文): 這一類包括零散的個人筆記、公共信息流,以及文檔反復(fù)修改留下的歷史記錄。這一類 context 的難點(diǎn)包括但不限于:需要模型必須從非常凌亂的日常信息碎片中重建出完整的邏輯線,或整理并推理出一個想法或者安排是如何被多次修改的。

3.行為記錄與活動軌跡(在生活中被動產(chǎn)生的上下文): 這一類涵蓋游戲日志、數(shù)字足跡,以及長期個人追蹤記錄。在這一類型的 context 中,AI 往往需要從一串行為痕跡中推理出背后所隱含的原因。例如,它要求模型進(jìn)行分析一長段消費(fèi)流水 / 健身數(shù)據(jù)等的行為記錄,或者理解人的潛在習(xí)慣并發(fā)現(xiàn)長期習(xí)慣中的異常變化等。

CL-Bench Life 還包含了5348 條完全由純?nèi)斯ぞ帉懙脑u分標(biāo)準(zhǔn),平均每個任務(wù)對應(yīng) 13.2 個考核點(diǎn)。這些 rubrics 被設(shè)計(jì)得盡可能原子化,從而能夠更全面、更細(xì)粒度地評估模型的答案是否正確。



表:CL-bench Life 的統(tǒng)計(jì)信息,包括 context 和任務(wù)數(shù)量、rubrics 數(shù)量、context 中多輪對話的平均輪次、每個任務(wù)的 rubrics 數(shù)量,以及 context 的 token 長度。

What we found

研究團(tuán)隊(duì)測試了 12 個不同的語言模型(更多模型的評測結(jié)果詳見的開源榜單),初步的評測結(jié)果表明,這些模型平均只能解決 CL-bench Life 中14.5%的任務(wù)。即便是表現(xiàn)最好的 GPT-5.5(High)也只能解決 22.2% 的任務(wù)。這表明模型還不擅長處理高噪聲的零碎 context。



表:前沿語言模型在 CL-bench Life 上的任務(wù)解決率。

這一結(jié)果甚至比在 CL-bench 中的表現(xiàn)更低。在 CL-bench 中,同一批模型平均能夠解決 20% 以上的任務(wù)。這一差異也證實(shí)了CL-bench Life 測試的是另一維度的 context learning。CL-bench 中的 context 是來自專業(yè)領(lǐng)域的、往往相對更清楚,結(jié)構(gòu)清晰,被有序的組織整理。此時,模型需要具備的能力是掌握新的知識例如規(guī)則或流程等,并有效使用它們。而相反的是,CL-bench Life 中的 context 是來自日常生活的,往往更混亂,無序,信息隨時間軸可能被反復(fù)修改。在 CL-bench Life 中,模型需要整理分散在 context 各處的線索,處理噪聲,并始終保持魯棒。

這說明了,當(dāng)模型面對的不再是清晰的、被相對有序整理過的 context,而是面對雜亂、碎片化、弱結(jié)構(gòu)化的 context 時,context learning 會變得更加困難。這兩個場景對模型提出不同方面和程度的 context learning 要求。

除了整體表現(xiàn)之外,進(jìn)一步的實(shí)驗(yàn)分析還揭示了一些重要發(fā)現(xiàn):

1.在 CL-bench Life 中,雖然模型完美解決任務(wù)的比例不高,但部分正確的比例要高得多。當(dāng)研究團(tuán)隊(duì)調(diào)整任務(wù)通過閾值時(即一個回答至少需要滿足多少比例的 rubrics 才算正確),模型的通過率會發(fā)生明顯變化。閾值越寬松,各個模型的通過率都會顯著上升。這說明模型雖然很難完整解決一個任務(wù),但確實(shí)能夠理解其中一部分 context,并完成一部分任務(wù)。



圖:模型在不同任務(wù)通過閾值下的表現(xiàn)。

與此同時,在不同閾值下,模型之間的相對排名大體保持穩(wěn)定。這意味著 CL-bench Life 既能很好地區(qū)分 “理解部分 context” 和 “完美解決任務(wù)”,也能在這種情況下支持對不同模型進(jìn)行相對穩(wěn)定的比較。



表:CL-bench Life 各類別和子類別上的模型表現(xiàn)。

2.不同類別的 context 對模型 context learning 能力的要求各有側(cè)重。即便 CL-bench Life 中的 context 都屬于日常生活場景,信息也都是碎片化的,但信息的類型并不一樣,也導(dǎo)致了對模型的能力要求有不同的側(cè)重。例如,在溝通和日常交流大類中,除了信息的碎片化外,困難也主要來自社交關(guān)系和多人互動:相關(guān)信息分散在交錯的話題、討論線也是重疊的、人物關(guān)系和對話的指代關(guān)系也更加復(fù)雜。而在碎片化信息和修訂記錄大類中,模型需要整合不連續(xù)的線索,并推理一個內(nèi)容是如何隨時間變化而不斷被修改的。

3.模型在日常生活中 context learning 能力的不足,不能簡單歸因于長文推理能力的問題。研究團(tuán)隊(duì)發(fā)現(xiàn),更長的輸入確實(shí)可能讓任務(wù)更難,但輸入長度本身并不能完全決定任務(wù)難度。具體來說,模型一旦開啟 reasoning 模式,context 長度和模型表現(xiàn)之間的關(guān)系就變得不那么相關(guān)(如下圖所示)。這說明日常生活 context learning 的主要瓶頸并不只是模型能否處理更長的輸入(即長文推理能力),還在于能否處理高噪聲輸入。

這與 CL-bench 中的現(xiàn)象有所不同。在 CL-bench 中,隨著 context 變長,模型表現(xiàn)通常會更明顯地下滑,因?yàn)楦L的輸入往往意味著模型需要吸收更多新的復(fù)雜知識。而在 CL-bench Life 中,長度只是一個較弱的預(yù)測因素。即使 context 不長,但只要它包含大量的噪聲、被反復(fù)修改,或真正的有用信息分散在的各處時,模型處理這些 context 也可能會非常困難。



圖:在 reasoning 和 non-reasoning 下,不同 context 長度區(qū)間中的任務(wù)解決率。

4. 為了進(jìn)一步理解這些局限,研究團(tuán)隊(duì)分析了模型的失敗原因??缒P蛠砜矗?strong>最主要的錯誤類型是 context misuse:模型通常確實(shí)看到了 context,但仍然誤解或誤用了它。值得注意的是,這與 CL-bench 中的 context misuse 不完全相同。在 CL-bench 中,誤用 context 往往意味著模型錯誤地應(yīng)用了 context 新定義的知識。而在 CL-bench Life 中,錯誤更多來自模型理解錯了一個日常中經(jīng)常發(fā)生的 context。例如,混淆了一個隨口提到的 “他” 到底指誰;依賴已經(jīng)被后續(xù)的修訂推翻了的早期信息進(jìn)行推理;誤把臨時的草稿修改 / 口頭的隨意說辭當(dāng)成最終決策;或者把一段個人的行為軌跡看成孤立事件,而沒有推理出一個長期的習(xí)慣。另外,相比之下,格式錯誤在 CL-bench Life 中要少得多,模型直接拒答的情況也很少。



圖:四類錯誤在不同模型中的分布。Context misuse 是主要失敗因素,而格式錯誤和拒答相對較少。

下面,研究團(tuán)隊(duì)深入分析了模型在群聊類 context 中的常見錯誤,來進(jìn)一步探索模型在日常生活場景下 context learning 失敗的原因。



圖:溝通和日常交流類別中 群聊 context 的錯誤分析。

在群聊和會議類 context 中,最常見的錯誤是角色混淆以及說話人歸因錯誤,例如模型不能正確記憶哪些話是誰說的以及引用了哪些話。例如,在一個由 Alice、Brenda、Clara 三人協(xié)作答復(fù)用戶食譜與園藝提問的 Slack 頻道中,Gemini 把 "創(chuàng)建頻道、發(fā)起規(guī)則" 的 Alice 誤認(rèn)為是上級 ,把真正拍板裁決的 Clara 當(dāng)作其下屬,推斷錯了這個組織里面的人際關(guān)系角色。因此之后一連串的上下級匯報關(guān)系也搞錯了。

這說明模型理解群聊 context 的核心難點(diǎn)不僅在于需要時刻跟蹤事件的發(fā)生,這還需要在混亂的多人互動中持續(xù)維護(hù)用戶信息、說話人的身份,以及在實(shí)際參與者之間不斷變化的關(guān)系中保持魯棒。

總體來看,這些進(jìn)一步的實(shí)驗(yàn)發(fā)現(xiàn)說明了CL-bench Life 并不只是 CL-bench 一個更難的版本,而是一個互補(bǔ)的評估基準(zhǔn):它評估模型是否能夠在真實(shí)生活中那些雜亂、碎片化、持續(xù)變化的 context 上進(jìn)行魯棒推理。

The end

CL-Bench Life 揭示了一個不容忽視的結(jié)論:即使是當(dāng)今最頂尖的 AI 模型,也還遠(yuǎn)沒有真正讀懂我們的日常。 這也解釋了很多人和 AI 交流時,會覺得 AI 還是不夠機(jī)靈。即使我們把聊天記錄、零散筆記、行為記錄都交給模型,希望他能處理這些日常事務(wù)時,它有時還是 “抓不住重點(diǎn)”。這是因?yàn)樗赡軆H僅讀到了信息,卻沒有真正理解這些信息在現(xiàn)實(shí)生活中的含義。

騰訊混元團(tuán)隊(duì)希望CL-bench 和 CL-bench Life 能從兩個互補(bǔ)方向共同推動 context learning 的發(fā)展:一手掌控專業(yè)領(lǐng)域中聚焦、有條理的知識;一手應(yīng)對真實(shí)生活中碎片、混亂的現(xiàn)實(shí),最終幫助 AI 在人類的工作和日常生活中都變得更加智能、實(shí)用和可靠。

但顯而易見的是,這條圍繞 context 發(fā)展的路并不會停在這里。讓 AI 學(xué)會處理復(fù)雜 context,是它真正走進(jìn)現(xiàn)實(shí)世界的關(guān)鍵。CL-bench 系列工作推動 AI 更深入理解 context 是這其中非常重要的一步,而讓 AI 學(xué)會在長期使用中記憶、整理和組織 context,則是邁向真正能服務(wù)人類的個人助手的下一步。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
以色列前總理貝內(nèi)特:伊朗實(shí)質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

以色列前總理貝內(nèi)特:伊朗實(shí)質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

一種觀點(diǎn)
2026-05-05 19:24:58
1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

葉青足球世界
2026-05-06 07:54:58
偉偉道來 | 伊朗的反應(yīng)為何如此激烈

偉偉道來 | 伊朗的反應(yīng)為何如此激烈

經(jīng)濟(jì)觀察報
2026-05-06 11:40:46
吳宜澤透露拿到獎金后準(zhǔn)備在英國買房,50萬英鎊獎金需交稅超23萬鎊,實(shí)際到手約26.5萬鎊

吳宜澤透露拿到獎金后準(zhǔn)備在英國買房,50萬英鎊獎金需交稅超23萬鎊,實(shí)際到手約26.5萬鎊

大風(fēng)新聞
2026-05-06 11:53:02
定了!斯諾克巨星邀請賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

定了!斯諾克巨星邀請賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

劉姚堯的文字城堡
2026-05-06 08:31:36
女性跑步:暴露這個隱私,是性感嗎?

女性跑步:暴露這個隱私,是性感嗎?

馬拉松跑步健身
2026-05-05 19:18:07
吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

懂球帝
2026-05-05 19:39:09
在中國人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個人,沒一個在出現(xiàn)場

在中國人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個人,沒一個在出現(xiàn)場

侃故事的阿慶
2026-05-06 09:21:32
被延長的搶救時間,被卡住的工傷認(rèn)定

被延長的搶救時間,被卡住的工傷認(rèn)定

新京報
2026-05-06 11:03:07
51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

漢史趣聞
2026-05-05 11:40:36
世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動筷子

世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動筷子

畫夕
2026-05-05 14:38:17
廣州第一爛尾樓 兩千家庭半生遺憾!

廣州第一爛尾樓 兩千家庭半生遺憾!

說故事的阿襲
2026-05-05 20:20:30
8.84億的美國工廠說關(guān)就關(guān)?曹德旺:美國不講理,我就不陪玩了

8.84億的美國工廠說關(guān)就關(guān)?曹德旺:美國不講理,我就不陪玩了

番外行
2026-05-06 10:29:59
伯納烏大地震!皇馬放話出售姆巴佩,天價報價就接

伯納烏大地震!皇馬放話出售姆巴佩,天價報價就接

奶蓋熊本熊
2026-05-06 00:00:36
《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

汪巗的創(chuàng)業(yè)之路
2026-05-06 12:26:17
47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個買菜大姐

47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個買菜大姐

胖松松與瘦二毛
2026-05-06 12:40:53
張亮兒子17歲當(dāng)?shù)耍。?>
    </a>
        <h3>
      <a href=八卦瘋叔
2026-05-06 11:04:32
連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

南方都市報
2026-05-06 12:38:05
中美同時向全球下達(dá)禁令,各國都傻眼了!美媒:中國此舉史無前例

中美同時向全球下達(dá)禁令,各國都傻眼了!美媒:中國此舉史無前例

福建睿平
2026-05-06 08:56:38
男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

漢史趣聞
2026-05-05 11:36:31
2026-05-06 14:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12925文章數(shù) 142643關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當(dāng)庭戳老底

頭條要聞

男子購百萬保險被邀免費(fèi)游老撾 花數(shù)十萬買"熊膽"心虛

頭條要聞

男子購百萬保險被邀免費(fèi)游老撾 花數(shù)十萬買"熊膽"心虛

體育要聞

活塞1比0騎士:坎寧安不再是一個人了

娛樂要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財經(jīng)要聞

人形機(jī)器人七小龍:誰真能賣 誰在講故事?

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無論能源形式 領(lǐng)克都要快樂

態(tài)度原創(chuàng)

親子
教育
藝術(shù)
數(shù)碼
公開課

親子要聞

52歲王小騫做夢也沒想到,患上矮小癥的女兒,如今竟然迎來了逆襲

教育要聞

六條邏輯主線替代四個大概念,反映了怎樣的理念? | 高中課標(biāo)修訂解讀⑥

藝術(shù)要聞

震撼!康斯坦丁攝影作品里的性感曲線讓人驚艷!

數(shù)碼要聞

七彩虹戰(zhàn)斧B860M超級黑刃主板圖賞:899元的“千元旗艦”

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版