国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

姚順雨的最新成果,才是騰訊發(fā)完 10 億紅包后決戰(zhàn) AI 的關(guān)鍵

0
分享至

還沒有進(jìn)入春節(jié),各大廠商已經(jīng)迫不及待了:前有元寶大派紅包,馬上千問就豪請奶茶——花不了多少錢,30 個(gè)小目標(biāo)罷了。


預(yù)算在前面燒,基建在后面搭,畢竟等推廣預(yù)算燒完,能做到多少用戶留存,就要看產(chǎn)品本身了。這樣一看,騰訊在下半年把前 OpenAI 研究員、清華姚班的天才少年姚順雨挖到手,可謂計(jì)之長遠(yuǎn)。

執(zhí)掌騰訊 AI 之后,近日姚順雨終于發(fā)出了第一項(xiàng)署名研究,這是騰訊混元團(tuán)隊(duì)聯(lián)合復(fù)旦大學(xué)發(fā)布的研究,把目光聚集到了上下文。這似乎是一個(gè)略顯冷門的技術(shù)點(diǎn),但研究的發(fā)現(xiàn)是能讓所有日常都在玩 AI 的用戶背脊一涼的:如果我們把大模型從「背書模式」切換到「現(xiàn)學(xué)現(xiàn)賣模式」,即使是目前地球上最強(qiáng)的 AI,得分率也只有慘淡的 23.7%。

這項(xiàng)研究遠(yuǎn)不止是一個(gè)技術(shù)圈的八卦,它直接揭示了為什么作為普通用戶的你,經(jīng)常覺得 AI 「聽不懂人話」、「死腦筋」或者「胡說八道」。如果說有什么是 AI 的阿喀琉斯之踵,那上下文(Context)當(dāng)如是。

上下文:AI 的靈魂

要理解這項(xiàng)研究的價(jià)值,我們需要先搞清楚大模型運(yùn)作的兩個(gè)基本階段。

第一個(gè)階段是預(yù)訓(xùn)練。在這個(gè)過程中,模型通過閱讀互聯(lián)網(wǎng)上浩如煙海的數(shù)據(jù),記住了海量的知識(shí)和模式。這一點(diǎn)現(xiàn)在大家應(yīng)該都不陌生了。這是 AI 知識(shí)儲(chǔ)備的來源,也是它能夠回答通用問題的基礎(chǔ)。


但問題在于,預(yù)訓(xùn)練數(shù)據(jù)是靜態(tài)的,它反映的是模型訓(xùn)練截止日期之前的世界。一旦脫離了這個(gè)范圍,模型就會(huì)變得盲目——而真實(shí)世界是動(dòng)態(tài)的。

這就來到第二個(gè)階段,情境學(xué)習(xí),也就是我們常說的上下文處理。當(dāng)你把一段全新的、內(nèi)部的、或者是極其復(fù)雜的規(guī)則文本發(fā)給 AI 時(shí),你實(shí)際上是在要求它跳出預(yù)訓(xùn)練的記憶,根據(jù)眼前的信息進(jìn)行實(shí)時(shí)推理和判斷。

像什么呢?比如公司內(nèi)部剛剛開完會(huì)之后的紀(jì)要,或者你玩的游戲有了新活動(dòng),這些知識(shí)從未在互聯(lián)網(wǎng)上出現(xiàn)過,只能由你把規(guī)則、信息(即「上下文」)扔給 AI,讓它根據(jù)這些新知識(shí)來回答問題。

這才是現(xiàn)實(shí),互聯(lián)網(wǎng)上并非應(yīng)有盡有,模型對于上下文的學(xué)習(xí)能力可以說是非常重要,甚至可以說:上下文,就是 AI 的靈魂。


如果 AI 記不住、或者理解錯(cuò)了上下文,它就會(huì)開始編造(幻覺),可能會(huì)根據(jù)它「記憶」里通用規(guī)則來回答——會(huì)議紀(jì)要里明明說行政部要負(fù)責(zé)下午茶,它卻說是產(chǎn)品經(jīng)理管這事兒。

這就是混元團(tuán)隊(duì)這次建設(shè) CL-bench 在干的事情。他們構(gòu)建了近 2000 個(gè)從未在互聯(lián)網(wǎng)上公開過的、由專家精心構(gòu)造的「全新情境」,有虛構(gòu)的法律體系,新的編程語言語法等等。


根據(jù) CL-bench 的排行榜,目前最先進(jìn)的 GPT-5.1 (High) 模型的正確率僅為 23.7%,Claude Opus 4.5 約為 21.1%,而其他的模型大都在 10%-18% 之間徘徊。

這意味著,當(dāng)我們要求 AI 「忘掉你以前學(xué)的,只看我發(fā)給你的這段話」時(shí),它們大概率會(huì)搞砸。它們就像那些固執(zhí)的學(xué)生,哪怕老師已經(jīng)在黑板上寫了「今天 1+1=3」,它還是會(huì)大聲喊出「1+1=2」,因?yàn)樾轮R(shí)對它而言都「超綱」了。


CL-bench 的研究揭示了幾個(gè)導(dǎo)致模型在情境學(xué)習(xí)中失敗的深層原因,這些原因解釋了為什么我們在使用 AI 時(shí)會(huì)感到它有時(shí)聰明、有時(shí)愚蠢。

最常見的翻車原因。模型在預(yù)訓(xùn)練里學(xué)到的東西太「根深蒂固」了。當(dāng)模型接收到新的上下文時(shí),它往往無法有效抑制住預(yù)訓(xùn)練數(shù)據(jù)中那些根深蒂固的模式。

比如,在 CL-bench 的一個(gè)測試案例中,研究人員構(gòu)建了一個(gè)虛構(gòu)的軟件開發(fā)包 Skynet SDK。雖然這只是個(gè)虛構(gòu)的名字,但因?yàn)椤窼kynet(天網(wǎng))」在 AI 的潛意識(shí)(預(yù)訓(xùn)練數(shù)據(jù))里太出名了,模型可能會(huì)下意識(shí)地把《終結(jié)者》電影里的設(shè)定帶入進(jìn)來,從而無視說明文檔里枯燥的代碼規(guī)則。


另外,復(fù)雜邏輯的推演能力依然是目前技術(shù)的瓶頸——這點(diǎn)多少有些令人意外,都 2026 了,AI 處理超長文本不是早已經(jīng)駕輕就熟嗎?但實(shí)際上,雖然模型能吞下幾萬字,它并不一定能從數(shù)據(jù)海洋里面精準(zhǔn)地?fù)瞥瞿且桓槨?/strong>研究發(fā)現(xiàn),當(dāng)提供的上下文非常長、邏輯非常復(fù)雜(比如復(fù)雜的邏輯推理鏈條、多輪的交互依賴)時(shí),模型的表現(xiàn)會(huì)直線下降。

如果上下文僅僅是「知識(shí)檢索」(比如從文檔里找一個(gè)名字),現(xiàn)在的模型還湊合。但一旦涉及到「邏輯推理」,模型的解決率就暴跌。

為什么是騰訊來做?

CL-bench 是姚順雨入主騰訊后,首次署名的研究成果。如果把它放到騰訊龐大的產(chǎn)品矩陣中去審視,就會(huì)發(fā)現(xiàn)「上下文學(xué)習(xí)」和這家互聯(lián)網(wǎng)巨頭自身業(yè)務(wù)邏輯之間的關(guān)系。


與其他更偏向搜索或通用生產(chǎn)力工具的科技公司不同,騰訊的根基深深扎根于「社交」與「內(nèi)容」的土壤之中,而這兩個(gè)領(lǐng)域?qū)?AI 上下文能力的要求可謂極其苛刻。

想象一下微信或 QQ 的使用場景。這里產(chǎn)生的數(shù)據(jù)并非孤立的問答,而是連綿不斷、高度碎片化的對話流——最新的元寶派就是例子。當(dāng)用戶試圖在一個(gè)擁有數(shù)百條消息的群聊中讓 AI 總結(jié)重點(diǎn),或者在一段長達(dá)數(shù)月的私聊記錄中尋找某個(gè)約定的細(xì)節(jié)時(shí),AI 面臨的挑戰(zhàn)正是 CL-bench 所測試的極限:它必須在不依賴外部通用知識(shí)的前提下,精準(zhǔn)地理解這段封閉對話中特有的語境、人際關(guān)系和隱含邏輯。


如果 AI 無法妥善處理這種高密度的上下文,它就無法真正融入十億用戶的社交鏈路,只能作為一個(gè)甚至?xí)驍鄬υ捔鲿扯鹊睦圪槾嬖凇?/p>

另外,騰訊在游戲與企業(yè)服務(wù)領(lǐng)域的布局,也決定了它對「情境學(xué)習(xí)」的渴求。游戲自不用說,各家都在探索 AI 如何根據(jù)即時(shí)的操作和游戲內(nèi)的實(shí)時(shí)局勢(即游戲上下文)做出反應(yīng),而不是機(jī)械地背誦預(yù)訓(xùn)練好的臺(tái)詞。

在企業(yè)微信和騰訊會(huì)議的場景中,用戶需要的往往是基于特定會(huì)議紀(jì)要或私有文檔的精準(zhǔn)分析。在這些場景下,通用的預(yù)訓(xùn)練知識(shí)不僅無效,甚至可能因?yàn)椤富糜X」而帶來嚴(yán)重的誤導(dǎo)。

「在場景中演滿分的學(xué)生,未必能勝任真實(shí)世界的工種」—— 混元團(tuán)隊(duì)意識(shí)到了這一點(diǎn),這也恰恰是對當(dāng)下 AI 最好的注腳。對于坐擁海量應(yīng)用場景的騰訊來說,一個(gè)能在復(fù)雜上下文中保持清醒、邏輯嚴(yán)密的模型,遠(yuǎn)比一個(gè)博學(xué)但只會(huì)死記硬背的模型,具有更大的商業(yè)價(jià)值和落地潛力。

歡迎加入 APPSO AI 社群,一起暢聊 AI 產(chǎn)品,獲取,解鎖更多 AI 新知

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標(biāo)題「姓名+崗位名稱」(請隨簡歷附上項(xiàng)目/作品或相關(guān)鏈接)


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
庫里迎最強(qiáng)挑戰(zhàn)者 克尼普爾58場200三分歷史最快!

庫里迎最強(qiáng)挑戰(zhàn)者 克尼普爾58場200三分歷史最快!

體壇周報(bào)
2026-02-25 12:14:11
男子與女童動(dòng)作親密引質(zhì)疑,內(nèi)蒙古婦女聯(lián)合會(huì):其為女童繼父,生父已在春節(jié)前接回孩子,準(zhǔn)備變更撫養(yǎng)權(quán);經(jīng)警方詢問女童未有被侵害情況

男子與女童動(dòng)作親密引質(zhì)疑,內(nèi)蒙古婦女聯(lián)合會(huì):其為女童繼父,生父已在春節(jié)前接回孩子,準(zhǔn)備變更撫養(yǎng)權(quán);經(jīng)警方詢問女童未有被侵害情況

大風(fēng)新聞
2026-02-24 22:31:13
怪發(fā)型,唇穿孔,冬奧花滑華裔冠軍叛逆征服了全世界!

怪發(fā)型,唇穿孔,冬奧花滑華裔冠軍叛逆征服了全世界!

ChicMyGeek
2026-02-24 17:10:12
騎士4配角太好用!韋德埃利斯防守鎖布倫森,泰森潛力巨大!

騎士4配角太好用!韋德埃利斯防守鎖布倫森,泰森潛力巨大!

籃球資訊達(dá)人
2026-02-25 13:05:20
男子與女童動(dòng)作親密引質(zhì)疑,內(nèi)蒙古婦女聯(lián)合會(huì):其為女童繼父,生父已在春節(jié)前接回孩子,準(zhǔn)備變更撫養(yǎng)權(quán);經(jīng)警方詢問女童未有被侵害情況

男子與女童動(dòng)作親密引質(zhì)疑,內(nèi)蒙古婦女聯(lián)合會(huì):其為女童繼父,生父已在春節(jié)前接回孩子,準(zhǔn)備變更撫養(yǎng)權(quán);經(jīng)警方詢問女童未有被侵害情況

揚(yáng)子晚報(bào)
2026-02-25 08:01:23
歐冠2-5大冷門!7億國米恥辱出局:不敵5000萬歐黑馬 齊沃落寞呆坐

歐冠2-5大冷門!7億國米恥辱出局:不敵5000萬歐黑馬 齊沃落寞呆坐

風(fēng)過鄉(xiāng)
2026-02-25 06:21:38
愛潑斯坦文件曝小李子曾食用超過70磅的“兒童肉”,這地怎么洗?

愛潑斯坦文件曝小李子曾食用超過70磅的“兒童肉”,這地怎么洗?

我心縱橫天地間
2026-02-24 22:07:27
含淚告別賽場!43歲了,已經(jīng)是個(gè)傳奇!

含淚告別賽場!43歲了,已經(jīng)是個(gè)傳奇!

德譯洋洋
2026-02-25 12:20:33
小伙娶48歲大媽,新婚第二天大媽賴床不起,小伙掀開被子愣住了

小伙娶48歲大媽,新婚第二天大媽賴床不起,小伙掀開被子愣住了

一根香煙的少婦
2026-02-23 15:00:03
李亞鵬大年初八請前岳母吃米線,3歲女兒開心,海哈金喜明媚漂亮

李亞鵬大年初八請前岳母吃米線,3歲女兒開心,海哈金喜明媚漂亮

離離言幾許
2026-02-24 13:33:57
破防了!詹姆斯太拼,為回家鄉(xiāng)愿少賺4873萬?從頂薪變底薪創(chuàng)歷史

破防了!詹姆斯太拼,為回家鄉(xiāng)愿少賺4873萬?從頂薪變底薪創(chuàng)歷史

毒舌NBA
2026-02-24 20:06:09
四川兄妹整理老家菜地挖出30年前金戒指,當(dāng)事人:當(dāng)時(shí)80元一克,母親此前生病說要給我,我沒要,結(jié)果第二天就丟了

四川兄妹整理老家菜地挖出30年前金戒指,當(dāng)事人:當(dāng)時(shí)80元一克,母親此前生病說要給我,我沒要,結(jié)果第二天就丟了

大象新聞
2026-02-25 11:44:03
特朗普拿著奧運(yùn)金牌不撒手:我不會(huì)還回去!冬奧冠軍:換你一支筆

特朗普拿著奧運(yùn)金牌不撒手:我不會(huì)還回去!冬奧冠軍:換你一支筆

念洲
2026-02-25 11:46:49
山東華聯(lián)商廈股份有限公司原黨總支書記、董事長、總經(jīng)理李海龍接受紀(jì)律審查和監(jiān)察調(diào)查

山東華聯(lián)商廈股份有限公司原黨總支書記、董事長、總經(jīng)理李海龍接受紀(jì)律審查和監(jiān)察調(diào)查

天下泉城
2026-02-25 11:05:04
特朗普演講時(shí)模仿民眾哭訴稱“贏太多了”,指著民主黨議員大罵“這些人瘋了”,演講五分鐘內(nèi)臺(tái)下共和黨成員起立鼓掌近10次

特朗普演講時(shí)模仿民眾哭訴稱“贏太多了”,指著民主黨議員大罵“這些人瘋了”,演講五分鐘內(nèi)臺(tái)下共和黨成員起立鼓掌近10次

瀟湘晨報(bào)
2026-02-25 13:07:27
攤牌了!黃曉明不再隱瞞,澳門輸10億真相大白,周杰倫也被拉下水

攤牌了!黃曉明不再隱瞞,澳門輸10億真相大白,周杰倫也被拉下水

天天熱點(diǎn)見聞
2026-02-25 05:36:20
國米恥辱之夜顯露兩大癥結(jié):誰是真正罪魁? 隊(duì)長惹下巨大爭議

國米恥辱之夜顯露兩大癥結(jié):誰是真正罪魁? 隊(duì)長惹下巨大爭議

國際足球冷雪
2026-02-25 08:14:13
葡萄330元/斤,草莓360元/斤!網(wǎng)友高速上看到水果廣告牌驚呆了,種植企業(yè)回應(yīng)

葡萄330元/斤,草莓360元/斤!網(wǎng)友高速上看到水果廣告牌驚呆了,種植企業(yè)回應(yīng)

極目新聞
2026-02-24 12:58:13
老人狂買26萬元金條!揚(yáng)州一金店員工暗中報(bào)警

老人狂買26萬元金條!揚(yáng)州一金店員工暗中報(bào)警

環(huán)球網(wǎng)資訊
2026-02-25 07:45:08
馬筱梅發(fā)聲!新娃不涉及家產(chǎn)之爭,落戶北京,箖兒玥兒上學(xué)不變

馬筱梅發(fā)聲!新娃不涉及家產(chǎn)之爭,落戶北京,箖兒玥兒上學(xué)不變

林子說事
2026-02-25 07:44:48
2026-02-25 13:40:49
AppSo incentive-icons
AppSo
讓智能手機(jī)更好用的秘密
6126文章數(shù) 26785關(guān)注度
往期回顧 全部

科技要聞

臺(tái)積電市值破2萬億美元,翻倍只用了16個(gè)月

頭條要聞

老人被大狗撕咬骨折住進(jìn)ICU 犬主付1000元后駕車離開

頭條要聞

老人被大狗撕咬骨折住進(jìn)ICU 犬主付1000元后駕車離開

體育要聞

曝雄鹿計(jì)劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

娛樂要聞

撒貝寧到沈陽跑親戚 老婆李白模特身材

財(cái)經(jīng)要聞

春節(jié)檔"開門黑" 電影票少賣了7000萬張

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

手機(jī)
房產(chǎn)
健康
時(shí)尚
藝術(shù)

手機(jī)要聞

榮耀Magic V6配置官宣:搭載滿血第五代高通驍龍8至尊版

房產(chǎn)要聞

330萬人涌入!春節(jié)全國樓市,第一個(gè)賣爆的區(qū)域出現(xiàn)了!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

普通人穿衣別太老氣橫秋!這些穿搭給你靈感,保暖耐看兩不誤

藝術(shù)要聞

這位藝術(shù)家的馬賽克畫讓人驚嘆不已!

無障礙瀏覽 進(jìn)入關(guān)懷版