網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

姚順雨騰訊第一篇論文，道破為什么AI死活聽(tīng)不懂人話(huà)

2026-02-04 14:17:47　來(lái)源: 字母榜

北京舉報(bào)

分享至

今天的大語(yǔ)言模型能解奧數(shù)題、通過(guò)專(zhuān)業(yè)考試、寫(xiě)復(fù)雜代碼，但它們?cè)谡鎸?shí)世界的應(yīng)用中卻常?！胺?chē)”。問(wèn)題出在哪里？

在姚順雨加入騰訊后發(fā)布的首篇論文里，他對(duì)于這個(gè)現(xiàn)象提出了一個(gè)觀點(diǎn)：

“當(dāng)前AI與真正智能之間的鴻溝，不在于知識(shí)的多少，而在于學(xué)習(xí)的能力。一個(gè)裝滿(mǎn)知識(shí)卻不會(huì)學(xué)習(xí)的AI，就像一個(gè)背了整本字典卻不會(huì)寫(xiě)作的人，看起來(lái)博學(xué)，實(shí)則僵化?！?/p>

這篇論文的標(biāo)題叫做《CL-bench: A Benchmark for Context Learning》。

CL-bench是一個(gè)專(zhuān)門(mén)評(píng)測(cè)語(yǔ)言模型“上下文學(xué)習(xí)能力”的大規(guī)?；鶞?zhǔn)測(cè)試集，它的全稱(chēng)是Context Learning Benchmark，即上下文學(xué)習(xí)測(cè)試集。

它包含500個(gè)復(fù)雜上下文場(chǎng)景、1899個(gè)任務(wù)和31607個(gè)評(píng)估標(biāo)注點(diǎn)，所有內(nèi)容均由各個(gè)領(lǐng)域資深專(zhuān)家精心挑選。

這個(gè)基準(zhǔn)的核心設(shè)計(jì)理念，是挑選那些在模型的預(yù)訓(xùn)練數(shù)據(jù)中不存在的難題，讓每個(gè)任務(wù)都必須要求模型從提供的上下文中學(xué)習(xí)全新的知識(shí)才能解決。

這篇論文不僅揭示了當(dāng)前AI的根本性缺陷，還構(gòu)建了一個(gè)專(zhuān)屬于AI的評(píng)價(jià)體系，非常值得AI以及agent從業(yè)者學(xué)習(xí)。

一面照出AI“假學(xué)習(xí)”真相的鏡子

從數(shù)據(jù)規(guī)模來(lái)看，CL-bench的每個(gè)上下文平均包含3.8個(gè)任務(wù)，最多可達(dá)12個(gè)任務(wù)。

更重要的是，500個(gè)復(fù)雜上下文場(chǎng)景中，包含序列依賴(lài)性任務(wù)的場(chǎng)景占51.1%。

這也就是說(shuō)，你想要AI解決后面的任務(wù)，那就必須先從前面的任務(wù)中得到正確的答案，這種多輪交互設(shè)計(jì)極大增加了難度。

單任務(wù)標(biāo)注平均需領(lǐng)域?qū)＜?0小時(shí)，每個(gè)任務(wù)平均配備16.6個(gè)評(píng)估標(biāo)注項(xiàng)，從事實(shí)正確性、計(jì)算準(zhǔn)確性、程序正確性、內(nèi)容完整性和格式合規(guī)性等多個(gè)維度進(jìn)行嚴(yán)格驗(yàn)證。

CL-bench考的不是AI記住了多少知識(shí)，而是AI能不能像人類(lèi)一樣，拿到一份新材料后快速學(xué)會(huì)并正確使用。

這些任務(wù)有個(gè)共同點(diǎn)，AI必須靠臨場(chǎng)發(fā)揮才能通過(guò)考試。

預(yù)訓(xùn)練時(shí)學(xué)到的知識(shí)在這里用處不大，因?yàn)镃L-bench里的知識(shí)要么是專(zhuān)家們新編的，要么是現(xiàn)實(shí)世界中極其小眾的內(nèi)容。

那如何保證CL-bench里的新知識(shí)是模型原來(lái)就沒(méi)有的呢？

論文通過(guò)消融實(shí)驗(yàn)驗(yàn)證了這一點(diǎn)。在不提供上下文的情況下，所有被測(cè)模型只能解決不到1%的任務(wù)。這充分證明了任務(wù)對(duì)上下文的依賴(lài)性。

CL-bench將上下文學(xué)習(xí)場(chǎng)景分為四大類(lèi)別，每類(lèi)對(duì)應(yīng)不同的認(rèn)知要求：

領(lǐng)域知識(shí)推理（Domain Knowledge Reasoning）：涵蓋金融、醫(yī)療、人文、法律咨詢(xún)、生活方式、管理和科學(xué)七個(gè)子領(lǐng)域。

上下文提供專(zhuān)業(yè)領(lǐng)域知識(shí)，如虛構(gòu)的法律體系、創(chuàng)新的金融工具或小眾專(zhuān)業(yè)知識(shí)，模型需要學(xué)習(xí)并應(yīng)用這些知識(shí)進(jìn)行推理。比如給AI一個(gè)虛構(gòu)國(guó)家的完整法律條文和判例，讓AI判罰一起復(fù)雜的民事糾紛。

規(guī)則系統(tǒng)應(yīng)用（Rule System Application）：包括游戲機(jī)制、數(shù)學(xué)形式體系、編程語(yǔ)法、法律法規(guī)和技術(shù)標(biāo)準(zhǔn)五個(gè)子類(lèi)。

上下文提供明確定義的規(guī)則系統(tǒng)，模型必須理解并嚴(yán)格遵守這些規(guī)則。比如給定一門(mén)全新編程語(yǔ)言的語(yǔ)法規(guī)范，讓模型編寫(xiě)符合規(guī)范的程序；或者給定一套新游戲的完整規(guī)則手冊(cè)，讓模型分析游戲狀態(tài)并給出最優(yōu)策略。

程序性任務(wù)執(zhí)行（Procedural Task Execution）：分為教學(xué)程序、操作程序和工作流編排三類(lèi)。

上下文提供復(fù)雜的操作流程、產(chǎn)品手冊(cè)或工作流程，模型需要學(xué)習(xí)并正確執(zhí)行這些程序。例如給定一份無(wú)人機(jī)物流系統(tǒng)約7000字的API文檔，讓模型將自然語(yǔ)言指令轉(zhuǎn)換為安全合規(guī)的偽代碼。

經(jīng)驗(yàn)發(fā)現(xiàn)與模擬（Empirical Discovery & Simulation）：是最具挑戰(zhàn)性的類(lèi)別，包括實(shí)驗(yàn)數(shù)據(jù)、觀測(cè)數(shù)據(jù)和模擬環(huán)境三個(gè)子類(lèi)。

與前三類(lèi)強(qiáng)調(diào)演繹推理不同，這一類(lèi)要求歸納推理。從大量數(shù)據(jù)中發(fā)現(xiàn)潛在規(guī)律，或在虛擬環(huán)境中進(jìn)行推理和決策。比如給定300份帶電粒子在磁場(chǎng)中運(yùn)動(dòng)的實(shí)驗(yàn)日志，讓模型推導(dǎo)出運(yùn)動(dòng)規(guī)律并計(jì)算特定參數(shù)。

這四類(lèi)場(chǎng)景基本覆蓋了人類(lèi)在現(xiàn)實(shí)工作中遇到的主要學(xué)習(xí)情境，而CL-bench又把這些真實(shí)場(chǎng)景搬進(jìn)了評(píng)測(cè)體系。

說(shuō)得更直白些，領(lǐng)域知識(shí)推理考的是“能不能學(xué)會(huì)新概念”，規(guī)則系統(tǒng)應(yīng)用考的是“能不能遵守新規(guī)則”，程序性任務(wù)執(zhí)行考的是“能不能照著新流程做事”，經(jīng)驗(yàn)發(fā)現(xiàn)與模擬考的是“能不能從數(shù)據(jù)里找規(guī)律”。

這四種能力，人類(lèi)在日常工作中天天用，但AI顯然還沒(méi)學(xué)會(huì)。

為了確保測(cè)試的是真正的學(xué)習(xí)能力而非記憶，CL-bench采用了嚴(yán)格的“防污染”設(shè)計(jì)：

虛構(gòu)創(chuàng)作：所有的測(cè)試內(nèi)容都是由專(zhuān)家們完全原創(chuàng)的。

就拿剛才的虛擬國(guó)家為例，它包含一套完整的憲法、民法、刑法，甚至連判例都有。其中的法律原則和判例邏輯與現(xiàn)實(shí)世界任何國(guó)家都不同。

或者創(chuàng)造一門(mén)名為“EduScript”的教育編程語(yǔ)言，具有獨(dú)特的語(yǔ)法規(guī)則和控制結(jié)構(gòu)。

現(xiàn)有內(nèi)容修改：CL-bench還對(duì)真實(shí)知識(shí)進(jìn)行了系統(tǒng)性地改動(dòng)，比如修改著名歷史事件的因果關(guān)系、改變物理定律的數(shù)學(xué)表達(dá)、或調(diào)整技術(shù)標(biāo)準(zhǔn)的具體參數(shù)。

這確保了即使模型見(jiàn)過(guò)類(lèi)似內(nèi)容，也無(wú)法直接套用預(yù)訓(xùn)練知識(shí)。

小眾新興內(nèi)容整合：CL-bench里面還納入了預(yù)訓(xùn)練數(shù)據(jù)中極少出現(xiàn)的內(nèi)容，就像2024年后發(fā)布的新產(chǎn)品技術(shù)文檔、最新的科研論文發(fā)現(xiàn)、或極其專(zhuān)業(yè)的小眾領(lǐng)域知識(shí)。

這三招組合拳，目的只有一個(gè)，讓AI沒(méi)法作弊。你不能靠背過(guò)的知識(shí)答題，必須現(xiàn)場(chǎng)學(xué)。這就像考試時(shí)老師突然換了一套從沒(méi)見(jiàn)過(guò)的題型，你只能靠理解能力和學(xué)習(xí)能力來(lái)應(yīng)對(duì)。

論文通過(guò)消融實(shí)驗(yàn)驗(yàn)證了這一設(shè)計(jì)的有效性：在不提供上下文的情況下，即使是最強(qiáng)的 GPT-5.1 模型也只能解決不到 1% 的任務(wù)，充分證明了任務(wù)對(duì)上下文的依賴(lài)性。

CL-bench給出的結(jié)果

讓人們既開(kāi)心又難過(guò)

CL-bench的這套評(píng)估體系的嚴(yán)格程度超出想象。

16.6個(gè)評(píng)估標(biāo)注項(xiàng)意味著什么？意味著你不能只答對(duì)大方向，每個(gè)細(xì)節(jié)都要對(duì)。就像做數(shù)學(xué)題，你不僅要答案對(duì)，步驟也要對(duì)，格式還要對(duì)，引用的公式也要對(duì)。任何一個(gè)環(huán)節(jié)出錯(cuò)，整道題就算錯(cuò)。

這些標(biāo)準(zhǔn)會(huì)從六個(gè)角度檢查AI的答案，每個(gè)標(biāo)準(zhǔn)要么對(duì)，要么錯(cuò)，沒(méi)有中間地帶。

事實(shí)對(duì)不對(duì)？比如AI說(shuō)這個(gè)虛構(gòu)國(guó)家的憲法第3條規(guī)定了什么，得和上下文里寫(xiě)的一模一樣才算對(duì)。

計(jì)算對(duì)不對(duì)？如果任務(wù)要求計(jì)算帶電粒子的運(yùn)動(dòng)軌跡，那每一步公式、每一個(gè)數(shù)字都得驗(yàn)證。

推理對(duì)不對(duì)？AI得按照上下文里給的規(guī)則來(lái)推理，不能自己瞎編邏輯。

代碼對(duì)不對(duì)？如果要寫(xiě)程序，得嚴(yán)格遵守文檔里的 API 規(guī)范，少一個(gè)參數(shù)都不行。

完整不完整？該做的步驟一個(gè)都不能少，漏了哪怕一個(gè)關(guān)鍵環(huán)節(jié)都算錯(cuò)。

格式對(duì)不對(duì)？讓你輸出JSON就得是JSON，讓你用表格就得是表格。

這套評(píng)分系統(tǒng)最狠的地方在于，只有所有標(biāo)準(zhǔn)全部通過(guò)，任務(wù)才算完成。只要有一個(gè)標(biāo)準(zhǔn)沒(méi)過(guò)，整個(gè)任務(wù)就算失敗。這就像考試，選擇題全對(duì)才給分，錯(cuò)一個(gè)就是零分。

為了保證這套自動(dòng)評(píng)分系統(tǒng)靠譜，論文做了兩個(gè)驗(yàn)證。

一是讓5個(gè)不同的AI模型（GPT-5.1/5.2、Claude Opus 4.5、Qwen-3-Max、ERNIE 4.0）當(dāng)評(píng)委，它們的判斷結(jié)果90%以上都一致；二是人工抽查了200個(gè)案例，發(fā)現(xiàn)AI評(píng)委的準(zhǔn)確率也超過(guò)90%。這說(shuō)明這套評(píng)分系統(tǒng)確實(shí)可信。

CL-bench的評(píng)測(cè)顯示，AI距離解決實(shí)際問(wèn)題還相距甚遠(yuǎn)，往好處想，人類(lèi)還不用擔(dān)心被AI取代。

十個(gè)最先進(jìn)的語(yǔ)言模型，平均只能解決17.2%的全量任務(wù)，所有模型里表現(xiàn)最好的是GPT-5.1，但也僅達(dá)到23.7%。這意味著在大多數(shù)情況下，即使上下文中包含了解決問(wèn)題所需的全部信息，模型仍然失敗了。

這個(gè)數(shù)字值得細(xì)品。23.7%意味著給AI一份完整的操作手冊(cè)，它有四分之三的概率還是搞不定。

這就像你雇了個(gè)員工，你給他詳細(xì)講了一遍具體操作流程，結(jié)果輪到他上崗的時(shí)候，十次有八次都做錯(cuò)。在現(xiàn)實(shí)世界里，這樣的員工早就被開(kāi)除了。

更深入的錯(cuò)誤分析揭示了失敗的主要原因。

超過(guò)55%的錯(cuò)誤源于“上下文忽略”：模型根本沒(méi)有注意到上下文中的關(guān)鍵信息，而是試圖用預(yù)訓(xùn)練知識(shí)解決問(wèn)題。

超過(guò)60%的錯(cuò)誤屬于“上下文誤用”：模型看到了信息但理解錯(cuò)誤或應(yīng)用不當(dāng)。

還有超過(guò)35%的錯(cuò)誤是格式錯(cuò)誤，說(shuō)明模型連明確的格式指令都無(wú)法遵守。

這三種錯(cuò)誤類(lèi)型揭示了AI的根本問(wèn)題。上下文忽略說(shuō)明AI不會(huì)“看”；上下文誤用說(shuō)明AI不會(huì)“想”；格式錯(cuò)誤說(shuō)明AI不會(huì)“聽(tīng)”。

一個(gè)不會(huì)看、不會(huì)想、不會(huì)聽(tīng)的學(xué)生，怎么可能學(xué)會(huì)新知識(shí)？

這些發(fā)現(xiàn)揭示了一個(gè)被長(zhǎng)期忽視的真相：當(dāng)前的AI模型本質(zhì)上是“參數(shù)推理者”而非“上下文學(xué)習(xí)者”。它們擅長(zhǎng)調(diào)用預(yù)訓(xùn)練時(shí)壓縮在權(quán)重中的靜態(tài)知識(shí)，卻不擅長(zhǎng)從當(dāng)前輸入中動(dòng)態(tài)學(xué)習(xí)新知識(shí)。

因?yàn)檎鎸?shí)任務(wù)往往需要根據(jù)具體上下文靈活應(yīng)對(duì)，而非套用固定模式。

所以AI在標(biāo)準(zhǔn)化考試中表現(xiàn)優(yōu)異，在真實(shí)工作場(chǎng)景中卻頻頻出錯(cuò)。

打個(gè)比方，現(xiàn)在的AI就像一個(gè)背了整本字典的人，你問(wèn)他字典里的字怎么寫(xiě)，他都能答上來(lái)。但你給他一本新書(shū)讓他學(xué)習(xí)，他就傻眼了。他不會(huì)學(xué)，只會(huì)背。這就是“參數(shù)推理者”和“上下文學(xué)習(xí)者”的區(qū)別。

四大類(lèi)別中，領(lǐng)域知識(shí)推理相對(duì)最容易，最好的模型能達(dá)到25.3%的解決率。規(guī)則系統(tǒng)應(yīng)用和程序性任務(wù)執(zhí)行難度適中，大部分模型在15-20%之間。但經(jīng)驗(yàn)發(fā)現(xiàn)與模擬類(lèi)任務(wù)的表現(xiàn)斷崖式下跌，所有模型平均只有11.8%的解決率。

這個(gè)差異很有意思。

演繹推理（應(yīng)用已知規(guī)則）比歸納推理（從數(shù)據(jù)中發(fā)現(xiàn)規(guī)律）容易得多。給AI一套規(guī)則讓它照著做，它還能勉強(qiáng)應(yīng)付；讓它從數(shù)據(jù)里找規(guī)律，它就徹底懵了。

這說(shuō)明AI的學(xué)習(xí)能力還停留在“照葫蘆畫(huà)瓢”的階段，遠(yuǎn)沒(méi)到“舉一反三”的程度。

在子類(lèi)別層面，差異更加明顯。在規(guī)則系統(tǒng)應(yīng)用中，法律法規(guī)類(lèi)任務(wù)的解決率超過(guò) 29%, GPT-5.1 甚至達(dá)到 44.8%，但數(shù)學(xué)形式體系類(lèi)任務(wù)大部分模型都在 15% 以下。

在程序性任務(wù)執(zhí)行中，工作流編排的解決率普遍在 20% 以上，但操作程序類(lèi)任務(wù)明顯更難。

這些差異透露出另一個(gè)信息，AI對(duì)不同類(lèi)型知識(shí)的學(xué)習(xí)能力差異巨大。有些知識(shí)它學(xué)得快，有些知識(shí)它怎么都學(xué)不會(huì)。這就像人類(lèi)學(xué)生，有人擅長(zhǎng)文科，有人擅長(zhǎng)理科。

但問(wèn)題是，AI的偏科比人類(lèi)嚴(yán)重得多。

論文引發(fā)的啟示

無(wú)可置疑的是，CL-bench填補(bǔ)了現(xiàn)有評(píng)測(cè)體系的關(guān)鍵空白。

在過(guò)去，長(zhǎng)上下文評(píng)測(cè)主要考AI能不能從一大堆文字里找到信息。比如給AI一篇10萬(wàn)字的小說(shuō)，問(wèn)“主角的媽媽叫什么名字”,AI只要能翻到那一頁(yè)找到答案就行。

這更像是考“查字典”的能力，不是“學(xué)習(xí)”的能力。

指令遵循評(píng)測(cè)主要考AI聽(tīng)不聽(tīng)話(huà)。比如讓AI“用JSON格式輸出，不超過(guò)100字”，看它能不能照做。

但這類(lèi)測(cè)試的知識(shí)都很簡(jiǎn)單，AI早就會(huì)了，只是看它守不守規(guī)矩而已。

領(lǐng)域任務(wù)評(píng)測(cè)問(wèn)題更大。它既考AI會(huì)不會(huì)找資料，又考AI會(huì)不會(huì)用資料。結(jié)果AI答錯(cuò)了，你根本不知道是因?yàn)樗鼪](méi)找對(duì)資料，還是找對(duì)了但不會(huì)用。

就像學(xué)生考試不及格，你不知道是他沒(méi)復(fù)習(xí)，還是復(fù)習(xí)了但沒(méi)學(xué)會(huì)。

CL-bench則專(zhuān)注于一個(gè)明確的能力維度，從復(fù)雜上下文中學(xué)習(xí)新知識(shí)并正確應(yīng)用。

它將上下文準(zhǔn)備與上下文學(xué)習(xí)解耦。所有必要信息都已組織好并提供，模型只需學(xué)習(xí)和應(yīng)用，無(wú)需外部檢索。這使得評(píng)測(cè)結(jié)果能夠精確反映模型的上下文學(xué)習(xí)能力，而非其他混雜因素。

論文還發(fā)現(xiàn)了一些反直覺(jué)的現(xiàn)象，GPT-5.2的表現(xiàn)反而比GPT-5.1差5.6%。

深入分析發(fā)現(xiàn)，GPT-5.2在長(zhǎng)上下文推理時(shí)難以維持連貫的因果鏈，且更頻繁地違反上下文中的明確約束。

這說(shuō)明模型的版本迭代并不總是帶來(lái)全面提升，某些能力的優(yōu)化可能以犧牲其他能力為代價(jià)。

這個(gè)發(fā)現(xiàn)很重要。我們一直以為新版本肯定比舊版本強(qiáng)，但事實(shí)并非如此。GPT-5.2可能在某些方面確實(shí)更強(qiáng)了，但在上下文學(xué)習(xí)這個(gè)維度上反而退步了。這就像一個(gè)學(xué)生，數(shù)學(xué)成績(jī)提高了，但語(yǔ)文成績(jī)下降了，總分反而降了。

再比如，增加推理強(qiáng)度對(duì)不同模型的效果差異巨大。

GPT-5.1在高推理強(qiáng)度下平均提升2.5%，在管理和實(shí)驗(yàn)數(shù)據(jù)類(lèi)任務(wù)上提升近6%。

但GPT-5.2在某些子類(lèi)別上反而出現(xiàn)負(fù)增長(zhǎng)。這表明“更多思考”只有在模型具備正確的上下文學(xué)習(xí)機(jī)制時(shí)才有效，否則可能只是在錯(cuò)誤的方向上越走越遠(yuǎn)。

這又是一個(gè)反直覺(jué)的發(fā)現(xiàn)。我們以為讓AI多想想總是好的，但實(shí)際上，如果AI的學(xué)習(xí)機(jī)制本身就有問(wèn)題，讓它多想只會(huì)讓錯(cuò)誤更嚴(yán)重。就像一個(gè)方向錯(cuò)了的人，走得越快，離目標(biāo)越遠(yuǎn)。

CL-bench揭示的問(wèn)題不僅僅是技術(shù)層面的，更是范式層面的。當(dāng)前AI的訓(xùn)練范式和真實(shí)應(yīng)用場(chǎng)景之間存在根本性的不匹配。我們優(yōu)化出的模型擅長(zhǎng)對(duì)“已知”事物進(jìn)行推理，但用戶(hù)需要的是能解決依賴(lài)于動(dòng)態(tài)上下文的任務(wù)的模型。

這個(gè)不匹配解釋了為什么AI在實(shí)驗(yàn)室里表現(xiàn)優(yōu)異，到了真實(shí)場(chǎng)景就頻頻翻車(chē)。實(shí)驗(yàn)室里的任務(wù)大多是封閉的、靜態(tài)的，答案在訓(xùn)練數(shù)據(jù)里都見(jiàn)過(guò)。但真實(shí)世界的任務(wù)是開(kāi)放的、動(dòng)態(tài)的，需要根據(jù)具體情況靈活應(yīng)對(duì)。

論文提出的“上下文學(xué)習(xí)”能力，本質(zhì)上是讓AI從“死記硬背”轉(zhuǎn)向“活學(xué)活用”。

如果AI真的能學(xué)會(huì)從上下文中學(xué)習(xí)，那它就能像人類(lèi)一樣，面對(duì)新情況、新問(wèn)題時(shí)快速適應(yīng)，而不是只會(huì)套用固定模式。

CL-bench的意義，是為了給大模型公司啟示，告訴他們下一代AI不需要更大的模型，不需要更多的參數(shù)，而需要更強(qiáng)的學(xué)習(xí)能力。

但上下文學(xué)習(xí)只是第一步。論文提到，即便上下文學(xué)習(xí)足夠強(qiáng)大，模型的上下文窗口一旦清空，學(xué)到的知識(shí)隨之消失。

因此，下一個(gè)挑戰(zhàn)是如何讓從上下文中習(xí)得的知識(shí)持久化。

姚順雨在最近的公開(kāi)發(fā)言中也談到了這個(gè)方向。他認(rèn)為，自主學(xué)習(xí)幾乎已經(jīng)形成了共識(shí)，而且這個(gè)事情已經(jīng)在發(fā)生了。

他說(shuō)ChatGPT在利用用戶(hù)數(shù)據(jù)不斷擬合人的聊天風(fēng)格，Claude Code已經(jīng)寫(xiě)了自己項(xiàng)目的95%的代碼。在某種程度上它在幫助自己變得更好。

但他也指出，這些自主學(xué)習(xí)的例子目前還局限在特定場(chǎng)景下，沒(méi)有讓人感覺(jué)到非常大的威力?！斑@個(gè)事情可能會(huì)更像一個(gè)漸變，而不像一個(gè)突變。”

從更宏觀的角度看，CL-bench揭示的問(wèn)題反映了AI發(fā)展的一個(gè)深層矛盾。我們一直在追求更強(qiáng)的推理能力、更大的知識(shí)容量，但忽視了一個(gè)更基礎(chǔ)的能力，那就是學(xué)習(xí)。

沒(méi)有學(xué)習(xí)能力的AI，再?gòu)?qiáng)也只是一個(gè)高級(jí)的查詢(xún)系統(tǒng)。只有具備了真正的學(xué)習(xí)能力，AI才能從“工具”進(jìn)化為“智能體”。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.