国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

姚順雨騰訊第一篇論文,道破為什么AI死活聽(tīng)不懂人話(huà)

0
分享至



今天的大語(yǔ)言模型能解奧數(shù)題、通過(guò)專(zhuān)業(yè)考試、寫(xiě)復(fù)雜代碼,但它們?cè)谡鎸?shí)世界的應(yīng)用中卻常?!胺?chē)”。問(wèn)題出在哪里?

在姚順雨加入騰訊后發(fā)布的首篇論文里,他對(duì)于這個(gè)現(xiàn)象提出了一個(gè)觀點(diǎn):

“當(dāng)前AI與真正智能之間的鴻溝,不在于知識(shí)的多少,而在于學(xué)習(xí)的能力。一個(gè)裝滿(mǎn)知識(shí)卻不會(huì)學(xué)習(xí)的AI,就像一個(gè)背了整本字典卻不會(huì)寫(xiě)作的人,看起來(lái)博學(xué),實(shí)則僵化?!?/p>

這篇論文的標(biāo)題叫做《CL-bench: A Benchmark for Context Learning》。

CL-bench是一個(gè)專(zhuān)門(mén)評(píng)測(cè)語(yǔ)言模型“上下文學(xué)習(xí)能力”的大規(guī)?;鶞?zhǔn)測(cè)試集,它的全稱(chēng)是Context Learning Benchmark,即上下文學(xué)習(xí)測(cè)試集。

它包含500個(gè)復(fù)雜上下文場(chǎng)景、1899個(gè)任務(wù)和31607個(gè)評(píng)估標(biāo)注點(diǎn),所有內(nèi)容均由各個(gè)領(lǐng)域資深專(zhuān)家精心挑選。

這個(gè)基準(zhǔn)的核心設(shè)計(jì)理念,是挑選那些在模型的預(yù)訓(xùn)練數(shù)據(jù)中不存在的難題,讓每個(gè)任務(wù)都必須要求模型從提供的上下文中學(xué)習(xí)全新的知識(shí)才能解決。

這篇論文不僅揭示了當(dāng)前AI的根本性缺陷,還構(gòu)建了一個(gè)專(zhuān)屬于AI的評(píng)價(jià)體系,非常值得AI以及agent從業(yè)者學(xué)習(xí)。

01

一面照出AI“假學(xué)習(xí)”真相的鏡子

從數(shù)據(jù)規(guī)模來(lái)看,CL-bench的每個(gè)上下文平均包含3.8個(gè)任務(wù),最多可達(dá)12個(gè)任務(wù)。

更重要的是,500個(gè)復(fù)雜上下文場(chǎng)景中,包含序列依賴(lài)性任務(wù)的場(chǎng)景占51.1%。

這也就是說(shuō),你想要AI解決后面的任務(wù),那就必須先從前面的任務(wù)中得到正確的答案,這種多輪交互設(shè)計(jì)極大增加了難度。

單任務(wù)標(biāo)注平均需領(lǐng)域?qū)<?0小時(shí),每個(gè)任務(wù)平均配備16.6個(gè)評(píng)估標(biāo)注項(xiàng),從事實(shí)正確性、計(jì)算準(zhǔn)確性、程序正確性、內(nèi)容完整性和格式合規(guī)性等多個(gè)維度進(jìn)行嚴(yán)格驗(yàn)證。

CL-bench考的不是AI記住了多少知識(shí),而是AI能不能像人類(lèi)一樣,拿到一份新材料后快速學(xué)會(huì)并正確使用。

這些任務(wù)有個(gè)共同點(diǎn),AI必須靠臨場(chǎng)發(fā)揮才能通過(guò)考試。

預(yù)訓(xùn)練時(shí)學(xué)到的知識(shí)在這里用處不大,因?yàn)镃L-bench里的知識(shí)要么是專(zhuān)家們新編的,要么是現(xiàn)實(shí)世界中極其小眾的內(nèi)容。

那如何保證CL-bench里的新知識(shí)是模型原來(lái)就沒(méi)有的呢?

論文通過(guò)消融實(shí)驗(yàn)驗(yàn)證了這一點(diǎn)。在不提供上下文的情況下,所有被測(cè)模型只能解決不到1%的任務(wù)。這充分證明了任務(wù)對(duì)上下文的依賴(lài)性。

CL-bench將上下文學(xué)習(xí)場(chǎng)景分為四大類(lèi)別,每類(lèi)對(duì)應(yīng)不同的認(rèn)知要求:



領(lǐng)域知識(shí)推理(Domain Knowledge Reasoning):涵蓋金融、醫(yī)療、人文、法律咨詢(xún)、生活方式、管理和科學(xué)七個(gè)子領(lǐng)域。

上下文提供專(zhuān)業(yè)領(lǐng)域知識(shí),如虛構(gòu)的法律體系、創(chuàng)新的金融工具或小眾專(zhuān)業(yè)知識(shí),模型需要學(xué)習(xí)并應(yīng)用這些知識(shí)進(jìn)行推理。比如給AI一個(gè)虛構(gòu)國(guó)家的完整法律條文和判例,讓AI判罰一起復(fù)雜的民事糾紛。

規(guī)則系統(tǒng)應(yīng)用(Rule System Application):包括游戲機(jī)制、數(shù)學(xué)形式體系、編程語(yǔ)法、法律法規(guī)和技術(shù)標(biāo)準(zhǔn)五個(gè)子類(lèi)。

上下文提供明確定義的規(guī)則系統(tǒng),模型必須理解并嚴(yán)格遵守這些規(guī)則。比如給定一門(mén)全新編程語(yǔ)言的語(yǔ)法規(guī)范,讓模型編寫(xiě)符合規(guī)范的程序;或者給定一套新游戲的完整規(guī)則手冊(cè),讓模型分析游戲狀態(tài)并給出最優(yōu)策略。

程序性任務(wù)執(zhí)行(Procedural Task Execution):分為教學(xué)程序、操作程序和工作流編排三類(lèi)。

上下文提供復(fù)雜的操作流程、產(chǎn)品手冊(cè)或工作流程,模型需要學(xué)習(xí)并正確執(zhí)行這些程序。例如給定一份無(wú)人機(jī)物流系統(tǒng)約7000字的API文檔,讓模型將自然語(yǔ)言指令轉(zhuǎn)換為安全合規(guī)的偽代碼。

經(jīng)驗(yàn)發(fā)現(xiàn)與模擬(Empirical Discovery & Simulation):是最具挑戰(zhàn)性的類(lèi)別,包括實(shí)驗(yàn)數(shù)據(jù)、觀測(cè)數(shù)據(jù)和模擬環(huán)境三個(gè)子類(lèi)。



與前三類(lèi)強(qiáng)調(diào)演繹推理不同,這一類(lèi)要求歸納推理。從大量數(shù)據(jù)中發(fā)現(xiàn)潛在規(guī)律,或在虛擬環(huán)境中進(jìn)行推理和決策。比如給定300份帶電粒子在磁場(chǎng)中運(yùn)動(dòng)的實(shí)驗(yàn)日志,讓模型推導(dǎo)出運(yùn)動(dòng)規(guī)律并計(jì)算特定參數(shù)。

這四類(lèi)場(chǎng)景基本覆蓋了人類(lèi)在現(xiàn)實(shí)工作中遇到的主要學(xué)習(xí)情境,而CL-bench又把這些真實(shí)場(chǎng)景搬進(jìn)了評(píng)測(cè)體系。

說(shuō)得更直白些,領(lǐng)域知識(shí)推理考的是“能不能學(xué)會(huì)新概念”,規(guī)則系統(tǒng)應(yīng)用考的是“能不能遵守新規(guī)則”,程序性任務(wù)執(zhí)行考的是“能不能照著新流程做事”,經(jīng)驗(yàn)發(fā)現(xiàn)與模擬考的是“能不能從數(shù)據(jù)里找規(guī)律”。

這四種能力,人類(lèi)在日常工作中天天用,但AI顯然還沒(méi)學(xué)會(huì)。

為了確保測(cè)試的是真正的學(xué)習(xí)能力而非記憶,CL-bench采用了嚴(yán)格的“防污染”設(shè)計(jì):

虛構(gòu)創(chuàng)作:所有的測(cè)試內(nèi)容都是由專(zhuān)家們完全原創(chuàng)的。

就拿剛才的虛擬國(guó)家為例,它包含一套完整的憲法、民法、刑法,甚至連判例都有。其中的法律原則和判例邏輯與現(xiàn)實(shí)世界任何國(guó)家都不同。

或者創(chuàng)造一門(mén)名為“EduScript”的教育編程語(yǔ)言,具有獨(dú)特的語(yǔ)法規(guī)則和控制結(jié)構(gòu)。

現(xiàn)有內(nèi)容修改:CL-bench還對(duì)真實(shí)知識(shí)進(jìn)行了系統(tǒng)性地改動(dòng),比如修改著名歷史事件的因果關(guān)系、改變物理定律的數(shù)學(xué)表達(dá)、或調(diào)整技術(shù)標(biāo)準(zhǔn)的具體參數(shù)。

這確保了即使模型見(jiàn)過(guò)類(lèi)似內(nèi)容,也無(wú)法直接套用預(yù)訓(xùn)練知識(shí)。

小眾新興內(nèi)容整合:CL-bench里面還納入了預(yù)訓(xùn)練數(shù)據(jù)中極少出現(xiàn)的內(nèi)容,就像2024年后發(fā)布的新產(chǎn)品技術(shù)文檔、最新的科研論文發(fā)現(xiàn)、或極其專(zhuān)業(yè)的小眾領(lǐng)域知識(shí)。

這三招組合拳,目的只有一個(gè),讓AI沒(méi)法作弊。你不能靠背過(guò)的知識(shí)答題,必須現(xiàn)場(chǎng)學(xué)。這就像考試時(shí)老師突然換了一套從沒(méi)見(jiàn)過(guò)的題型,你只能靠理解能力和學(xué)習(xí)能力來(lái)應(yīng)對(duì)。

論文通過(guò)消融實(shí)驗(yàn)驗(yàn)證了這一設(shè)計(jì)的有效性:在不提供上下文的情況下,即使是最強(qiáng)的 GPT-5.1 模型也只能解決不到 1% 的任務(wù),充分證明了任務(wù)對(duì)上下文的依賴(lài)性。

02

CL-bench給出的結(jié)果

讓人們既開(kāi)心又難過(guò)

CL-bench的這套評(píng)估體系的嚴(yán)格程度超出想象。

16.6個(gè)評(píng)估標(biāo)注項(xiàng)意味著什么?意味著你不能只答對(duì)大方向,每個(gè)細(xì)節(jié)都要對(duì)。就像做數(shù)學(xué)題,你不僅要答案對(duì),步驟也要對(duì),格式還要對(duì),引用的公式也要對(duì)。任何一個(gè)環(huán)節(jié)出錯(cuò),整道題就算錯(cuò)。

這些標(biāo)準(zhǔn)會(huì)從六個(gè)角度檢查AI的答案,每個(gè)標(biāo)準(zhǔn)要么對(duì),要么錯(cuò),沒(méi)有中間地帶。

事實(shí)對(duì)不對(duì)?比如AI說(shuō)這個(gè)虛構(gòu)國(guó)家的憲法第3條規(guī)定了什么,得和上下文里寫(xiě)的一模一樣才算對(duì)。

計(jì)算對(duì)不對(duì)?如果任務(wù)要求計(jì)算帶電粒子的運(yùn)動(dòng)軌跡,那每一步公式、每一個(gè)數(shù)字都得驗(yàn)證。

推理對(duì)不對(duì)?AI得按照上下文里給的規(guī)則來(lái)推理,不能自己瞎編邏輯。

代碼對(duì)不對(duì)?如果要寫(xiě)程序,得嚴(yán)格遵守文檔里的 API 規(guī)范,少一個(gè)參數(shù)都不行。

完整不完整?該做的步驟一個(gè)都不能少,漏了哪怕一個(gè)關(guān)鍵環(huán)節(jié)都算錯(cuò)。

格式對(duì)不對(duì)?讓你輸出JSON就得是JSON,讓你用表格就得是表格。

這套評(píng)分系統(tǒng)最狠的地方在于,只有所有標(biāo)準(zhǔn)全部通過(guò),任務(wù)才算完成。只要有一個(gè)標(biāo)準(zhǔn)沒(méi)過(guò),整個(gè)任務(wù)就算失敗。這就像考試,選擇題全對(duì)才給分,錯(cuò)一個(gè)就是零分。

為了保證這套自動(dòng)評(píng)分系統(tǒng)靠譜,論文做了兩個(gè)驗(yàn)證。

一是讓5個(gè)不同的AI模型(GPT-5.1/5.2、Claude Opus 4.5、Qwen-3-Max、ERNIE 4.0)當(dāng)評(píng)委,它們的判斷結(jié)果90%以上都一致;二是人工抽查了200個(gè)案例,發(fā)現(xiàn)AI評(píng)委的準(zhǔn)確率也超過(guò)90%。這說(shuō)明這套評(píng)分系統(tǒng)確實(shí)可信。

CL-bench的評(píng)測(cè)顯示,AI距離解決實(shí)際問(wèn)題還相距甚遠(yuǎn),往好處想,人類(lèi)還不用擔(dān)心被AI取代。



十個(gè)最先進(jìn)的語(yǔ)言模型,平均只能解決17.2%的全量任務(wù),所有模型里表現(xiàn)最好的是GPT-5.1,但也僅達(dá)到23.7%。這意味著在大多數(shù)情況下,即使上下文中包含了解決問(wèn)題所需的全部信息,模型仍然失敗了。

這個(gè)數(shù)字值得細(xì)品。23.7%意味著給AI一份完整的操作手冊(cè),它有四分之三的概率還是搞不定。

這就像你雇了個(gè)員工,你給他詳細(xì)講了一遍具體操作流程,結(jié)果輪到他上崗的時(shí)候,十次有八次都做錯(cuò)。在現(xiàn)實(shí)世界里,這樣的員工早就被開(kāi)除了。

更深入的錯(cuò)誤分析揭示了失敗的主要原因。

超過(guò)55%的錯(cuò)誤源于“上下文忽略”:模型根本沒(méi)有注意到上下文中的關(guān)鍵信息,而是試圖用預(yù)訓(xùn)練知識(shí)解決問(wèn)題。

超過(guò)60%的錯(cuò)誤屬于“上下文誤用”:模型看到了信息但理解錯(cuò)誤或應(yīng)用不當(dāng)。

還有超過(guò)35%的錯(cuò)誤是格式錯(cuò)誤,說(shuō)明模型連明確的格式指令都無(wú)法遵守。

這三種錯(cuò)誤類(lèi)型揭示了AI的根本問(wèn)題。上下文忽略說(shuō)明AI不會(huì)“看”;上下文誤用說(shuō)明AI不會(huì)“想”;格式錯(cuò)誤說(shuō)明AI不會(huì)“聽(tīng)”。

一個(gè)不會(huì)看、不會(huì)想、不會(huì)聽(tīng)的學(xué)生,怎么可能學(xué)會(huì)新知識(shí)?

這些發(fā)現(xiàn)揭示了一個(gè)被長(zhǎng)期忽視的真相:當(dāng)前的AI模型本質(zhì)上是“參數(shù)推理者”而非“上下文學(xué)習(xí)者”。它們擅長(zhǎng)調(diào)用預(yù)訓(xùn)練時(shí)壓縮在權(quán)重中的靜態(tài)知識(shí),卻不擅長(zhǎng)從當(dāng)前輸入中動(dòng)態(tài)學(xué)習(xí)新知識(shí)。

因?yàn)檎鎸?shí)任務(wù)往往需要根據(jù)具體上下文靈活應(yīng)對(duì),而非套用固定模式。

所以AI在標(biāo)準(zhǔn)化考試中表現(xiàn)優(yōu)異,在真實(shí)工作場(chǎng)景中卻頻頻出錯(cuò)。

打個(gè)比方,現(xiàn)在的AI就像一個(gè)背了整本字典的人,你問(wèn)他字典里的字怎么寫(xiě),他都能答上來(lái)。但你給他一本新書(shū)讓他學(xué)習(xí),他就傻眼了。他不會(huì)學(xué),只會(huì)背。這就是“參數(shù)推理者”和“上下文學(xué)習(xí)者”的區(qū)別。

四大類(lèi)別中,領(lǐng)域知識(shí)推理相對(duì)最容易,最好的模型能達(dá)到25.3%的解決率。規(guī)則系統(tǒng)應(yīng)用和程序性任務(wù)執(zhí)行難度適中,大部分模型在15-20%之間。但經(jīng)驗(yàn)發(fā)現(xiàn)與模擬類(lèi)任務(wù)的表現(xiàn)斷崖式下跌,所有模型平均只有11.8%的解決率。

這個(gè)差異很有意思。

演繹推理(應(yīng)用已知規(guī)則)比歸納推理(從數(shù)據(jù)中發(fā)現(xiàn)規(guī)律)容易得多。給AI一套規(guī)則讓它照著做,它還能勉強(qiáng)應(yīng)付;讓它從數(shù)據(jù)里找規(guī)律,它就徹底懵了。

這說(shuō)明AI的學(xué)習(xí)能力還停留在“照葫蘆畫(huà)瓢”的階段,遠(yuǎn)沒(méi)到“舉一反三”的程度。

在子類(lèi)別層面,差異更加明顯。在規(guī)則系統(tǒng)應(yīng)用中,法律法規(guī)類(lèi)任務(wù)的解決率超過(guò) 29%, GPT-5.1 甚至達(dá)到 44.8%,但數(shù)學(xué)形式體系類(lèi)任務(wù)大部分模型都在 15% 以下。

在程序性任務(wù)執(zhí)行中,工作流編排的解決率普遍在 20% 以上,但操作程序類(lèi)任務(wù)明顯更難。

這些差異透露出另一個(gè)信息,AI對(duì)不同類(lèi)型知識(shí)的學(xué)習(xí)能力差異巨大。有些知識(shí)它學(xué)得快,有些知識(shí)它怎么都學(xué)不會(huì)。這就像人類(lèi)學(xué)生,有人擅長(zhǎng)文科,有人擅長(zhǎng)理科。

但問(wèn)題是,AI的偏科比人類(lèi)嚴(yán)重得多。

03

論文引發(fā)的啟示

無(wú)可置疑的是,CL-bench填補(bǔ)了現(xiàn)有評(píng)測(cè)體系的關(guān)鍵空白。

在過(guò)去,長(zhǎng)上下文評(píng)測(cè)主要考AI能不能從一大堆文字里找到信息。比如給AI一篇10萬(wàn)字的小說(shuō),問(wèn)“主角的媽媽叫什么名字”,AI只要能翻到那一頁(yè)找到答案就行。

這更像是考“查字典”的能力,不是“學(xué)習(xí)”的能力。

指令遵循評(píng)測(cè)主要考AI聽(tīng)不聽(tīng)話(huà)。比如讓AI“用JSON格式輸出,不超過(guò)100字”,看它能不能照做。

但這類(lèi)測(cè)試的知識(shí)都很簡(jiǎn)單,AI早就會(huì)了,只是看它守不守規(guī)矩而已。

領(lǐng)域任務(wù)評(píng)測(cè)問(wèn)題更大。它既考AI會(huì)不會(huì)找資料,又考AI會(huì)不會(huì)用資料。結(jié)果AI答錯(cuò)了,你根本不知道是因?yàn)樗鼪](méi)找對(duì)資料,還是找對(duì)了但不會(huì)用。

就像學(xué)生考試不及格,你不知道是他沒(méi)復(fù)習(xí),還是復(fù)習(xí)了但沒(méi)學(xué)會(huì)。

CL-bench則專(zhuān)注于一個(gè)明確的能力維度,從復(fù)雜上下文中學(xué)習(xí)新知識(shí)并正確應(yīng)用。

它將上下文準(zhǔn)備與上下文學(xué)習(xí)解耦。所有必要信息都已組織好并提供,模型只需學(xué)習(xí)和應(yīng)用,無(wú)需外部檢索。這使得評(píng)測(cè)結(jié)果能夠精確反映模型的上下文學(xué)習(xí)能力,而非其他混雜因素。

論文還發(fā)現(xiàn)了一些反直覺(jué)的現(xiàn)象,GPT-5.2的表現(xiàn)反而比GPT-5.1差5.6%。



深入分析發(fā)現(xiàn),GPT-5.2在長(zhǎng)上下文推理時(shí)難以維持連貫的因果鏈,且更頻繁地違反上下文中的明確約束。

這說(shuō)明模型的版本迭代并不總是帶來(lái)全面提升,某些能力的優(yōu)化可能以犧牲其他能力為代價(jià)。

這個(gè)發(fā)現(xiàn)很重要。我們一直以為新版本肯定比舊版本強(qiáng),但事實(shí)并非如此。GPT-5.2可能在某些方面確實(shí)更強(qiáng)了,但在上下文學(xué)習(xí)這個(gè)維度上反而退步了。這就像一個(gè)學(xué)生,數(shù)學(xué)成績(jī)提高了,但語(yǔ)文成績(jī)下降了,總分反而降了。

再比如,增加推理強(qiáng)度對(duì)不同模型的效果差異巨大。

GPT-5.1在高推理強(qiáng)度下平均提升2.5%,在管理和實(shí)驗(yàn)數(shù)據(jù)類(lèi)任務(wù)上提升近6%。

但GPT-5.2在某些子類(lèi)別上反而出現(xiàn)負(fù)增長(zhǎng)。這表明“更多思考”只有在模型具備正確的上下文學(xué)習(xí)機(jī)制時(shí)才有效,否則可能只是在錯(cuò)誤的方向上越走越遠(yuǎn)。

這又是一個(gè)反直覺(jué)的發(fā)現(xiàn)。我們以為讓AI多想想總是好的,但實(shí)際上,如果AI的學(xué)習(xí)機(jī)制本身就有問(wèn)題,讓它多想只會(huì)讓錯(cuò)誤更嚴(yán)重。就像一個(gè)方向錯(cuò)了的人,走得越快,離目標(biāo)越遠(yuǎn)。

CL-bench揭示的問(wèn)題不僅僅是技術(shù)層面的,更是范式層面的。當(dāng)前AI的訓(xùn)練范式和真實(shí)應(yīng)用場(chǎng)景之間存在根本性的不匹配。我們優(yōu)化出的模型擅長(zhǎng)對(duì)“已知”事物進(jìn)行推理,但用戶(hù)需要的是能解決依賴(lài)于動(dòng)態(tài)上下文的任務(wù)的模型。

這個(gè)不匹配解釋了為什么AI在實(shí)驗(yàn)室里表現(xiàn)優(yōu)異,到了真實(shí)場(chǎng)景就頻頻翻車(chē)。實(shí)驗(yàn)室里的任務(wù)大多是封閉的、靜態(tài)的,答案在訓(xùn)練數(shù)據(jù)里都見(jiàn)過(guò)。但真實(shí)世界的任務(wù)是開(kāi)放的、動(dòng)態(tài)的,需要根據(jù)具體情況靈活應(yīng)對(duì)。

論文提出的“上下文學(xué)習(xí)”能力,本質(zhì)上是讓AI從“死記硬背”轉(zhuǎn)向“活學(xué)活用”。

如果AI真的能學(xué)會(huì)從上下文中學(xué)習(xí),那它就能像人類(lèi)一樣,面對(duì)新情況、新問(wèn)題時(shí)快速適應(yīng),而不是只會(huì)套用固定模式。

CL-bench的意義,是為了給大模型公司啟示,告訴他們下一代AI不需要更大的模型,不需要更多的參數(shù),而需要更強(qiáng)的學(xué)習(xí)能力。

但上下文學(xué)習(xí)只是第一步。論文提到,即便上下文學(xué)習(xí)足夠強(qiáng)大,模型的上下文窗口一旦清空,學(xué)到的知識(shí)隨之消失。

因此,下一個(gè)挑戰(zhàn)是如何讓從上下文中習(xí)得的知識(shí)持久化。

姚順雨在最近的公開(kāi)發(fā)言中也談到了這個(gè)方向。他認(rèn)為,自主學(xué)習(xí)幾乎已經(jīng)形成了共識(shí),而且這個(gè)事情已經(jīng)在發(fā)生了。

他說(shuō)ChatGPT在利用用戶(hù)數(shù)據(jù)不斷擬合人的聊天風(fēng)格,Claude Code已經(jīng)寫(xiě)了自己項(xiàng)目的95%的代碼。在某種程度上它在幫助自己變得更好。

但他也指出,這些自主學(xué)習(xí)的例子目前還局限在特定場(chǎng)景下,沒(méi)有讓人感覺(jué)到非常大的威力?!斑@個(gè)事情可能會(huì)更像一個(gè)漸變,而不像一個(gè)突變。”

從更宏觀的角度看,CL-bench揭示的問(wèn)題反映了AI發(fā)展的一個(gè)深層矛盾。我們一直在追求更強(qiáng)的推理能力、更大的知識(shí)容量,但忽視了一個(gè)更基礎(chǔ)的能力,那就是學(xué)習(xí)。

沒(méi)有學(xué)習(xí)能力的AI,再?gòu)?qiáng)也只是一個(gè)高級(jí)的查詢(xún)系統(tǒng)。只有具備了真正的學(xué)習(xí)能力,AI才能從“工具”進(jìn)化為“智能體”。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
100%進(jìn)球成功率!曾在成都蟄伏的常冰玉,打出“斯諾克史上最佳表現(xiàn)”

100%進(jìn)球成功率!曾在成都蟄伏的常冰玉,打出“斯諾克史上最佳表現(xiàn)”

紅星新聞
2026-02-25 14:11:36
14年兒子坐馬航失聯(lián),多年后父親收到回信,堅(jiān)信兒子去了平行世界

14年兒子坐馬航失聯(lián),多年后父親收到回信,堅(jiān)信兒子去了平行世界

史行途
2026-01-29 12:13:30
我用三個(gè)真實(shí)的病例告訴你:為啥我總建議重癥病人去一線(xiàn)城市看病

我用三個(gè)真實(shí)的病例告訴你:為啥我總建議重癥病人去一線(xiàn)城市看病

千秋文化
2026-02-24 20:25:25
日韓股市集體收漲 韓國(guó)綜指首次收于6000點(diǎn)上方

日韓股市集體收漲 韓國(guó)綜指首次收于6000點(diǎn)上方

財(cái)聯(lián)社
2026-02-25 14:32:27
太離譜!陜西女子花250元在飯店訂年夜飯,對(duì)方歇業(yè)初一把錢(qián)退了

太離譜!陜西女子花250元在飯店訂年夜飯,對(duì)方歇業(yè)初一把錢(qián)退了

火山詩(shī)話(huà)
2026-02-25 14:16:59
遼寧錦州“康華醫(yī)院”安樂(lè)死膠囊30秒離世?當(dāng)?shù)乇僦{

遼寧錦州“康華醫(yī)院”安樂(lè)死膠囊30秒離世?當(dāng)?shù)乇僦{

極目新聞
2026-02-25 12:38:58
粉調(diào):一種關(guān)于柔軟的抵抗

粉調(diào):一種關(guān)于柔軟的抵抗

疾跑的小蝸牛
2026-02-25 20:32:48
哈登0罰20分創(chuàng)隊(duì)史最老紀(jì)錄!騎士賽季首勝尼克斯 米切爾23分

哈登0罰20分創(chuàng)隊(duì)史最老紀(jì)錄!騎士賽季首勝尼克斯 米切爾23分

醉臥浮生
2026-02-25 11:14:21
谷愛(ài)凌外婆馮國(guó)珍走了,交通部一封感謝信,信息量巨大!

谷愛(ài)凌外婆馮國(guó)珍走了,交通部一封感謝信,信息量巨大!

達(dá)文西看世界
2026-02-25 19:39:16
海歸光環(huán)徹底消失?49.5萬(wàn)留學(xué)生涌回國(guó),殘酷真相:企業(yè)只認(rèn)這個(gè)

海歸光環(huán)徹底消失?49.5萬(wàn)留學(xué)生涌回國(guó),殘酷真相:企業(yè)只認(rèn)這個(gè)

南權(quán)先生
2025-12-23 16:16:33
小米連出六輛新車(chē)!雷軍震驚行業(yè)

小米連出六輛新車(chē)!雷軍震驚行業(yè)

銷(xiāo)售與管理
2026-02-24 17:32:08
“日本以為中方會(huì)軟化立場(chǎng),等來(lái)的卻是當(dāng)頭一棒”

“日本以為中方會(huì)軟化立場(chǎng),等來(lái)的卻是當(dāng)頭一棒”

觀察者網(wǎng)
2026-02-24 19:31:04
剎不住車(chē),直接沖出跑道!印度又一架 “光輝”墜毀:飛行員跳傘,還嘴硬飛機(jī)沒(méi)壞?

剎不住車(chē),直接沖出跑道!印度又一架 “光輝”墜毀:飛行員跳傘,還嘴硬飛機(jī)沒(méi)壞?

軍武速遞
2026-02-24 19:25:04
這個(gè)世界上最搞不懂的,就是尼格買(mǎi)提的父母了

這個(gè)世界上最搞不懂的,就是尼格買(mǎi)提的父母了

百態(tài)人間
2026-02-24 15:44:11
“80后”廳官王正儒,被查!

“80后”廳官王正儒,被查!

阜陽(yáng)發(fā)布
2026-02-25 20:18:18
一家三代35人的“春節(jié)大巴”:14天自駕6000公里,家人間收獲更多理解和關(guān)愛(ài)

一家三代35人的“春節(jié)大巴”:14天自駕6000公里,家人間收獲更多理解和關(guān)愛(ài)

紅星新聞
2026-02-24 20:56:32
0進(jìn)球封神!震撼!哈蘭德憑啥讓瓜帥徹底折服

0進(jìn)球封神!震撼!哈蘭德憑啥讓瓜帥徹底折服

卿子書(shū)
2026-02-25 08:50:35
封神!株洲司機(jī)最后1秒沖過(guò)收費(fèi)站,收費(fèi)員比他還瘋,全網(wǎng)笑炸

封神!株洲司機(jī)最后1秒沖過(guò)收費(fèi)站,收費(fèi)員比他還瘋,全網(wǎng)笑炸

觀察鑒娛
2026-02-25 10:09:22
新加坡大滿(mǎn)貫賽:4強(qiáng)對(duì)陣出爐!國(guó)乒3:1淘汰頭號(hào)種子,沖擊冠軍

新加坡大滿(mǎn)貫賽:4強(qiáng)對(duì)陣出爐!國(guó)乒3:1淘汰頭號(hào)種子,沖擊冠軍

國(guó)乒二三事
2026-02-25 13:15:40
離婚才幾年,楊穎這是怎么了?

離婚才幾年,楊穎這是怎么了?

文刀萬(wàn)
2026-02-24 17:40:03
2026-02-25 21:44:49
字母榜 incentive-icons
字母榜
讓未來(lái)不止于大。
2246文章數(shù) 8044關(guān)注度
往期回顧 全部

科技要聞

“機(jī)器人只跳舞,沒(méi)什么用”

頭條要聞

被指涉愛(ài)潑斯坦案 挪威前首相自殺未遂命懸一線(xiàn)

頭條要聞

被指涉愛(ài)潑斯坦案 挪威前首相自殺未遂命懸一線(xiàn)

體育要聞

曝雄鹿計(jì)劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

娛樂(lè)要聞

黃曉明新戀情!與小22歲美女同游新加坡

財(cái)經(jīng)要聞

上海樓市放大招,地產(chǎn)預(yù)期別太大

汽車(chē)要聞

750km超長(zhǎng)續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

藝術(shù)
教育
親子
手機(jī)
公開(kāi)課

藝術(shù)要聞

這位藝術(shù)家的馬賽克畫(huà)讓人驚嘆不已!

教育要聞

超短學(xué)期!新學(xué)期校歷來(lái)了!

親子要聞

二胎想念外婆了,媳婦帶娃回娘家,寶寶做法真暖心!

手機(jī)要聞

小米17系列提檔后賣(mài)爆!友商紛紛效仿:9月機(jī)圈上演神仙打架

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版