国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

Agent的苦澀覺醒:智能正從語言走向經(jīng)驗(yàn)

0
分享至

作者|松壑

2019年,AI“強(qiáng)化學(xué)習(xí)之父”理查德·薩頓寫了一篇六頁紙的文章,影響了后來的整個(gè)人工智能學(xué)界。

這篇名為《苦澀的教訓(xùn)》的文章,核心只有一句話:

人類花了幾十年把領(lǐng)域知識(shí)硬塞進(jìn)AI,結(jié)果每次都輸給了"讓機(jī)器自己去試錯(cuò)"。

國際象棋、圍棋、語音識(shí)別、計(jì)算機(jī)視覺如此。那些精心設(shè)計(jì)的先驗(yàn)知識(shí)、人工特征、專家規(guī)則,最終全部被大規(guī)模計(jì)算加上自我博弈踩在腳下。

薩頓是強(qiáng)化學(xué)習(xí)領(lǐng)域公認(rèn)的奠基者。他花了半輩子研究一件事:

智能不是被設(shè)計(jì)出來的,是被環(huán)境逼出來的。智能體與環(huán)境的持續(xù)交互,是通向更高智能上限的唯一可靠路徑。


文章發(fā)表后,學(xué)界的反應(yīng)幾乎是兩極分裂。一批在特征工程和專家系統(tǒng)上耕耘多年的研究者,被迫重新審視自己工作的長期意義。爭議至今沒有平息,然而薩頓的判斷,在接下來的七年里一再被反復(fù)驗(yàn)證。

站在2026年初的Agent浪潮回頭看這七年,這個(gè)判斷正在AI產(chǎn)業(yè)里以一種出人意料的方式應(yīng)驗(yàn)——只是大多數(shù)人還沒有意識(shí)到。

討論Agent,只聊了一半

從Claude引領(lǐng)的Skill熱到Cowork協(xié)同再到如今遍地的“養(yǎng)蝦熱“,Agent已是今天AI界最熱的詞。

但熱歸熱,面對能力與日俱增的Agent,行業(yè)正在高度聚焦的問題已不再停留在“能做什么”的工具之問,而是權(quán)限不斷開放、插件生態(tài)日益豐富,它的應(yīng)用范圍可能有多廣,又將如何重塑生產(chǎn)關(guān)系、驅(qū)動(dòng)經(jīng)濟(jì)結(jié)構(gòu)變化。

從每場發(fā)布會(huì)、每篇產(chǎn)品評測到每條行業(yè)推文,人們追問的核心正在成為:具備更強(qiáng)自主性與系統(tǒng)權(quán)限的 Agent,會(huì)在應(yīng)用層帶來怎樣巨大的商業(yè)洗牌,而哪些行業(yè)與環(huán)節(jié)將會(huì)就此被Agent浪潮所摧毀?

業(yè)界甚至出現(xiàn)了更為尖銳的預(yù)警與預(yù)言:隨著 Agent替代范圍持續(xù)擴(kuò)大、替代深度不斷加深,大規(guī)模崗位消失、收入分化加劇、有效需求萎縮等風(fēng)險(xiǎn)正在累積,可能引發(fā)結(jié)構(gòu)性就業(yè)問題和連鎖式的經(jīng)濟(jì)風(fēng)險(xiǎn)。

這些敘事有價(jià)值,它們都在問同一類問題:Agent作為工具,它在應(yīng)用層面對人類社會(huì)的重塑會(huì)走向何方?

但似乎少有人在追問另一個(gè)問題:

如今Agent加速的大規(guī)模普及,反過來會(huì)在模型層對AI本身帶來哪些質(zhì)的改變?

這個(gè)問題,才是薩頓視角下真正重要的那個(gè)。

Chatbot死胡同

在理解Agent的深層價(jià)值前,有必要先看清楚它的前身Chatbot走進(jìn)了怎樣的死胡同。

2023年初,ChatGPT用戶數(shù)突破一億,創(chuàng)下了消費(fèi)互聯(lián)網(wǎng)歷史上增長最快的紀(jì)錄。全世界的產(chǎn)品經(jīng)理如夢初醒,瘋狂地在自己的產(chǎn)品里塞入對話框??头C(jī)器人、知識(shí)問答、寫作助手、代碼補(bǔ)全——所有東西都變成了一個(gè)"聊天界面"。

但到了2024年底,一個(gè)尷尬的事實(shí)浮出水面:大量用戶在最初的新鮮感消退后,使用頻率顯著下滑。多家媒體和分析機(jī)構(gòu)報(bào)道了ChatGPT用戶活躍度增長放緩的趨勢。

用戶發(fā)現(xiàn)自己并不知道該拿這個(gè)對話框干什么,偶爾用它寫個(gè)郵件、改個(gè)措辭、問個(gè)問題,但從未形成穩(wěn)定的使用習(xí)慣。

原因很簡單:Chatbot的交互模式是一問一答,而人類的真實(shí)工作流程是多步驟、多工具、多判斷的。

讓Chatbot幫你做市場調(diào)研,它會(huì)給你一篇看起來不錯(cuò)的文章。但不知道數(shù)據(jù)來源是否可靠,不知道它是否遺漏了關(guān)鍵競爭對手,不知道結(jié)論背后的推理鏈條是否經(jīng)得起推敲。雖然拿到的是一個(gè)結(jié)果,但失去了整個(gè)過程。

更致命的是,Chatbot的每一次對話都是孤立的。它不記得上周的偏好,不知道項(xiàng)目的上下文,不理解組織的業(yè)務(wù)邏輯。每一次打開對話框,都在跟一個(gè)彬彬有禮的失憶者重新自我介紹。

這就是為什么從2024年下半年開始,整個(gè)行業(yè)集體轉(zhuǎn)向Agent,因?yàn)镃hatbot的天花板已經(jīng)清晰地?cái)[在那里。

但這里有一個(gè)幾乎所有人都忽略的維度:Chatbot的天花板,不僅僅是產(chǎn)品形態(tài)的天花板,它同時(shí)也是模型進(jìn)化的天花板。


實(shí)踐交互是關(guān)鍵

薩頓的強(qiáng)化學(xué)習(xí)哲學(xué),核心邏輯非常清晰:靜態(tài)數(shù)據(jù)的上限,是已知世界的邊界。

無論語料庫多大,無論參數(shù)量多高,在固定數(shù)據(jù)集上訓(xùn)練的模型,能力邊界就是那批數(shù)據(jù)所描繪的世界的邊界。

到了24-25年,這條邊界已經(jīng)肉眼可見。

Epoch AI團(tuán)隊(duì)發(fā)表過一項(xiàng)被廣泛引用的分析,預(yù)測按照當(dāng)前的消耗速度,高質(zhì)量的互聯(lián)網(wǎng)文本數(shù)據(jù)將在未來幾年內(nèi)被基本耗盡。整個(gè)行業(yè)開始談?wù)?數(shù)據(jù)墻",一堵由信息總量的物理極限砌成的墻。

Chatbot提供的答案是:從用戶對話里來。但用戶跟Chatbot的對話,信息密度極低。

"幫我把這封郵件改得更正式一點(diǎn)""用Python寫一個(gè)快速排序""中國的GDP是多少"這些交互包含的,不過是人類需求的淺層映射。

模型從這些對話中能學(xué)到的東西,跟從互聯(lián)網(wǎng)上抓取一批新文本學(xué)到的,本質(zhì)上沒有區(qū)別。都是語言模式的統(tǒng)計(jì)規(guī)律,都缺乏一樣?xùn)|西:因果結(jié)構(gòu)。

Agent不同之處在于:完成任務(wù)的過程中,會(huì)產(chǎn)生一種靜態(tài)語料永遠(yuǎn)無法提供的東西:標(biāo)注了因果結(jié)構(gòu)的決策軌跡 。

例如包括:目標(biāo)是什么,采取了什么行動(dòng),環(huán)境返回了什么反饋,哪里出錯(cuò)了,如何修正的。

用個(gè)具體例子來說明區(qū)別。一個(gè)用戶對Chatbot說:“幫我安排下周三從北京去上海的出差行程?!?Chatbot直接給出一段行程方案,交互就此結(jié)束。模型從中學(xué)到的東西微乎其微 ,它不知道這份安排是否合理,用戶是否滿意,也無法驗(yàn)證自己的回答是否真正解決了問題。

而如果讓一個(gè)Agent 去完成同樣的任務(wù),它會(huì)走一整套完整的自主工作流:先理解用戶的出差需求,查詢用戶過往偏好,調(diào)用航班接口時(shí)發(fā)現(xiàn)早班機(jī)因天氣取消,自動(dòng)切換備選航班,再根據(jù)公司差旅標(biāo)準(zhǔn)篩選合適酒店,生成初稿行程。當(dāng)用戶反饋 “酒店離會(huì)場太遠(yuǎn)”,Agent 會(huì)重新篩選步行可達(dá)的酒店,修正后輸出最終方案。


每一步,都攜帶著明確的因果信號(hào)。調(diào)用接口失敗告訴模型 “要預(yù)留備用方案”,用戶的偏好告訴模型 “要記住使用習(xí)慣”,用戶的修改反饋告訴模型 “要根據(jù)需求迭代優(yōu)化”。

Chatbot只輸出答案,而 Agent 是在真正自主完成任務(wù),并在不斷試錯(cuò)與修正中持續(xù)成長。

這類數(shù)據(jù)的信息密度,遠(yuǎn)超簡單的網(wǎng)頁抓取。它不是人類語言表達(dá)的映射,而是智能體與現(xiàn)實(shí)世界博弈的實(shí)錄。

用這類數(shù)據(jù)訓(xùn)練出來的模型,獲得的不是更多的知識(shí),而是更強(qiáng)的推理能力和自我糾錯(cuò)能力,而這才是決定大模型能力上限的關(guān)鍵變量。

換言之,Agent是大模型從外部世界獲取進(jìn)化燃料的接口。

沒有這個(gè)接口,模型的能力上限被死死鎖在靜態(tài)數(shù)據(jù)的邊界里。

追上限,還是堆接口?

2024年底到2025年這段時(shí)間,頭部大模型玩家的戰(zhàn)略選擇出現(xiàn)了一個(gè)耐人尋味的分叉。

OpenAI、Google等頭部模型用最大壓強(qiáng)猛攻同一堵墻:追逐模型能力的天花板。

2024年底,OpenAI發(fā)布了o3。在Fran?ois Chollet設(shè)計(jì)的ARC-AGI基準(zhǔn)測試上——這個(gè)被公認(rèn)為衡量抽象推理能力的高難度測試——o3取得了令整個(gè)行業(yè)側(cè)目的成績。ARC-AGI的設(shè)計(jì)哲學(xué)恰恰是反蠻力的:Chollet一直堅(jiān)持智能的核心是抽象推理和小樣本泛化,而不是暴力搜索。但o3用大規(guī)模的推理時(shí)間計(jì)算,硬是在這個(gè)測試上刷出了遠(yuǎn)超此前所有系統(tǒng)的分?jǐn)?shù)。

Chollet在公開回應(yīng)中態(tài)度審慎。他沒有否認(rèn)o3的成績,但指出了一個(gè)關(guān)鍵事實(shí):這個(gè)系統(tǒng)在解題時(shí)消耗的計(jì)算量遠(yuǎn)超人類,高分不等于通用智能的突破。

Google DeepMind則在Gemini 2.0系列上持續(xù)推進(jìn)多模態(tài)推理能力。

但Anthropic選擇了另一條路。2024年10月,Anthropic為Claude推出了一個(gè)在當(dāng)時(shí)看來不夠性感的功能:Computer Use,它讓Claude直接操作電腦屏幕。它能看到屏幕上的內(nèi)容,移動(dòng)鼠標(biāo),點(diǎn)擊按鈕,輸入文字。

早期的用戶體驗(yàn)談不上驚艷。Claude操作電腦的速度很慢,經(jīng)?;ê荛L時(shí)間才能找到一個(gè)按鈕,偶爾還會(huì)點(diǎn)錯(cuò)地方。科技媒體和社交平臺(tái)上的評論普遍帶著善意的嘲諷——"看AI用電腦,像看一個(gè)剛接觸電腦的老人"。

但Anthropic的CEO Dario Amodei在多次訪談中反復(fù)強(qiáng)調(diào)一個(gè)判斷:

大模型的下一個(gè)突破不僅僅在于參數(shù)量,更在于模型與世界交互的方式。

Amodei曾在OpenAI擔(dān)任研究副總裁近五年,親歷了GPT-2到GPT-3的演化過程,2021年離開后創(chuàng)立Anthropic,帶著的正是這個(gè)信念。

2024年末,Anthropic推出了Model Context Protocol(MCP)開放協(xié)議,讓AI模型可以標(biāo)準(zhǔn)化地連接外部工具和數(shù)據(jù)源。

如果說Computer Use給了Claude手腳,MCP就是給了它一套通用的神經(jīng)末梢,讓它能觸及的真實(shí)世界的表面積成倍擴(kuò)大。


Claude在2025年的主要敘事,不是在某個(gè)基準(zhǔn)上的刷榜,而是Agent能力的工程落地,包括長上下文的穩(wěn)定性、多步驟任務(wù)中不掉鏈子的可靠性、與外部工具集成的靈活性。

它在追一個(gè)更難量化的目標(biāo):在真實(shí)任務(wù)里,持續(xù)地、可靠地干活。

這聽起來不夠浪漫。但薩頓的整個(gè)理論都在告訴你:這恰恰是通向更高智能上限的那條路。

干活即訓(xùn)練

這是過去一年多里最值得關(guān)注的反直覺現(xiàn)象。當(dāng)同行們正面強(qiáng)攻能力基準(zhǔn)的時(shí)候,Claude在真實(shí)Agent場景下的大規(guī)模使用,悄悄完成了薩頓預(yù)言過的一件事:

它在與真實(shí)世界的交互中持續(xù)積累高質(zhì)量的決策信號(hào),而這些信號(hào)反過來成了提升模型能力的燃料。

這個(gè)飛輪的運(yùn)轉(zhuǎn)邏輯是這樣的:用戶用Claude處理真實(shí)任務(wù),比如自動(dòng)化地整理CRM數(shù)據(jù)、跨系統(tǒng)地完成采購審批、根據(jù)實(shí)時(shí)數(shù)據(jù)調(diào)整營銷策略、用Claude Code完成復(fù)雜的編程項(xiàng)目。

每一次成功和失敗都是信號(hào);每一個(gè)多步驟的工作流,都帶有因果結(jié)構(gòu)的決策軌跡;每一次工具調(diào)用的結(jié)果,都在告訴模型"這樣做有效,那樣做無效"。

這些信號(hào)經(jīng)過脫敏和提煉,會(huì)直接作用于模型的推理深度和自我糾錯(cuò)能力。

反觀Chatbot模式。用戶跟ChatGPT的海量對話中,有多少能顯著提升模型推理能力?"幫我寫一首關(guān)于秋天的詩""用Python寫一個(gè)快速排序""中國有多少個(gè)省"這類交互無論重復(fù)多少億次,都不包含因果推理的信號(hào)。它們是語言模式的重復(fù)預(yù)測,不是智能的增量。

這就是Agent和Chatbot在模型進(jìn)化層面的根本區(qū)別:Chatbot給模型喂的是"語言的影子",Agent給模型喂的是"決策的骨骼"。

這正是薩頓講了幾十年的事:不要試圖直接教育或設(shè)計(jì)智能,要讓智能在與環(huán)境的交互中自己生長出來。

OpenAI轉(zhuǎn)向

OpenAI不是沒有意識(shí)到這個(gè)問題。

很早之前,它就通過 Function Calling、Assistants、GPTs等一系列功能,持續(xù)探索工具調(diào)用與任務(wù)執(zhí)行。

但真正的躍遷發(fā)生在 2025年1月,OpenAI發(fā)布的Operator能在瀏覽器中自主完成任務(wù),隨后推出的還有Deep Research,一個(gè)能自主進(jìn)行多步驟研究、跨網(wǎng)站搜集信息并綜合分析的Agent系統(tǒng)。


OpenAI的戰(zhàn)略重心正在明確地從“對話”轉(zhuǎn)向“行動(dòng)”。這個(gè)轉(zhuǎn)向本身就是對薩頓邏輯的一種暗合:從在靜態(tài)數(shù)據(jù)上做模式匹配的系統(tǒng),轉(zhuǎn)向在動(dòng)態(tài)環(huán)境中做決策和學(xué)習(xí)的系統(tǒng)。

但OpenAI面臨一個(gè)獨(dú)特的挑戰(zhàn):路徑依賴。ChatGPT的數(shù)億用戶,絕大多數(shù)已經(jīng)習(xí)慣了Chatbot的使用模式——打開對話框、問一個(gè)問題、得到一個(gè)答案。

讓這些用戶從問答切換到指派任務(wù),不僅僅是產(chǎn)品設(shè)計(jì)的問題,更是心智模型的問題。

用戶需要學(xué)會(huì)一件反直覺的事情:不要告訴AI怎么做,只要告訴它你要什么結(jié)果。

Claude從一開始就沒有ChatGPT那樣的全民級(jí)Chatbot包袱。它的用戶群體更偏向開發(fā)者和企業(yè),這些用戶天然更適應(yīng)Agent的交互模式。Anthropic推出的MCP協(xié)議,更是直接面向開發(fā)者生態(tài),讓第三方可以方便地為Claude構(gòu)建工具連接。

這就造成了一個(gè)微妙的時(shí)間差:當(dāng)OpenAI還在引導(dǎo)龐大的用戶基數(shù)從Chatbot轉(zhuǎn)向Agent的時(shí)候,Claude已經(jīng)在Agent場景中積累了可觀的交互數(shù)據(jù)。

在強(qiáng)化學(xué)習(xí)的世界里,時(shí)間差就是一切。

先行者的數(shù)據(jù)優(yōu)勢會(huì)通過飛輪效應(yīng)不斷放大:更好的Agent → 更多開發(fā)者和用戶使用 → 更多交互數(shù)據(jù) → 更強(qiáng)的模型 → 更好的Agent。

上限不是被攻破的

歷史上有一個(gè)反復(fù)出現(xiàn)的模式,值得AI行業(yè)認(rèn)真對待:深藍(lán)擊敗卡斯帕羅夫,不是因?yàn)楣こ處熓謩?dòng)編碼了人類所有的棋路,而是因?yàn)樗乃阉魉惴ㄔ诤A吭u估中找到了人類從未想到的走法。

AlphaGo的真正突破不在學(xué)習(xí)人類棋譜的第一版,而在AlphaGo Zero這個(gè)完全靠自我對弈、不依賴任何棋譜的版本。它從零開始,在數(shù)天內(nèi)重新發(fā)現(xiàn)了人類數(shù)千年積累的圍棋知識(shí),然后超越了它。

大語言模型有關(guān)數(shù)學(xué)推理、代碼生成、邏輯分析的涌現(xiàn),沒有一項(xiàng)是被精心設(shè)計(jì)出來的。

沒有人在訓(xùn)練目標(biāo)里寫過"請學(xué)會(huì)做數(shù)學(xué)題",但當(dāng)模型規(guī)模和數(shù)據(jù)規(guī)模跨過某個(gè)臨界點(diǎn),這些能力自發(fā)地涌現(xiàn)了。

能力的上限,從來都不是被正面攻打突破的。它是在足夠復(fù)雜的環(huán)境里持續(xù)交互的過程中,被逼出來的。

這就是Agent對大模型真正的意義:它不僅僅是讓模型有了"手腳",它還給了模型一個(gè)持續(xù)與現(xiàn)實(shí)世界博弈的競技場。

真實(shí)世界中的反饋與博弈,才是進(jìn)化的引擎。

一個(gè)從不犯錯(cuò)的系統(tǒng),無法進(jìn)化。一個(gè)只回答問題、永遠(yuǎn)不觸碰真實(shí)世界的系統(tǒng),永遠(yuǎn)不知道自己的無知在哪里。

只有當(dāng)Agent把手伸進(jìn)現(xiàn)實(shí),調(diào)用一個(gè)API、操作一個(gè)瀏覽器、執(zhí)行一個(gè)工作流,然后再被現(xiàn)實(shí)狠狠地打回來的時(shí)候,真正的學(xué)習(xí)才開始發(fā)生。

古老呼應(yīng)

和薩頓的強(qiáng)化學(xué)習(xí)哲學(xué)相類似的原理,早在半個(gè)多世紀(jì)前,就被另一個(gè)完全不同領(lǐng)域的經(jīng)濟(jì)學(xué)家發(fā)現(xiàn)過。

1945年,弗里德里?!す嗽凇睹绹?jīng)濟(jì)評論》上發(fā)表了一篇名為《知識(shí)在社會(huì)中的利用》的論文,后來被認(rèn)為是20世紀(jì)最重要的經(jīng)濟(jì)學(xué)文章之一。


它的核心論點(diǎn)極其簡單:沒有任何一個(gè)人或組織,能夠掌握一個(gè)復(fù)雜經(jīng)濟(jì)體運(yùn)轉(zhuǎn)所需要的全部知識(shí)。不是暫時(shí)掌握不了,而是原則上不可能

因?yàn)橛袃r(jià)值的知識(shí)是分散的、局部的、隱性的、轉(zhuǎn)瞬即逝的。

對于經(jīng)濟(jì)來說,沒有整體設(shè)計(jì)、沒有全局藍(lán)圖,沒有從上到下的指令鏈。只有無數(shù)個(gè)體與環(huán)境的持續(xù)交互,加上一個(gè)能傳遞反饋信號(hào)的機(jī)制。

這段描述,把經(jīng)濟(jì)體換成智能體,把價(jià)格信號(hào)換算成獎(jiǎng)勵(lì)信號(hào),就是薩頓的強(qiáng)化學(xué)習(xí)。

1988年,89歲的哈耶克出版了人生最后一部重要著作《致命的自負(fù)》。

書名本身就是論點(diǎn)。哈耶克用一整本書論證了一件事:人類最危險(xiǎn)的智識(shí)錯(cuò)覺,就是以為自己可以設(shè)計(jì)出一個(gè)比自發(fā)秩序更好的系統(tǒng)。

哈耶克提出,我們無法預(yù)先知道所有人在所有時(shí)刻的所有需求和所有約束。 唯一能"知道"這些的,是讓所有人在真實(shí)環(huán)境中自己去交互、去試錯(cuò)、去根據(jù)反饋信號(hào)調(diào)整行為的那個(gè)過程。

這個(gè)過程,哈耶克給了它一個(gè)名字:自發(fā)秩序,如此哲學(xué)與薩頓所重視的環(huán)境訓(xùn)練具有異曲同工之處。

哈耶克或許會(huì)說:計(jì)劃者把專家知識(shí)硬塞進(jìn)經(jīng)濟(jì)體系,試圖用頂層設(shè)計(jì)替代市場的自發(fā)調(diào)節(jié),結(jié)果每次都輸給了"讓個(gè)體自己去試錯(cuò)"。

薩頓則可能會(huì)說: AI研究者把領(lǐng)域知識(shí)硬塞進(jìn)算法,試圖用人工特征替代機(jī)器的自主學(xué)習(xí),結(jié)果每次都輸給了"讓機(jī)器自己去試錯(cuò)"。

哈耶克所說的致命自負(fù),是以為人類理性能設(shè)計(jì)出比自發(fā)秩序更好的系統(tǒng)。

薩頓的苦澀教訓(xùn),是以為人類專家能通過簡單預(yù)訓(xùn)練,就能搞出比大規(guī)模搜索更好的智能。

波蘭尼的默會(huì)知識(shí)

如果允許再加一個(gè)人到這場跨時(shí)空對話中,他可能是哈耶克同時(shí)代的匈牙利裔學(xué)者邁克爾·波蘭尼(Michael Polanyi)。

波蘭尼在1966年出版的《默會(huì)維度》中提出了一個(gè)影響深遠(yuǎn)的概念:

默會(huì)知識(shí)(tacit knowledge),即人們知道的,永遠(yuǎn)比人們能說出來的多。原話是:"We know more than we can tell."


人知道怎么騎自行車,但人無法用語言精確描述保持平衡的每一個(gè)動(dòng)作。一個(gè)經(jīng)驗(yàn)豐富的醫(yī)生看一眼X光片就知道哪里不對,但他很難把自己的判斷過程完全形式化。

這個(gè)概念直接擊中了此前Chatbot模式的命門:大語言模型從互聯(lián)網(wǎng)文本中學(xué)到的,只是人類能夠用語言表達(dá)出來的那部分知識(shí)——顯性知識(shí)。

但人類的大量能力和判斷力,存在于默會(huì)知識(shí)中,而默會(huì)知識(shí)只能在行動(dòng)中被體現(xiàn),不能在文本中被捕獲。

一個(gè)人類專家做決策的過程,有大量的東西是他自己都說不清楚的——為什么在這個(gè)時(shí)候選擇等待而不是行動(dòng),為什么覺得這個(gè)方案"感覺不對"。這些判斷力不會(huì)出現(xiàn)在任何網(wǎng)頁上,不會(huì)出現(xiàn)在任何教科書里,也不會(huì)出現(xiàn)在任何Chatbot的訓(xùn)練數(shù)據(jù)中。

但它們會(huì)出現(xiàn)在Agent的行為軌跡中。當(dāng)Agent在執(zhí)行一個(gè)復(fù)雜任務(wù)時(shí),它在決策序列中先做什么、后做什么、遇到障礙如何調(diào)整、在不確定性面前如何權(quán)衡,本身就是一種默會(huì)知識(shí)的外化。

它不是語言的表達(dá),而是行動(dòng)的記錄。而行動(dòng)記錄,比語言表達(dá),攜帶了多得多的信息。

翻譯成AI的語言就是:Agent的行為軌跡里包含的信息,比互聯(lián)網(wǎng)上所有文本包含的信息在結(jié)構(gòu)上更豐富。因?yàn)榍罢哂涗浀氖切袆?dòng)和后果,后者記錄的只是言說。

路徑驗(yàn)證

站在2026年初回頭看,過去一年多的行業(yè)走向,正在為這場認(rèn)識(shí)論之爭提供初步的經(jīng)驗(yàn)證據(jù)。

追基準(zhǔn)的路線成果顯著,但邊際收益與頭部模型的方差確實(shí)都在縮小。

各家模型在主流基準(zhǔn)上的分?jǐn)?shù)越來越接近,差距從代際碾壓縮小到比拼幾個(gè)百分點(diǎn)的距離。

基準(zhǔn)分?jǐn)?shù)的競賽并沒有失去意義,但它越來越像短跑比賽中百分之一秒的較量,觀眾看不出區(qū)別,對實(shí)際應(yīng)用的影響也在遞減。

Agent路線的回報(bào)開始顯現(xiàn),但以一種不太引人注目的方式。

沒有一個(gè)驚天動(dòng)地的基準(zhǔn)突破,取而代之的是一個(gè)個(gè)具體場景中的可靠性提升。

Claude在編程輔助中的多步驟任務(wù)完成率在持續(xù)改善,Computer Use的操作精準(zhǔn)度和速度在迭代中顯著提高,基于MCP協(xié)議的第三方工具生態(tài)在擴(kuò)大。

一年前的DeepSeek-R1全球出圈,恰恰是這個(gè)故事中最有趣的一章。它深度采用強(qiáng)化學(xué)習(xí)、這種薩頓最推崇的方法在推理任務(wù)上實(shí)現(xiàn)了驚人的效果,且成本極低。


這等于在產(chǎn)業(yè)界面前做了一次薩頓哲學(xué)的現(xiàn)場示范:未必需要最大的參數(shù)量和最多的人工標(biāo)注,只需要讓模型在一個(gè)有明確反饋信號(hào)的環(huán)境中大規(guī)模試錯(cuò),推理能力就能被"逼"出來。

值得一提的是,在物理世界的 Agent 大規(guī)模部署之前,更多模型是通過合成數(shù)據(jù)和規(guī)則明確的虛擬環(huán)境進(jìn)行“預(yù)演”,而這同樣是通往真實(shí)世界賽場的過渡態(tài)。

DeepSeek-R1的成功和Agent路線的邏輯,在底層是相通的:都是用交互中產(chǎn)生的信號(hào)來驅(qū)動(dòng)能力的提升,而不是依賴靜態(tài)數(shù)據(jù)的堆積。 區(qū)別只在于前者環(huán)境是精心設(shè)計(jì)的推理任務(wù),后者環(huán)境是混亂的真實(shí)世界。

當(dāng)然必須承認(rèn),用經(jīng)驗(yàn)喂養(yǎng)智能的這條道路,在現(xiàn)實(shí)中運(yùn)轉(zhuǎn)起來注定會(huì)有極大的摩擦力。

真實(shí)世界從來不是一個(gè)可以無限重啟的虛擬沙盒。AlphaGo 在棋盤上輸?shù)粢话偃f局的成本幾乎為零,DeepSeek 在數(shù)學(xué)推導(dǎo)中的試錯(cuò)也十分廉價(jià);

但在真實(shí)的商業(yè)環(huán)境與社會(huì)鏈路中,Agent 的一次越界試錯(cuò),可能意味著一筆交易的失敗、一次糟糕的客戶體驗(yàn),甚至是難以被問責(zé)的金融、法律和醫(yī)療風(fēng)險(xiǎn)。

更棘手的是,現(xiàn)實(shí)世界的反饋信號(hào)往往是高度嘈雜且延遲的。當(dāng)一個(gè) Agent 給出的策略最終見效時(shí),究竟是因?yàn)樗耐评磉壿嫙o懈可擊,還是僅僅碰上了宏觀環(huán)境的順風(fēng)?

客觀上許多因果歸因的模糊性,仍然會(huì)給模型從中提取純粹的“有效經(jīng)驗(yàn)”帶來了巨大的工程挑戰(zhàn)。

但這恰恰是薩頓理論中那份“苦澀”在今天的現(xiàn)實(shí)映射:即使真實(shí)世界的試錯(cuò)成本再高、反饋再嘈雜,這也是通向通用人工智能唯一不可回避的窄門。

耀眼的苦澀

薩頓在《苦澀的教訓(xùn)》里不止一次的道出了AI研究者的苦澀:人類精心設(shè)計(jì)的特征、規(guī)則和先驗(yàn)知識(shí),最終都會(huì)被規(guī)?;乃阉髋c學(xué)習(xí)所超越。

那些看起來更聰明的方法,往往不如那些更“笨”的方法走得更遠(yuǎn),因?yàn)楹笳吒蓴U(kuò)展。

回看過去幾年,大模型的演進(jìn)其實(shí)一直在重復(fù)這個(gè)模式。

從手工特征到深度學(xué)習(xí),從監(jiān)督學(xué)習(xí)到自監(jiān)督學(xué)習(xí),從人工標(biāo)注到強(qiáng)化學(xué)習(xí),每一次范式躍遷的方向都一樣——減少人類設(shè)計(jì),增加系統(tǒng)在環(huán)境中的試錯(cuò)空間。

Agent的出現(xiàn),把這條路徑推向了一個(gè)新的階段。

如果說過去的模型主要是在語言世界中學(xué)習(xí),那么Agent開始讓模型在行動(dòng)世界中學(xué)習(xí)。

語言可以描述世界,但只有行動(dòng)才會(huì)產(chǎn)生后果;語言可以表達(dá)知識(shí),但只有行動(dòng)才會(huì)暴露無知。

這也是為什么Agent帶來的改變,短期看像是產(chǎn)品能力的擴(kuò)展,長期看卻更像是能力生成機(jī)制的改變。

一個(gè)只在對話框里回答問題的模型,很難意識(shí)到自己的盲區(qū);一個(gè)在真實(shí)任務(wù)中反復(fù)嘗試、反復(fù)失敗、反復(fù)修正的模型,卻會(huì)不斷被現(xiàn)實(shí)糾正?,F(xiàn)實(shí)世界的反饋,比任何人工標(biāo)注都更直接,也更殘酷。

某種意義上說,Agent最重要的價(jià)值,并不是讓AI替人干活,而是讓AI開始擁有經(jīng)歷。


經(jīng)歷意味著時(shí)間維度,意味著因果結(jié)構(gòu),意味著錯(cuò)誤與修正的循環(huán)。

一個(gè)沒有經(jīng)歷的系統(tǒng),可以擁有知識(shí),但很難形成判斷;一個(gè)持續(xù)積累經(jīng)歷的系統(tǒng),則會(huì)在無數(shù)次反饋中逐漸形成策略。

這也解釋了為什么許多看似“笨拙”的Agent實(shí)驗(yàn),反而值得耐心觀察。

它們操作緩慢、偶爾出錯(cuò)、效率遠(yuǎn)不如人類,但這些笨拙本身就是學(xué)習(xí)的前提。一個(gè)從不觸碰真實(shí)環(huán)境的系統(tǒng),看起來穩(wěn)定,卻難以進(jìn)化;一個(gè)不斷被現(xiàn)實(shí)打回來的系統(tǒng),雖然不完美,卻在不斷更新自身的世界模型。

站在2026年初回望,許多分歧依然存在。

一部分人仍在致力于用基準(zhǔn)測試衡量模型的高度,另一部分人開始用任務(wù)完成率衡量模型的成熟度。前者提供了清晰的數(shù)字坐標(biāo),后者卻更接近真實(shí)世界的復(fù)雜性。

兩者并不矛盾,但后者所積累的經(jīng)驗(yàn),可能更深刻地影響未來智能的邊界。

那些無數(shù)個(gè)Agent在真實(shí)世界中的實(shí)踐,無數(shù)個(gè)通過交互產(chǎn)生的正負(fù)反饋,無數(shù)次失敗正在被轉(zhuǎn)化為改進(jìn)的信號(hào),都在構(gòu)成了智能演化最真實(shí)的底層數(shù)據(jù)。

它們不像基準(zhǔn)成績那樣耀眼,卻像燃料一樣持續(xù)供給著模型的能力增長。

如果說Chatbot階段讓AI學(xué)會(huì)了說話,那么Agent階段正在讓AI學(xué)會(huì)生活。

生活意味著不確定性、偶然性與復(fù)雜因果,也意味著持續(xù)的適應(yīng)與調(diào)整。智能在這樣的環(huán)境中不會(huì)一蹴而就,但會(huì)在無數(shù)微小反饋中逐漸成形。

這或許正是“苦澀”一詞真正的含義:

承認(rèn)沒有任何設(shè)計(jì)能夠一步到位地通向最優(yōu)路徑,承認(rèn)真正的進(jìn)步來自漫長而反復(fù)的試錯(cuò)過程。

苦澀之處在于,人類必須放棄對完美設(shè)計(jì)的執(zhí)念;但希望也在于,一旦系統(tǒng)被置于足夠豐富的環(huán)境中,智能的生長將具有某種內(nèi)在的必然性。

在這個(gè)意義上,今天的Agent浪潮遠(yuǎn)不是大模型故事的終點(diǎn),而更像是一個(gè)新的起點(diǎn)。

它把模型從靜態(tài)知識(shí)的容器,推向持續(xù)學(xué)習(xí)的過程;把能力從一次性的訓(xùn)練結(jié)果,轉(zhuǎn)化為長期交互的副產(chǎn)品。

未來模型的高度,或許不再僅由參數(shù)規(guī)模和語料規(guī)模決定,而取決于它們在現(xiàn)實(shí)世界中經(jīng)歷了多少次嘗試、失敗、以及修正。

能被測量的分?jǐn)?shù),記錄的是今天的能力;不能被完全測量的經(jīng)歷,則在塑造明天的能力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
雷德利·斯科特回歸小熒幕,為何標(biāo)志一個(gè)時(shí)代終結(jié)?

雷德利·斯科特回歸小熒幕,為何標(biāo)志一個(gè)時(shí)代終結(jié)?

影視情報(bào)室
2026-04-19 02:15:08
伊萬卡大秀禿嚕了皮的膝蓋。她的膝蓋怎么會(huì)禿嚕了皮呢?

伊萬卡大秀禿嚕了皮的膝蓋。她的膝蓋怎么會(huì)禿嚕了皮呢?

一口娛樂
2026-04-18 13:00:29
一個(gè)害國害民的歷史罪人,老百姓還把他當(dāng)成英雄崇拜

一個(gè)害國害民的歷史罪人,老百姓還把他當(dāng)成英雄崇拜

小豫講故事
2026-04-19 06:00:10
50億保溫杯出口爆單:你以為老外愛養(yǎng)生,其實(shí)是中國工廠贏了

50億保溫杯出口爆單:你以為老外愛養(yǎng)生,其實(shí)是中國工廠贏了

隨遇而安之心
2026-04-20 03:17:52
與孔令輝分手12年,被黑人托在肩上的馬蘇,終是為自己的風(fēng)流買單

與孔令輝分手12年,被黑人托在肩上的馬蘇,終是為自己的風(fēng)流買單

情感大頭說說
2026-04-18 21:06:00
不愧是嫁給上海首富的美女主持人,54歲了還像30出頭的

不愧是嫁給上海首富的美女主持人,54歲了還像30出頭的

舊時(shí)光老師
2026-04-19 19:08:29
被豆包害慘了的大學(xué)生們!網(wǎng)友:豆包就是愚蠢且勤勞的老實(shí)人

被豆包害慘了的大學(xué)生們!網(wǎng)友:豆包就是愚蠢且勤勞的老實(shí)人

夜深愛雜談
2025-12-02 20:51:10
她是上海著名主持,堅(jiān)守一線工作30年,如今既是大學(xué)教授也是網(wǎng)紅

她是上海著名主持,堅(jiān)守一線工作30年,如今既是大學(xué)教授也是網(wǎng)紅

以茶帶書
2026-04-19 16:46:39
這跟不穿有啥區(qū)別?Rose真空上陣、穿鏤空透視,卻被中國女星搶鏡

這跟不穿有啥區(qū)別?Rose真空上陣、穿鏤空透視,卻被中國女星搶鏡

天天熱點(diǎn)見聞
2026-04-18 08:09:59
極端情況下,切爾西可能要靠輸給利物浦來獲得歐冠資格

極端情況下,切爾西可能要靠輸給利物浦來獲得歐冠資格

懂球帝
2026-04-20 00:22:46
性需求是人的活力來源,性需求是成年人最強(qiáng)大的生命力

性需求是人的活力來源,性需求是成年人最強(qiáng)大的生命力

加油丁小文
2026-04-03 11:30:07
新代言人火爆全球,以色列慌了

新代言人火爆全球,以色列慌了

俠客棧
2026-04-18 13:14:53
巴基斯坦總理與伊朗總統(tǒng)通話討論地區(qū)局勢

巴基斯坦總理與伊朗總統(tǒng)通話討論地區(qū)局勢

新華社
2026-04-20 04:39:03
超710億!廣東這條“堵王”高速,即將全面改擴(kuò)建,最寬12車道!

超710億!廣東這條“堵王”高速,即將全面改擴(kuò)建,最寬12車道!

娛樂圈見解說
2026-04-18 14:54:03
停止焦慮最好的辦法,不是讀書,不是運(yùn)動(dòng),而是……

停止焦慮最好的辦法,不是讀書,不是運(yùn)動(dòng),而是……

壹心理
2026-04-19 11:03:36
抵京!首鋼新外援威廉姆斯:我是全能型,會(huì)去做球隊(duì)要求的一切

抵京!首鋼新外援威廉姆斯:我是全能型,會(huì)去做球隊(duì)要求的一切

懂球帝
2026-04-19 22:36:59
古斯塔沃傷病疑云!兩次稱病缺席,媒體人:降薪后欠薪落差太大

古斯塔沃傷病疑云!兩次稱病缺席,媒體人:降薪后欠薪落差太大

奧拜爾
2026-04-19 13:40:33
韓國一美女因晨跑健身“走紅”,身材緊致太吸睛,網(wǎng)友:太漂亮了

韓國一美女因晨跑健身“走紅”,身材緊致太吸睛,網(wǎng)友:太漂亮了

馬拉松跑步健身
2026-04-19 06:30:13
蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

川渝視覺
2026-04-17 22:13:14
震驚!蘇州一公司全員放假61天,聲稱業(yè)務(wù)停滯停工,鼓勵(lì)員工離職

震驚!蘇州一公司全員放假61天,聲稱業(yè)務(wù)停滯停工,鼓勵(lì)員工離職

火山詩話
2026-04-19 15:02:27
2026-04-20 05:40:49
華爾街見聞官方 incentive-icons
華爾街見聞官方
中國領(lǐng)先的金融商業(yè)信息提供商
144809文章數(shù) 2653311關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

頭條要聞

特朗普:美艦武力攔截伊朗貨船 在機(jī)艙炸出一個(gè)洞

頭條要聞

特朗普:美艦武力攔截伊朗貨船 在機(jī)艙炸出一個(gè)洞

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

本地
藝術(shù)
家居
數(shù)碼
公開課

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

藝術(shù)要聞

超模施特洛耶克寫真曝光,簡直美到窒息,別錯(cuò)過!

家居要聞

法式線條 時(shí)光靜淌

數(shù)碼要聞

華為新機(jī)發(fā)布前瞻:闊折疊X Max+影像旗艦Pura 90,都沒懸念了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版