国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Agent的苦澀覺醒:智能正從語言走向經(jīng)驗(yàn)

0
分享至

作者|松壑

2019年,AI“強(qiáng)化學(xué)習(xí)之父”理查德·薩頓寫了一篇六頁紙的文章,影響了后來的整個(gè)人工智能學(xué)界。

這篇名為《苦澀的教訓(xùn)》的文章,核心只有一句話:

人類花了幾十年把領(lǐng)域知識(shí)硬塞進(jìn)AI,結(jié)果每次都輸給了"讓機(jī)器自己去試錯(cuò)"。

國(guó)際象棋、圍棋、語音識(shí)別、計(jì)算機(jī)視覺如此。那些精心設(shè)計(jì)的先驗(yàn)知識(shí)、人工特征、專家規(guī)則,最終全部被大規(guī)模計(jì)算加上自我博弈踩在腳下。

薩頓是強(qiáng)化學(xué)習(xí)領(lǐng)域公認(rèn)的奠基者。他花了半輩子研究一件事:

智能不是被設(shè)計(jì)出來的,是被環(huán)境逼出來的。智能體與環(huán)境的持續(xù)交互,是通向更高智能上限的唯一可靠路徑。


文章發(fā)表后,學(xué)界的反應(yīng)幾乎是兩極分裂。一批在特征工程和專家系統(tǒng)上耕耘多年的研究者,被迫重新審視自己工作的長(zhǎng)期意義。爭(zhēng)議至今沒有平息,然而薩頓的判斷,在接下來的七年里一再被反復(fù)驗(yàn)證。

站在2026年初的Agent浪潮回頭看這七年,這個(gè)判斷正在AI產(chǎn)業(yè)里以一種出人意料的方式應(yīng)驗(yàn)——只是大多數(shù)人還沒有意識(shí)到。

討論Agent,只聊了一半

從Claude引領(lǐng)的Skill熱到Cowork協(xié)同再到如今遍地的“養(yǎng)蝦熱“,Agent已是今天AI界最熱的詞。

但熱歸熱,面對(duì)能力與日俱增的Agent,行業(yè)正在高度聚焦的問題已不再停留在“能做什么”的工具之問,而是權(quán)限不斷開放、插件生態(tài)日益豐富,它的應(yīng)用范圍可能有多廣,又將如何重塑生產(chǎn)關(guān)系、驅(qū)動(dòng)經(jīng)濟(jì)結(jié)構(gòu)變化。

從每場(chǎng)發(fā)布會(huì)、每篇產(chǎn)品評(píng)測(cè)到每條行業(yè)推文,人們追問的核心正在成為:具備更強(qiáng)自主性與系統(tǒng)權(quán)限的 Agent,會(huì)在應(yīng)用層帶來怎樣巨大的商業(yè)洗牌,而哪些行業(yè)與環(huán)節(jié)將會(huì)就此被Agent浪潮所摧毀?

業(yè)界甚至出現(xiàn)了更為尖銳的預(yù)警與預(yù)言:隨著 Agent替代范圍持續(xù)擴(kuò)大、替代深度不斷加深,大規(guī)模崗位消失、收入分化加劇、有效需求萎縮等風(fēng)險(xiǎn)正在累積,可能引發(fā)結(jié)構(gòu)性就業(yè)問題和連鎖式的經(jīng)濟(jì)風(fēng)險(xiǎn)。

這些敘事有價(jià)值,它們都在問同一類問題:Agent作為工具,它在應(yīng)用層面對(duì)人類社會(huì)的重塑會(huì)走向何方?

但似乎少有人在追問另一個(gè)問題:

如今Agent加速的大規(guī)模普及,反過來會(huì)在模型層對(duì)AI本身帶來哪些質(zhì)的改變?

這個(gè)問題,才是薩頓視角下真正重要的那個(gè)。

Chatbot死胡同

在理解Agent的深層價(jià)值前,有必要先看清楚它的前身Chatbot走進(jìn)了怎樣的死胡同。

2023年初,ChatGPT用戶數(shù)突破一億,創(chuàng)下了消費(fèi)互聯(lián)網(wǎng)歷史上增長(zhǎng)最快的紀(jì)錄。全世界的產(chǎn)品經(jīng)理如夢(mèng)初醒,瘋狂地在自己的產(chǎn)品里塞入對(duì)話框??头C(jī)器人、知識(shí)問答、寫作助手、代碼補(bǔ)全——所有東西都變成了一個(gè)"聊天界面"。

但到了2024年底,一個(gè)尷尬的事實(shí)浮出水面:大量用戶在最初的新鮮感消退后,使用頻率顯著下滑。多家媒體和分析機(jī)構(gòu)報(bào)道了ChatGPT用戶活躍度增長(zhǎng)放緩的趨勢(shì)。

用戶發(fā)現(xiàn)自己并不知道該拿這個(gè)對(duì)話框干什么,偶爾用它寫個(gè)郵件、改個(gè)措辭、問個(gè)問題,但從未形成穩(wěn)定的使用習(xí)慣。

原因很簡(jiǎn)單:Chatbot的交互模式是一問一答,而人類的真實(shí)工作流程是多步驟、多工具、多判斷的。

讓Chatbot幫你做市場(chǎng)調(diào)研,它會(huì)給你一篇看起來不錯(cuò)的文章。但不知道數(shù)據(jù)來源是否可靠,不知道它是否遺漏了關(guān)鍵競(jìng)爭(zhēng)對(duì)手,不知道結(jié)論背后的推理鏈條是否經(jīng)得起推敲。雖然拿到的是一個(gè)結(jié)果,但失去了整個(gè)過程。

更致命的是,Chatbot的每一次對(duì)話都是孤立的。它不記得上周的偏好,不知道項(xiàng)目的上下文,不理解組織的業(yè)務(wù)邏輯。每一次打開對(duì)話框,都在跟一個(gè)彬彬有禮的失憶者重新自我介紹。

這就是為什么從2024年下半年開始,整個(gè)行業(yè)集體轉(zhuǎn)向Agent,因?yàn)镃hatbot的天花板已經(jīng)清晰地?cái)[在那里。

但這里有一個(gè)幾乎所有人都忽略的維度:Chatbot的天花板,不僅僅是產(chǎn)品形態(tài)的天花板,它同時(shí)也是模型進(jìn)化的天花板。


實(shí)踐交互是關(guān)鍵

薩頓的強(qiáng)化學(xué)習(xí)哲學(xué),核心邏輯非常清晰:靜態(tài)數(shù)據(jù)的上限,是已知世界的邊界。

無論語料庫多大,無論參數(shù)量多高,在固定數(shù)據(jù)集上訓(xùn)練的模型,能力邊界就是那批數(shù)據(jù)所描繪的世界的邊界。

到了24-25年,這條邊界已經(jīng)肉眼可見。

Epoch AI團(tuán)隊(duì)發(fā)表過一項(xiàng)被廣泛引用的分析,預(yù)測(cè)按照當(dāng)前的消耗速度,高質(zhì)量的互聯(lián)網(wǎng)文本數(shù)據(jù)將在未來幾年內(nèi)被基本耗盡。整個(gè)行業(yè)開始談?wù)?數(shù)據(jù)墻",一堵由信息總量的物理極限砌成的墻。

Chatbot提供的答案是:從用戶對(duì)話里來。但用戶跟Chatbot的對(duì)話,信息密度極低。

"幫我把這封郵件改得更正式一點(diǎn)""用Python寫一個(gè)快速排序""中國(guó)的GDP是多少"這些交互包含的,不過是人類需求的淺層映射。

模型從這些對(duì)話中能學(xué)到的東西,跟從互聯(lián)網(wǎng)上抓取一批新文本學(xué)到的,本質(zhì)上沒有區(qū)別。都是語言模式的統(tǒng)計(jì)規(guī)律,都缺乏一樣?xùn)|西:因果結(jié)構(gòu)。

Agent不同之處在于:完成任務(wù)的過程中,會(huì)產(chǎn)生一種靜態(tài)語料永遠(yuǎn)無法提供的東西:標(biāo)注了因果結(jié)構(gòu)的決策軌跡 。

例如包括:目標(biāo)是什么,采取了什么行動(dòng),環(huán)境返回了什么反饋,哪里出錯(cuò)了,如何修正的。

用個(gè)具體例子來說明區(qū)別。一個(gè)用戶對(duì)Chatbot說:“幫我安排下周三從北京去上海的出差行程?!?Chatbot直接給出一段行程方案,交互就此結(jié)束。模型從中學(xué)到的東西微乎其微 ,它不知道這份安排是否合理,用戶是否滿意,也無法驗(yàn)證自己的回答是否真正解決了問題。

而如果讓一個(gè)Agent 去完成同樣的任務(wù),它會(huì)走一整套完整的自主工作流:先理解用戶的出差需求,查詢用戶過往偏好,調(diào)用航班接口時(shí)發(fā)現(xiàn)早班機(jī)因天氣取消,自動(dòng)切換備選航班,再根據(jù)公司差旅標(biāo)準(zhǔn)篩選合適酒店,生成初稿行程。當(dāng)用戶反饋 “酒店離會(huì)場(chǎng)太遠(yuǎn)”,Agent 會(huì)重新篩選步行可達(dá)的酒店,修正后輸出最終方案。


每一步,都攜帶著明確的因果信號(hào)。調(diào)用接口失敗告訴模型 “要預(yù)留備用方案”,用戶的偏好告訴模型 “要記住使用習(xí)慣”,用戶的修改反饋告訴模型 “要根據(jù)需求迭代優(yōu)化”。

Chatbot只輸出答案,而 Agent 是在真正自主完成任務(wù),并在不斷試錯(cuò)與修正中持續(xù)成長(zhǎng)。

這類數(shù)據(jù)的信息密度,遠(yuǎn)超簡(jiǎn)單的網(wǎng)頁抓取。它不是人類語言表達(dá)的映射,而是智能體與現(xiàn)實(shí)世界博弈的實(shí)錄。

用這類數(shù)據(jù)訓(xùn)練出來的模型,獲得的不是更多的知識(shí),而是更強(qiáng)的推理能力和自我糾錯(cuò)能力,而這才是決定大模型能力上限的關(guān)鍵變量。

換言之,Agent是大模型從外部世界獲取進(jìn)化燃料的接口。

沒有這個(gè)接口,模型的能力上限被死死鎖在靜態(tài)數(shù)據(jù)的邊界里。

追上限,還是堆接口?

2024年底到2025年這段時(shí)間,頭部大模型玩家的戰(zhàn)略選擇出現(xiàn)了一個(gè)耐人尋味的分叉。

OpenAI、Google等頭部模型用最大壓強(qiáng)猛攻同一堵墻:追逐模型能力的天花板。

2024年底,OpenAI發(fā)布了o3。在Fran?ois Chollet設(shè)計(jì)的ARC-AGI基準(zhǔn)測(cè)試上——這個(gè)被公認(rèn)為衡量抽象推理能力的高難度測(cè)試——o3取得了令整個(gè)行業(yè)側(cè)目的成績(jī)。ARC-AGI的設(shè)計(jì)哲學(xué)恰恰是反蠻力的:Chollet一直堅(jiān)持智能的核心是抽象推理和小樣本泛化,而不是暴力搜索。但o3用大規(guī)模的推理時(shí)間計(jì)算,硬是在這個(gè)測(cè)試上刷出了遠(yuǎn)超此前所有系統(tǒng)的分?jǐn)?shù)。

Chollet在公開回應(yīng)中態(tài)度審慎。他沒有否認(rèn)o3的成績(jī),但指出了一個(gè)關(guān)鍵事實(shí):這個(gè)系統(tǒng)在解題時(shí)消耗的計(jì)算量遠(yuǎn)超人類,高分不等于通用智能的突破。

Google DeepMind則在Gemini 2.0系列上持續(xù)推進(jìn)多模態(tài)推理能力。

但Anthropic選擇了另一條路。2024年10月,Anthropic為Claude推出了一個(gè)在當(dāng)時(shí)看來不夠性感的功能:Computer Use,它讓Claude直接操作電腦屏幕。它能看到屏幕上的內(nèi)容,移動(dòng)鼠標(biāo),點(diǎn)擊按鈕,輸入文字。

早期的用戶體驗(yàn)談不上驚艷。Claude操作電腦的速度很慢,經(jīng)常花很長(zhǎng)時(shí)間才能找到一個(gè)按鈕,偶爾還會(huì)點(diǎn)錯(cuò)地方??萍济襟w和社交平臺(tái)上的評(píng)論普遍帶著善意的嘲諷——"看AI用電腦,像看一個(gè)剛接觸電腦的老人"。

但Anthropic的CEO Dario Amodei在多次訪談中反復(fù)強(qiáng)調(diào)一個(gè)判斷:

大模型的下一個(gè)突破不僅僅在于參數(shù)量,更在于模型與世界交互的方式。

Amodei曾在OpenAI擔(dān)任研究副總裁近五年,親歷了GPT-2到GPT-3的演化過程,2021年離開后創(chuàng)立Anthropic,帶著的正是這個(gè)信念。

2024年末,Anthropic推出了Model Context Protocol(MCP)開放協(xié)議,讓AI模型可以標(biāo)準(zhǔn)化地連接外部工具和數(shù)據(jù)源。

如果說Computer Use給了Claude手腳,MCP就是給了它一套通用的神經(jīng)末梢,讓它能觸及的真實(shí)世界的表面積成倍擴(kuò)大。


Claude在2025年的主要敘事,不是在某個(gè)基準(zhǔn)上的刷榜,而是Agent能力的工程落地,包括長(zhǎng)上下文的穩(wěn)定性、多步驟任務(wù)中不掉鏈子的可靠性、與外部工具集成的靈活性。

它在追一個(gè)更難量化的目標(biāo):在真實(shí)任務(wù)里,持續(xù)地、可靠地干活。

這聽起來不夠浪漫。但薩頓的整個(gè)理論都在告訴你:這恰恰是通向更高智能上限的那條路。

干活即訓(xùn)練

這是過去一年多里最值得關(guān)注的反直覺現(xiàn)象。當(dāng)同行們正面強(qiáng)攻能力基準(zhǔn)的時(shí)候,Claude在真實(shí)Agent場(chǎng)景下的大規(guī)模使用,悄悄完成了薩頓預(yù)言過的一件事:

它在與真實(shí)世界的交互中持續(xù)積累高質(zhì)量的決策信號(hào),而這些信號(hào)反過來成了提升模型能力的燃料。

這個(gè)飛輪的運(yùn)轉(zhuǎn)邏輯是這樣的:用戶用Claude處理真實(shí)任務(wù),比如自動(dòng)化地整理CRM數(shù)據(jù)、跨系統(tǒng)地完成采購(gòu)審批、根據(jù)實(shí)時(shí)數(shù)據(jù)調(diào)整營(yíng)銷策略、用Claude Code完成復(fù)雜的編程項(xiàng)目。

每一次成功和失敗都是信號(hào);每一個(gè)多步驟的工作流,都帶有因果結(jié)構(gòu)的決策軌跡;每一次工具調(diào)用的結(jié)果,都在告訴模型"這樣做有效,那樣做無效"。

這些信號(hào)經(jīng)過脫敏和提煉,會(huì)直接作用于模型的推理深度和自我糾錯(cuò)能力。

反觀Chatbot模式。用戶跟ChatGPT的海量對(duì)話中,有多少能顯著提升模型推理能力?"幫我寫一首關(guān)于秋天的詩""用Python寫一個(gè)快速排序""中國(guó)有多少個(gè)省"這類交互無論重復(fù)多少億次,都不包含因果推理的信號(hào)。它們是語言模式的重復(fù)預(yù)測(cè),不是智能的增量。

這就是Agent和Chatbot在模型進(jìn)化層面的根本區(qū)別:Chatbot給模型喂的是"語言的影子",Agent給模型喂的是"決策的骨骼"。

這正是薩頓講了幾十年的事:不要試圖直接教育或設(shè)計(jì)智能,要讓智能在與環(huán)境的交互中自己生長(zhǎng)出來。

OpenAI轉(zhuǎn)向

OpenAI不是沒有意識(shí)到這個(gè)問題。

很早之前,它就通過 Function Calling、Assistants、GPTs等一系列功能,持續(xù)探索工具調(diào)用與任務(wù)執(zhí)行。

但真正的躍遷發(fā)生在 2025年1月,OpenAI發(fā)布的Operator能在瀏覽器中自主完成任務(wù),隨后推出的還有Deep Research,一個(gè)能自主進(jìn)行多步驟研究、跨網(wǎng)站搜集信息并綜合分析的Agent系統(tǒng)。


OpenAI的戰(zhàn)略重心正在明確地從“對(duì)話”轉(zhuǎn)向“行動(dòng)”。這個(gè)轉(zhuǎn)向本身就是對(duì)薩頓邏輯的一種暗合:從在靜態(tài)數(shù)據(jù)上做模式匹配的系統(tǒng),轉(zhuǎn)向在動(dòng)態(tài)環(huán)境中做決策和學(xué)習(xí)的系統(tǒng)。

但OpenAI面臨一個(gè)獨(dú)特的挑戰(zhàn):路徑依賴。ChatGPT的數(shù)億用戶,絕大多數(shù)已經(jīng)習(xí)慣了Chatbot的使用模式——打開對(duì)話框、問一個(gè)問題、得到一個(gè)答案。

讓這些用戶從問答切換到指派任務(wù),不僅僅是產(chǎn)品設(shè)計(jì)的問題,更是心智模型的問題。

用戶需要學(xué)會(huì)一件反直覺的事情:不要告訴AI怎么做,只要告訴它你要什么結(jié)果。

Claude從一開始就沒有ChatGPT那樣的全民級(jí)Chatbot包袱。它的用戶群體更偏向開發(fā)者和企業(yè),這些用戶天然更適應(yīng)Agent的交互模式。Anthropic推出的MCP協(xié)議,更是直接面向開發(fā)者生態(tài),讓第三方可以方便地為Claude構(gòu)建工具連接。

這就造成了一個(gè)微妙的時(shí)間差:當(dāng)OpenAI還在引導(dǎo)龐大的用戶基數(shù)從Chatbot轉(zhuǎn)向Agent的時(shí)候,Claude已經(jīng)在Agent場(chǎng)景中積累了可觀的交互數(shù)據(jù)。

在強(qiáng)化學(xué)習(xí)的世界里,時(shí)間差就是一切。

先行者的數(shù)據(jù)優(yōu)勢(shì)會(huì)通過飛輪效應(yīng)不斷放大:更好的Agent → 更多開發(fā)者和用戶使用 → 更多交互數(shù)據(jù) → 更強(qiáng)的模型 → 更好的Agent。

上限不是被攻破的

歷史上有一個(gè)反復(fù)出現(xiàn)的模式,值得AI行業(yè)認(rèn)真對(duì)待:深藍(lán)擊敗卡斯帕羅夫,不是因?yàn)楣こ處熓謩?dòng)編碼了人類所有的棋路,而是因?yàn)樗乃阉魉惴ㄔ诤A吭u(píng)估中找到了人類從未想到的走法。

AlphaGo的真正突破不在學(xué)習(xí)人類棋譜的第一版,而在AlphaGo Zero這個(gè)完全靠自我對(duì)弈、不依賴任何棋譜的版本。它從零開始,在數(shù)天內(nèi)重新發(fā)現(xiàn)了人類數(shù)千年積累的圍棋知識(shí),然后超越了它。

大語言模型有關(guān)數(shù)學(xué)推理、代碼生成、邏輯分析的涌現(xiàn),沒有一項(xiàng)是被精心設(shè)計(jì)出來的。

沒有人在訓(xùn)練目標(biāo)里寫過"請(qǐng)學(xué)會(huì)做數(shù)學(xué)題",但當(dāng)模型規(guī)模和數(shù)據(jù)規(guī)??邕^某個(gè)臨界點(diǎn),這些能力自發(fā)地涌現(xiàn)了。

能力的上限,從來都不是被正面攻打突破的。它是在足夠復(fù)雜的環(huán)境里持續(xù)交互的過程中,被逼出來的。

這就是Agent對(duì)大模型真正的意義:它不僅僅是讓模型有了"手腳",它還給了模型一個(gè)持續(xù)與現(xiàn)實(shí)世界博弈的競(jìng)技場(chǎng)。

真實(shí)世界中的反饋與博弈,才是進(jìn)化的引擎。

一個(gè)從不犯錯(cuò)的系統(tǒng),無法進(jìn)化。一個(gè)只回答問題、永遠(yuǎn)不觸碰真實(shí)世界的系統(tǒng),永遠(yuǎn)不知道自己的無知在哪里。

只有當(dāng)Agent把手伸進(jìn)現(xiàn)實(shí),調(diào)用一個(gè)API、操作一個(gè)瀏覽器、執(zhí)行一個(gè)工作流,然后再被現(xiàn)實(shí)狠狠地打回來的時(shí)候,真正的學(xué)習(xí)才開始發(fā)生。

古老呼應(yīng)

和薩頓的強(qiáng)化學(xué)習(xí)哲學(xué)相類似的原理,早在半個(gè)多世紀(jì)前,就被另一個(gè)完全不同領(lǐng)域的經(jīng)濟(jì)學(xué)家發(fā)現(xiàn)過。

1945年,弗里德里希·哈耶克在《美國(guó)經(jīng)濟(jì)評(píng)論》上發(fā)表了一篇名為《知識(shí)在社會(huì)中的利用》的論文,后來被認(rèn)為是20世紀(jì)最重要的經(jīng)濟(jì)學(xué)文章之一。


它的核心論點(diǎn)極其簡(jiǎn)單:沒有任何一個(gè)人或組織,能夠掌握一個(gè)復(fù)雜經(jīng)濟(jì)體運(yùn)轉(zhuǎn)所需要的全部知識(shí)。不是暫時(shí)掌握不了,而是原則上不可能

因?yàn)橛袃r(jià)值的知識(shí)是分散的、局部的、隱性的、轉(zhuǎn)瞬即逝的。

對(duì)于經(jīng)濟(jì)來說,沒有整體設(shè)計(jì)、沒有全局藍(lán)圖,沒有從上到下的指令鏈。只有無數(shù)個(gè)體與環(huán)境的持續(xù)交互,加上一個(gè)能傳遞反饋信號(hào)的機(jī)制。

這段描述,把經(jīng)濟(jì)體換成智能體,把價(jià)格信號(hào)換算成獎(jiǎng)勵(lì)信號(hào),就是薩頓的強(qiáng)化學(xué)習(xí)。

1988年,89歲的哈耶克出版了人生最后一部重要著作《致命的自負(fù)》。

書名本身就是論點(diǎn)。哈耶克用一整本書論證了一件事:人類最危險(xiǎn)的智識(shí)錯(cuò)覺,就是以為自己可以設(shè)計(jì)出一個(gè)比自發(fā)秩序更好的系統(tǒng)。

哈耶克提出,我們無法預(yù)先知道所有人在所有時(shí)刻的所有需求和所有約束。 唯一能"知道"這些的,是讓所有人在真實(shí)環(huán)境中自己去交互、去試錯(cuò)、去根據(jù)反饋信號(hào)調(diào)整行為的那個(gè)過程。

這個(gè)過程,哈耶克給了它一個(gè)名字:自發(fā)秩序,如此哲學(xué)與薩頓所重視的環(huán)境訓(xùn)練具有異曲同工之處。

哈耶克或許會(huì)說:計(jì)劃者把專家知識(shí)硬塞進(jìn)經(jīng)濟(jì)體系,試圖用頂層設(shè)計(jì)替代市場(chǎng)的自發(fā)調(diào)節(jié),結(jié)果每次都輸給了"讓個(gè)體自己去試錯(cuò)"。

薩頓則可能會(huì)說: AI研究者把領(lǐng)域知識(shí)硬塞進(jìn)算法,試圖用人工特征替代機(jī)器的自主學(xué)習(xí),結(jié)果每次都輸給了"讓機(jī)器自己去試錯(cuò)"。

哈耶克所說的致命自負(fù),是以為人類理性能設(shè)計(jì)出比自發(fā)秩序更好的系統(tǒng)。

薩頓的苦澀教訓(xùn),是以為人類專家能通過簡(jiǎn)單預(yù)訓(xùn)練,就能搞出比大規(guī)模搜索更好的智能。

波蘭尼的默會(huì)知識(shí)

如果允許再加一個(gè)人到這場(chǎng)跨時(shí)空對(duì)話中,他可能是哈耶克同時(shí)代的匈牙利裔學(xué)者邁克爾·波蘭尼(Michael Polanyi)。

波蘭尼在1966年出版的《默會(huì)維度》中提出了一個(gè)影響深遠(yuǎn)的概念:

默會(huì)知識(shí)(tacit knowledge),即人們知道的,永遠(yuǎn)比人們能說出來的多。原話是:"We know more than we can tell."


人知道怎么騎自行車,但人無法用語言精確描述保持平衡的每一個(gè)動(dòng)作。一個(gè)經(jīng)驗(yàn)豐富的醫(yī)生看一眼X光片就知道哪里不對(duì),但他很難把自己的判斷過程完全形式化。

這個(gè)概念直接擊中了此前Chatbot模式的命門:大語言模型從互聯(lián)網(wǎng)文本中學(xué)到的,只是人類能夠用語言表達(dá)出來的那部分知識(shí)——顯性知識(shí)。

但人類的大量能力和判斷力,存在于默會(huì)知識(shí)中,而默會(huì)知識(shí)只能在行動(dòng)中被體現(xiàn),不能在文本中被捕獲。

一個(gè)人類專家做決策的過程,有大量的東西是他自己都說不清楚的——為什么在這個(gè)時(shí)候選擇等待而不是行動(dòng),為什么覺得這個(gè)方案"感覺不對(duì)"。這些判斷力不會(huì)出現(xiàn)在任何網(wǎng)頁上,不會(huì)出現(xiàn)在任何教科書里,也不會(huì)出現(xiàn)在任何Chatbot的訓(xùn)練數(shù)據(jù)中。

但它們會(huì)出現(xiàn)在Agent的行為軌跡中。當(dāng)Agent在執(zhí)行一個(gè)復(fù)雜任務(wù)時(shí),它在決策序列中先做什么、后做什么、遇到障礙如何調(diào)整、在不確定性面前如何權(quán)衡,本身就是一種默會(huì)知識(shí)的外化。

它不是語言的表達(dá),而是行動(dòng)的記錄。而行動(dòng)記錄,比語言表達(dá),攜帶了多得多的信息。

翻譯成AI的語言就是:Agent的行為軌跡里包含的信息,比互聯(lián)網(wǎng)上所有文本包含的信息在結(jié)構(gòu)上更豐富。因?yàn)榍罢哂涗浀氖切袆?dòng)和后果,后者記錄的只是言說。

路徑驗(yàn)證

站在2026年初回頭看,過去一年多的行業(yè)走向,正在為這場(chǎng)認(rèn)識(shí)論之爭(zhēng)提供初步的經(jīng)驗(yàn)證據(jù)。

追基準(zhǔn)的路線成果顯著,但邊際收益與頭部模型的方差確實(shí)都在縮小。

各家模型在主流基準(zhǔn)上的分?jǐn)?shù)越來越接近,差距從代際碾壓縮小到比拼幾個(gè)百分點(diǎn)的距離。

基準(zhǔn)分?jǐn)?shù)的競(jìng)賽并沒有失去意義,但它越來越像短跑比賽中百分之一秒的較量,觀眾看不出區(qū)別,對(duì)實(shí)際應(yīng)用的影響也在遞減。

Agent路線的回報(bào)開始顯現(xiàn),但以一種不太引人注目的方式。

沒有一個(gè)驚天動(dòng)地的基準(zhǔn)突破,取而代之的是一個(gè)個(gè)具體場(chǎng)景中的可靠性提升。

Claude在編程輔助中的多步驟任務(wù)完成率在持續(xù)改善,Computer Use的操作精準(zhǔn)度和速度在迭代中顯著提高,基于MCP協(xié)議的第三方工具生態(tài)在擴(kuò)大。

一年前的DeepSeek-R1全球出圈,恰恰是這個(gè)故事中最有趣的一章。它深度采用強(qiáng)化學(xué)習(xí)、這種薩頓最推崇的方法在推理任務(wù)上實(shí)現(xiàn)了驚人的效果,且成本極低。


這等于在產(chǎn)業(yè)界面前做了一次薩頓哲學(xué)的現(xiàn)場(chǎng)示范:未必需要最大的參數(shù)量和最多的人工標(biāo)注,只需要讓模型在一個(gè)有明確反饋信號(hào)的環(huán)境中大規(guī)模試錯(cuò),推理能力就能被"逼"出來。

值得一提的是,在物理世界的 Agent 大規(guī)模部署之前,更多模型是通過合成數(shù)據(jù)和規(guī)則明確的虛擬環(huán)境進(jìn)行“預(yù)演”,而這同樣是通往真實(shí)世界賽場(chǎng)的過渡態(tài)。

DeepSeek-R1的成功和Agent路線的邏輯,在底層是相通的:都是用交互中產(chǎn)生的信號(hào)來驅(qū)動(dòng)能力的提升,而不是依賴靜態(tài)數(shù)據(jù)的堆積。 區(qū)別只在于前者環(huán)境是精心設(shè)計(jì)的推理任務(wù),后者環(huán)境是混亂的真實(shí)世界。

當(dāng)然必須承認(rèn),用經(jīng)驗(yàn)喂養(yǎng)智能的這條道路,在現(xiàn)實(shí)中運(yùn)轉(zhuǎn)起來注定會(huì)有極大的摩擦力。

真實(shí)世界從來不是一個(gè)可以無限重啟的虛擬沙盒。AlphaGo 在棋盤上輸?shù)粢话偃f局的成本幾乎為零,DeepSeek 在數(shù)學(xué)推導(dǎo)中的試錯(cuò)也十分廉價(jià);

但在真實(shí)的商業(yè)環(huán)境與社會(huì)鏈路中,Agent 的一次越界試錯(cuò),可能意味著一筆交易的失敗、一次糟糕的客戶體驗(yàn),甚至是難以被問責(zé)的金融、法律和醫(yī)療風(fēng)險(xiǎn)。

更棘手的是,現(xiàn)實(shí)世界的反饋信號(hào)往往是高度嘈雜且延遲的。當(dāng)一個(gè) Agent 給出的策略最終見效時(shí),究竟是因?yàn)樗耐评磉壿嫙o懈可擊,還是僅僅碰上了宏觀環(huán)境的順風(fēng)?

客觀上許多因果歸因的模糊性,仍然會(huì)給模型從中提取純粹的“有效經(jīng)驗(yàn)”帶來了巨大的工程挑戰(zhàn)。

但這恰恰是薩頓理論中那份“苦澀”在今天的現(xiàn)實(shí)映射:即使真實(shí)世界的試錯(cuò)成本再高、反饋再嘈雜,這也是通向通用人工智能唯一不可回避的窄門。

耀眼的苦澀

薩頓在《苦澀的教訓(xùn)》里不止一次的道出了AI研究者的苦澀:人類精心設(shè)計(jì)的特征、規(guī)則和先驗(yàn)知識(shí),最終都會(huì)被規(guī)?;乃阉髋c學(xué)習(xí)所超越。

那些看起來更聰明的方法,往往不如那些更“笨”的方法走得更遠(yuǎn),因?yàn)楹笳吒蓴U(kuò)展。

回看過去幾年,大模型的演進(jìn)其實(shí)一直在重復(fù)這個(gè)模式。

從手工特征到深度學(xué)習(xí),從監(jiān)督學(xué)習(xí)到自監(jiān)督學(xué)習(xí),從人工標(biāo)注到強(qiáng)化學(xué)習(xí),每一次范式躍遷的方向都一樣——減少人類設(shè)計(jì),增加系統(tǒng)在環(huán)境中的試錯(cuò)空間。

Agent的出現(xiàn),把這條路徑推向了一個(gè)新的階段。

如果說過去的模型主要是在語言世界中學(xué)習(xí),那么Agent開始讓模型在行動(dòng)世界中學(xué)習(xí)。

語言可以描述世界,但只有行動(dòng)才會(huì)產(chǎn)生后果;語言可以表達(dá)知識(shí),但只有行動(dòng)才會(huì)暴露無知。

這也是為什么Agent帶來的改變,短期看像是產(chǎn)品能力的擴(kuò)展,長(zhǎng)期看卻更像是能力生成機(jī)制的改變。

一個(gè)只在對(duì)話框里回答問題的模型,很難意識(shí)到自己的盲區(qū);一個(gè)在真實(shí)任務(wù)中反復(fù)嘗試、反復(fù)失敗、反復(fù)修正的模型,卻會(huì)不斷被現(xiàn)實(shí)糾正?,F(xiàn)實(shí)世界的反饋,比任何人工標(biāo)注都更直接,也更殘酷。

某種意義上說,Agent最重要的價(jià)值,并不是讓AI替人干活,而是讓AI開始擁有經(jīng)歷。


經(jīng)歷意味著時(shí)間維度,意味著因果結(jié)構(gòu),意味著錯(cuò)誤與修正的循環(huán)。

一個(gè)沒有經(jīng)歷的系統(tǒng),可以擁有知識(shí),但很難形成判斷;一個(gè)持續(xù)積累經(jīng)歷的系統(tǒng),則會(huì)在無數(shù)次反饋中逐漸形成策略。

這也解釋了為什么許多看似“笨拙”的Agent實(shí)驗(yàn),反而值得耐心觀察。

它們操作緩慢、偶爾出錯(cuò)、效率遠(yuǎn)不如人類,但這些笨拙本身就是學(xué)習(xí)的前提。一個(gè)從不觸碰真實(shí)環(huán)境的系統(tǒng),看起來穩(wěn)定,卻難以進(jìn)化;一個(gè)不斷被現(xiàn)實(shí)打回來的系統(tǒng),雖然不完美,卻在不斷更新自身的世界模型。

站在2026年初回望,許多分歧依然存在。

一部分人仍在致力于用基準(zhǔn)測(cè)試衡量模型的高度,另一部分人開始用任務(wù)完成率衡量模型的成熟度。前者提供了清晰的數(shù)字坐標(biāo),后者卻更接近真實(shí)世界的復(fù)雜性。

兩者并不矛盾,但后者所積累的經(jīng)驗(yàn),可能更深刻地影響未來智能的邊界。

那些無數(shù)個(gè)Agent在真實(shí)世界中的實(shí)踐,無數(shù)個(gè)通過交互產(chǎn)生的正負(fù)反饋,無數(shù)次失敗正在被轉(zhuǎn)化為改進(jìn)的信號(hào),都在構(gòu)成了智能演化最真實(shí)的底層數(shù)據(jù)。

它們不像基準(zhǔn)成績(jī)那樣耀眼,卻像燃料一樣持續(xù)供給著模型的能力增長(zhǎng)。

如果說Chatbot階段讓AI學(xué)會(huì)了說話,那么Agent階段正在讓AI學(xué)會(huì)生活。

生活意味著不確定性、偶然性與復(fù)雜因果,也意味著持續(xù)的適應(yīng)與調(diào)整。智能在這樣的環(huán)境中不會(huì)一蹴而就,但會(huì)在無數(shù)微小反饋中逐漸成形。

這或許正是“苦澀”一詞真正的含義:

承認(rèn)沒有任何設(shè)計(jì)能夠一步到位地通向最優(yōu)路徑,承認(rèn)真正的進(jìn)步來自漫長(zhǎng)而反復(fù)的試錯(cuò)過程。

苦澀之處在于,人類必須放棄對(duì)完美設(shè)計(jì)的執(zhí)念;但希望也在于,一旦系統(tǒng)被置于足夠豐富的環(huán)境中,智能的生長(zhǎng)將具有某種內(nèi)在的必然性。

在這個(gè)意義上,今天的Agent浪潮遠(yuǎn)不是大模型故事的終點(diǎn),而更像是一個(gè)新的起點(diǎn)。

它把模型從靜態(tài)知識(shí)的容器,推向持續(xù)學(xué)習(xí)的過程;把能力從一次性的訓(xùn)練結(jié)果,轉(zhuǎn)化為長(zhǎng)期交互的副產(chǎn)品。

未來模型的高度,或許不再僅由參數(shù)規(guī)模和語料規(guī)模決定,而取決于它們?cè)诂F(xiàn)實(shí)世界中經(jīng)歷了多少次嘗試、失敗、以及修正。

能被測(cè)量的分?jǐn)?shù),記錄的是今天的能力;不能被完全測(cè)量的經(jīng)歷,則在塑造明天的能力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
哈梅內(nèi)伊的繼任者們沒有顯示任何投降跡象,甚至可能更激進(jìn)

哈梅內(nèi)伊的繼任者們沒有顯示任何投降跡象,甚至可能更激進(jìn)

Nee看
2026-03-02 18:16:41
報(bào)告!伊朗戰(zhàn)場(chǎng)導(dǎo)彈精準(zhǔn)命中恒生科技

報(bào)告!伊朗戰(zhàn)場(chǎng)導(dǎo)彈精準(zhǔn)命中恒生科技

民工看市
2026-03-02 12:21:21
哈梅內(nèi)伊死后,關(guān)于李莉的一張圖火了

哈梅內(nèi)伊死后,關(guān)于李莉的一張圖火了

清書先生
2026-03-02 20:19:42
伊朗最高國(guó)家安全委員會(huì)秘書:已為長(zhǎng)期戰(zhàn)爭(zhēng)做好準(zhǔn)備

伊朗最高國(guó)家安全委員會(huì)秘書:已為長(zhǎng)期戰(zhàn)爭(zhēng)做好準(zhǔn)備

財(cái)聯(lián)社
2026-03-02 20:44:25
涉美伊局勢(shì),復(fù)旦教授、人大教授雙雙發(fā)聲,“外網(wǎng)和國(guó)內(nèi)的一些自媒體造謠,這些人臉都不要了”

涉美伊局勢(shì),復(fù)旦教授、人大教授雙雙發(fā)聲,“外網(wǎng)和國(guó)內(nèi)的一些自媒體造謠,這些人臉都不要了”

都市快報(bào)橙柿互動(dòng)
2026-03-02 15:33:41
外媒:特朗普對(duì)伊朗發(fā)出新威脅

外媒:特朗普對(duì)伊朗發(fā)出新威脅

參考消息
2026-03-01 15:52:28
再見,崔龍海!

再見,崔龍海!

IN朝鮮
2026-03-02 15:47:57
梅婷有過三段婚姻,第一任丈夫是葉挺的孫子葉大鷹,是電影導(dǎo)演

梅婷有過三段婚姻,第一任丈夫是葉挺的孫子葉大鷹,是電影導(dǎo)演

百態(tài)人間
2026-03-02 15:16:23
嚴(yán)厲制止網(wǎng)絡(luò)上過度宣揚(yáng)“失業(yè)潮失業(yè)人數(shù)及躺平”等不良思想——

嚴(yán)厲制止網(wǎng)絡(luò)上過度宣揚(yáng)“失業(yè)潮失業(yè)人數(shù)及躺平”等不良思想——

葉初七
2026-03-02 17:06:05
內(nèi)賈德,遇襲身亡

內(nèi)賈德,遇襲身亡

新華社
2026-03-01 22:13:51
3月1日起全國(guó)執(zhí)行!這些費(fèi)用全取消,家家都能省!

3月1日起全國(guó)執(zhí)行!這些費(fèi)用全取消,家家都能?。?/a>

達(dá)文西看世界
2026-03-02 15:40:41
福特艦抵達(dá)以色列,我國(guó)放出高清衛(wèi)星照,無F-35C

福特艦抵達(dá)以色列,我國(guó)放出高清衛(wèi)星照,無F-35C

世家寶
2026-02-27 20:52:56
新華時(shí)評(píng):當(dāng)炸彈落在校園,文明底線何在

新華時(shí)評(píng):當(dāng)炸彈落在校園,文明底線何在

澎湃新聞
2026-03-01 22:32:48
海瀾之家因“中標(biāo)后無正當(dāng)理由拒不簽訂合同”被暫停全軍采購(gòu)資格

海瀾之家因“中標(biāo)后無正當(dāng)理由拒不簽訂合同”被暫停全軍采購(gòu)資格

中國(guó)能源網(wǎng)
2026-03-02 11:36:01
560名美軍死傷,彈藥庫劇烈大爆炸,伊朗導(dǎo)彈雨把以色列炸成火海

560名美軍死傷,彈藥庫劇烈大爆炸,伊朗導(dǎo)彈雨把以色列炸成火海

策略述
2026-03-02 14:41:25
中國(guó)石油歷史上9次漲停

中國(guó)石油歷史上9次漲停

貝殼財(cái)經(jīng)
2026-03-02 15:43:25
對(duì)話鄭永年:斬首哈梅內(nèi)伊后,特朗普究竟想要什么?

對(duì)話鄭永年:斬首哈梅內(nèi)伊后,特朗普究竟想要什么?

大灣區(qū)評(píng)論
2026-03-01 21:23:33
上海影院現(xiàn)場(chǎng)意外捉奸,女子露面身材姣好,丈夫目睹后聲音都變了

上海影院現(xiàn)場(chǎng)意外捉奸,女子露面身材姣好,丈夫目睹后聲音都變了

離離言幾許
2026-03-02 12:52:58
打死我都不信,魏大勛沒有后悔過!

打死我都不信,魏大勛沒有后悔過!

喜歡歷史的阿繁
2026-03-02 20:40:20
一邊是內(nèi)奸害死了哈梅內(nèi)伊,一邊是美國(guó)人公開發(fā)特朗普的定位

一邊是內(nèi)奸害死了哈梅內(nèi)伊,一邊是美國(guó)人公開發(fā)特朗普的定位

林中木白
2026-03-02 11:06:13
2026-03-02 23:04:49
華爾街見聞官方 incentive-icons
華爾街見聞官方
中國(guó)領(lǐng)先的金融商業(yè)信息提供商
142332文章數(shù) 2652706關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

美記者詢問就伊朗局勢(shì)中方會(huì)采取什么行動(dòng) 外交部回應(yīng)

頭條要聞

美記者詢問就伊朗局勢(shì)中方會(huì)采取什么行動(dòng) 外交部回應(yīng)

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車要聞

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

家居
藝術(shù)
數(shù)碼
本地
公開課

家居要聞

萬物互聯(lián) 享科技福祉

藝術(shù)要聞

簡(jiǎn)約的風(fēng)景畫,美國(guó)畫家Ben Bauer作品

數(shù)碼要聞

安克250W六口桌面充首發(fā)849元:4C+2A 配2.26寸LCD屏

本地新聞

津南好·四時(shí)總相宜

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版