AIR學術｜芮勇：AI Agent 的九問——從大模型局限到未來智能的探索

2025-11-20 18:02:23　來源: 人工智能學家

北京舉報

分享至

11月17日，第47期AIR學術沙龍如期舉行。本期活動榮幸邀請到了伯克利前沿基金科技顧問芮勇博士，為清華師生帶來一場題為《AI Agent在現(xiàn)實世界的落地：從概念框架到實踐演化》的深度分享。

講者簡介

芮勇博士是全球產(chǎn)業(yè)界、科技界、學術界三棲領袖。是多家企業(yè)、大學、VC 的董事及顧問?，F(xiàn)任伯克利前沿基金科技顧問，是前聯(lián)想集團全球CTO，前微軟亞洲研究院常務副院長。他創(chuàng)建了聯(lián)想首個 AI 實驗室，領導15000名研發(fā)工程師，是聯(lián)想智能化轉型、端側智能體、智能制造、智能柔性設備、智能數(shù)據(jù)中心的技術領導者，助力聯(lián)想市值上漲三倍。他領導微軟總部及亞太的研發(fā)團隊，為微軟的數(shù)字媒體、必應搜索、視頻會議、Azure AI Services 的多媒體化和智能化做出了重要貢獻。他是歐洲科學院及加拿大工程院外籍院士，是 Fellow of ACM/IEEE/AAAS/IAPR/SPIE. 他是清華、北大、中科院客座教授，清華企業(yè)家協(xié)會成員。是全球多媒體期刊 IEEE Multimedia Magazine 首任華人主編。

報告內容

在人工智能快速演進的時代，我們越來越關心一個核心問題：AI Agent 如何真正走向現(xiàn)實世界，成為能夠“落地”的智能體？兩千多年前，屈原在《天問》中提出百余個問題，后人將其總結為“九問”。今天，我們站在人工智能第三次浪潮的中心，芮勇博士同樣以“九問”之名，向 AI Agent 的未來提出九個重要的問題。這九個問題將從大模型的局限性與 Agent 的必然性、從概念框架走向可落地的 Agent以及未來趨勢展望這三個方向展開。

大模型的局限性與Agent的必然性

要理解為什么 AI Agent會成為新的方向，就必須先認識大模型本身的局限。在人工智能這個詞誕生的69年里，人工智能經(jīng)歷了兩次寒冬，而每一次寒冬的核心原因都是無法在真實世界落地。現(xiàn)在大模型固然強大，產(chǎn)業(yè)化也在飛速發(fā)展，但仍存在多個關鍵問題。

首先便是理解能力不足，例如：讓現(xiàn)有最強的大模型讀取簡單的模擬時鐘，準確率只有 39%；讀日期，只有 23%。這種人類能輕松獲取的基礎能力上的短板，暴露出模型在“理解”層面上的結構性局限。其次是存在幻覺問題，大模型會自信地說錯。人類對于自己的不確定性是有意識的，而大模型則看似篤定地給出錯誤答案。最后是缺乏真正的認知能力，例如物理直覺、因果推理、結構化認知等。模型會“照貓畫虎”地套用過去的模式，卻未真正理解背后機制。

這些問題讓我們意識到：光靠一個大模型，不足以支撐真正的智能體。我們需要給它一些列外掛，包括自我認知（Self-awareness）、記憶系統(tǒng)（Memory）、任務分解（Decomposition）、計劃能力（Planning）、與環(huán)境互動的感知（Perception）和工具與知識庫的調度能力（Tool-use）。

Agent 的出現(xiàn)，正是為了解決這些“大模型做不到的問題”。

然而，擁有一個宏觀框架是不夠的，更重要的是：如何真正把 Agent 做出來？

接下來，芮勇博士將對AI Agent的落地和發(fā)展進行深刻思考，提出九個重要的問題。

第一問：控制論能否啟發(fā)AI Agent的設計？

芮勇博士首先提出“第一個問題”：控制論在過去半個多世紀取得巨大成功，其中的思維方式與體系結構，是否能夠啟發(fā)我們今天設計 AI Agents？

芮勇博士指出，控制論中的經(jīng)典框架包括：前置控制器（Controller），后置反饋系（Feedback）和被控對象（Plant），而這套結構與當前LLM Agent 架構之間存在高度相似性。

首先前饋控制器對應prompt優(yōu)化，讓大模型輸出更準確、更穩(wěn)定、更可控。例如在數(shù)學推理和具身智能的任務中，未加入前饋控制器的情況下，大模型直接接收任務，輸出質量往往不穩(wěn)定，出現(xiàn)遺漏步驟、產(chǎn)生偏差等問題。如果在前面加入一個可學習的小模型作為控制器，將任務自動分解成多個可執(zhí)行步驟，再將這些結構化信息喂給大模型，則正確率會顯著提升。

其次反饋機制在 AI Agent 中同樣極為關鍵，而且目前行業(yè)已經(jīng)出現(xiàn)明顯趨勢——由人類反饋（RLHF）向 AI 反饋（RLAIF）轉變。例如OpenAI 的CriticGPT，用 GPT-4 生成程序代碼，再用另一個 GPT-4 模型進行代碼審查。結果非常顯著，錯誤檢查效率提升 60%。系統(tǒng)形成了“模型糾模型”的自循環(huán)反饋，不再依賴大量人工注釋。

芮勇博士總結到，控制論思想正在重新啟發(fā) AI Agent 的結構設計。其中大模型是被控對象，小模型作為前饋控制器使系統(tǒng)更穩(wěn)定、更可控，反饋機制讓系統(tǒng)實現(xiàn)自我閉環(huán)?？刂普摰慕Y構與 Agent 架構高度一致，啟發(fā) AI Agent 的設計與實現(xiàn)。并且未來的 Agent 系統(tǒng)很可能沿著“前饋 + 反饋”的閉環(huán)路徑持續(xù)演化。

第二問：認知心理學能否啟發(fā)AI Agent設計？

接著，芮勇博士將關注點轉向了大模型的記憶（Memory）機制。芮勇博士指出，當今基于 Transformer 架構的大模型在本質上存在結構性限制，缺乏真正意義上的記憶系統(tǒng)。這與人類認知方式存在根本差異，也可能成為未來系統(tǒng)能力提升的瓶頸。從而芮勇博士提出第二個問題，認知心理學能否啟發(fā)AI Agent設計？

首先，在多輪對話與長鏈任務中，AI 系統(tǒng)依賴不斷增長的上下文序列進行推理，導致上下文窗口迅速膨脹，從而內存與算力消耗急劇上升，推理能力顯著下降。相比之下，人類會自動對大量冗余內容進行壓縮，將過去的對話或任務歸納成簡潔的要點，從而節(jié)省工作記憶資源。芮勇博士指出，將人類這種摘要式記憶機制應用于 Agent 的短期記憶，可以顯著降低計算負擔并提升長序列任務穩(wěn)定性。

接著芮勇博士指出，長期的記憶能夠讓Agent持續(xù)積累經(jīng)驗，使記憶不斷迭代優(yōu)化，體現(xiàn)出與人類學習方式高度相似的邏輯。芮勇博士以Reasoning Bank為例，說明Agent模擬人類長期記憶與工作記憶的相互作用。Reasoning Bank首先根據(jù)當前任務從長期記憶中提取最相關的內容，填充到工作記憶中。接著針對任務執(zhí)行情況進行結構化總結。這些結構化結果再被更新到長期記憶，從而實現(xiàn)類似人類“學習—固化—提取”的循環(huán)。

芮勇博士總結到，人類認知心理學關于記憶結構與記憶流動的研究，能夠為 AI Agent 的體系化設計提供關鍵啟發(fā)。無論是短期記憶的壓縮方式，還是短期與長期記憶之間的動態(tài)交互，都將是構建更智能、更可持續(xù)進化的 Agent 系統(tǒng)的核心方向。

第三問：計算機網(wǎng)絡能否啟發(fā)AI Agent的設計？

接著，芮勇博士指出，對于支持 AI Agent 運行的“工具”體系，無論是互聯(lián)網(wǎng)、工具庫、應用程序，還是知識庫，大模型本身都無法直接調用這些外部對象，必須借助外掛式的工具接口。但這些工具應當如何構建？這一問題可以從計算機網(wǎng)絡的設計中獲得啟發(fā)。

芮勇博士指出AI Agent 如今面臨與 1990 年代互聯(lián)網(wǎng)相同的瓶頸，即缺乏統(tǒng)一協(xié)議來訪問外部服務。芮勇博士認為，Meta 的 MCP、輕量級的 Skills 以及微軟的 NLWeb，正在構建類似“Agent 時代的 HTTP”的基礎通信層，使傳統(tǒng)服務重新對大模型可訪問，并可能像 Mosaic 之于互聯(lián)網(wǎng)一樣，推動 Agent 生態(tài)產(chǎn)生爆發(fā)式發(fā)展。

上述三個關于科學理論如何啟發(fā)AI Agent設計的問題，芮勇博士都為我們指明了答案，其中控制論幫助解決任務分解與系統(tǒng)穩(wěn)定性；認知心理學幫助設計短期與長期記憶機制；計算機網(wǎng)絡理論提供 Agent 訪問外部工具的基礎設施，推動生態(tài)爆發(fā)。

接下來芮勇博士繼續(xù)為AI Agent的開放性問題和未來發(fā)展提出深刻的思考和見解。

第四問：語言生成是否能達到人類水平的推理能力？

從 1943 年最早的神經(jīng)元模型開始，人們逐步發(fā)展出人工神經(jīng)網(wǎng)絡與深度學習體系。基于這一視角，芮勇博士指出一個耐人尋味的現(xiàn)象，人類大腦的新皮層中負責語言的區(qū)域，與負責推理的區(qū)域是分離的。但現(xiàn)代大模型僅通過預測下一 token的語言建模方式訓練，卻意外表現(xiàn)出一定程度的推理與思考能力。這就引出了第四個問題：僅依靠語言生成的訓練范式，是否可能通向類人級推理？這一路徑是否科學可行？

芮勇博士引用 MIT 的腦區(qū)激活實驗指出，人在進行語言表達、邏輯推理、社會推理時分別激活大腦中完全不同的區(qū)域。這些區(qū)塊功能高度區(qū)分，說明語言與推理在人類生理上并沒有共用的基礎機制。相比之下，大模型卻試圖依托“語言區(qū)域的模擬”（即純語言建模）去實現(xiàn)推理功能，這在生物學意義上顯得不合常理。因此，芮勇博士強調：我們仍無法確定這條路徑是否能走通，語言生成是否能真正導向人類級推理仍是一個未解之謎。

第五問：LLM和人類是否以同樣方式壓縮信息？

接著芮勇博士指出，在信息論框架下，一個流行觀點認為“智能本質上就是信息壓縮”。如果能以恰當方式壓縮世界的信息，智能便隨之涌現(xiàn)。于是芮勇博士提出第五個問題：大模型的壓縮方式是否與人類大腦的壓縮方式一致？

芮勇博士引用近期Yann LeCun的研究工作，提出有關“大模型壓縮對比人類大腦壓縮”的三條重要觀察。首先，外部分類高度相似，大模型在壓縮后形成的語義聚類與人類定義的概念類別有超過 90% 的一致性。其次，內部表征顯著不同，雖然分類類似，但大模型內部的表征結構與人類認知機制在細節(jié)層面存在巨大差異。最后，大模型壓縮效率更強但未必認知更優(yōu)，大模型的壓縮在信噪比方面甚至優(yōu)于人類，但這種壓縮方式可能并非最符合認知規(guī)律。

因此，芮勇博士強調。如果大模型的壓縮與人類截然不同，我們是否仍然走在通向真正智能的正確道路上？

第六問：統(tǒng)計學習是否實現(xiàn)真正的理解？

第六個問題聚焦于統(tǒng)計學習能否真正產(chǎn)生“理解”。芮勇博士指出，人類只需要極少的樣本就能形成概念（例如小孩看三只貓就能認識“貓”），而機器學習尤其是深度學習往往需要百萬級示例才能完成同樣任務。基于這種學習方式的根本差異，芮勇博士提出疑問：大模型依賴統(tǒng)計學習的范式，真的能達到真正的理解嗎？這一點目前仍然沒有答案。

第七問：LLM的Scaling Law能走多遠？

第七個問題圍繞依賴 Scaling Law 的AI能走多遠。芮勇博士指出，深度學習的發(fā)展歷程從 FCN、CNN、RNN、LSTM 到 Transformer，一路都依賴不斷設計更好的結構，因此形成了第一類觀點：繼續(xù)優(yōu)化結構、尋找更合適的拓撲，是性能提升的關鍵。但另一類觀點認為：許多結構是因過去算力與數(shù)據(jù)不足被迫設計的“捷徑”；在數(shù)據(jù)與算力足夠大時，反而是更少結構、更自由的超大模型能在規(guī)模極致后超越復雜結構。問題的核心在于：未來智能的突破究竟來自結構工程，還是來自無結構模型在極端規(guī)模下的自我涌現(xiàn)？

第八問：預訓練對于快速演化是否必要？

芮勇博士的第八個問題討論經(jīng)驗學習和進化。以圖靈獎得主 Richard Sutton 為代表的一派認為人類是“無預訓練”的，完全依靠 on-the-fly 學習，因此大模型依賴大規(guī)模預訓練是根本錯誤的方向。以 Andrej Karpathy 為代表的另一派則認為人類其實擁有經(jīng)過數(shù)百萬年進化而積累的“DNA 預訓練”，而AI沒有這段漫長的演化，因此預訓練反而是必要的“快速演化捷徑”。由此芮勇博士總結到：預訓練在沒有演化時間的情況下可能是必須的，但遠遠不夠，持續(xù)學習仍然是不可替代的關鍵環(huán)節(jié)。

第九問：AGI是否需要新的架構？

最后，芮勇博士提出了“理論完備性”的終極發(fā)問：當下的大模型范式究竟只是需要若干關鍵突破與局部增強（如 memory、tool use、task decomposition）的“可修補體系”，還是像 Hinton 所說那樣在根本上走向瓶頸、必須被徹底重建？與 Hassabis 認為“或許只差一兩次突破”即可抵達 AGI 的樂觀態(tài)度形成鮮明對比，這個問題直指 AI 研究的根基——我們是在完善一座已成型的大廈，還是在面對一個需要重新設計的結構？芮勇博士坦言，答案目前無人知曉，這正是未來最值得探討的不確定性。

最后，芮勇博士總結到，回到這九個問題本身，它們其實構成了一個從實踐到趨勢、再到前沿思辨的完整結構。前三個問題給出了可落地的方法論，中間三個問題帶來了值得持續(xù)觀察的趨勢，而最后三個問題更是尚無定論的開放探索。也正因為未知，我們才不斷走向研究的邊界。

在這九個問題里，我們既看到 AI Agent發(fā)展的清晰路徑，也看到通往未來的巨大不確定性；而正是這些確定與未知，共同構成了當下最迷人的時代命題。

點擊查看完整講座視頻

AIR長期招聘人工智能領域優(yōu)秀科研人員

點這里關注我們

關于AIR

清華大學智能產(chǎn)業(yè)研究院（Institute for AI Industry Research, Tsinghua University，英文簡稱AIR，THU）是面向第四次工業(yè)革命的國際化、智能化、產(chǎn)業(yè)化的校級研究機構。AIR的使命是利用人工智能技術賦能產(chǎn)業(yè)升級、推動社會進步。通過大學與企業(yè)創(chuàng)新雙引擎，突破人工智能核心技術，培養(yǎng)智能產(chǎn)業(yè)領軍人才，推動智能產(chǎn)業(yè)跨越式發(fā)展。

AIR于2020年由多媒體及人工智能領域的世界級科學家、企業(yè)家張亞勤院士創(chuàng)建。

智慧交通（AI＋Transportation）、智慧物聯(lián)（AI＋IoT）、智慧醫(yī)療（AI＋Life Science）是清華大學智能產(chǎn)業(yè)研究院的三個重點研發(fā)方向。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.