網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

對(duì)話螞蟻 AWorld 莊晨熠：Workflow 不是“偽智能體”，而是 Agent 的里程碑

2025-10-28 14:43:24　來(lái)源: AI科技大本營(yíng)

北京舉報(bào)

分享至

AI 正陷入“應(yīng)試狂熱”，真正的智能體必須走出考場(chǎng)。

作者 | 王啟隆

出品 | AI 科技大本營(yíng)（ID：rgznai100）

“我覺(jué)得也差不多�！�

當(dāng)被問(wèn)及“IMO 2026 年可能是人類最后一次有機(jī)會(huì)戰(zhàn)勝 AI”這個(gè)預(yù)言時(shí)，螞蟻集團(tuán) AWorld 算法負(fù)責(zé)人莊晨熠博士的回答平靜而迅速，不帶一絲猶豫。

“因?yàn)楝F(xiàn)在 AI 跟人類水平是持平的，”他解釋道，“今年 25 年的 IMO 是六道題，人類跟 AI 基本上都能答對(duì)前五道，第六道誰(shuí)都答不對(duì)。但是很有可能明年 26 年就是 AI 超過(guò)人類的時(shí)候，因?yàn)榈诹李}可能 AI 很快就能答對(duì)。”

的采訪間里，北京正值寒露，但空氣中卻彌漫著 AI 行業(yè)特有的燥熱與亢奮。在 2025 年無(wú)數(shù)涌現(xiàn)的熱詞里，AI Agent（智能體）無(wú)疑是聚光燈下最耀眼的明星，它向世界承諾了一個(gè)近乎科幻的未來(lái)——AI 將不再是簡(jiǎn)單的工具，而是能夠?yàn)槲覀冏灾鞴ぷ鞯幕锇椤５谶@條通往未來(lái)的路上，巨大的光環(huán)之下，是同樣巨大的陰影。

行業(yè)里一種聲音愈發(fā)響亮，帶著審視與懷疑：Agent 賽道存在巨大的泡沫。 太多打著 Agent 旗號(hào)的產(chǎn)品，其內(nèi)核不過(guò)是將傳統(tǒng)的工作流（Workflow）自動(dòng)化腳本，包裝上一個(gè)時(shí)髦的外殼，進(jìn)行著一場(chǎng)心照不宣的“智能體洗白”（Agent Washing）。

用戶滿懷著對(duì)智能未來(lái)的期待而來(lái)，體驗(yàn)一次后，發(fā)現(xiàn)其內(nèi)核與十幾年前的 RPA（機(jī)器人流程自動(dòng)化）并無(wú)本質(zhì)區(qū)別，于是迅速流失，留下一地雞毛。

我和莊晨熠的對(duì)話也從這個(gè)尖銳的話題開(kāi)始。

“這是一個(gè)很好的問(wèn)題�！� 他頓了頓，似乎在組織一場(chǎng)更深層次的辯護(hù)，不僅是為 AWorld，也是為整個(gè) Agent 賽道。

“我想引用微軟 CEO 的一句話，他覺(jué)得大模型當(dāng)前刷的榜單，不論是數(shù)學(xué)、代碼，還是一些工具的使用等，都更像是一種考試的邏輯。”

這番話切中了當(dāng)前 AI 發(fā)展的要害。整個(gè)行業(yè)似乎都陷入了一種“應(yīng)試教育”的狂熱，大家都在追求一個(gè)個(gè)漂亮的“分?jǐn)?shù)”，卻可能忽略了技術(shù)真正的價(jià)值所在。

“智能體為什么這么火？我覺(jué)得有其本質(zhì)原因。因?yàn)榇蠹蚁Ｍ?AI 不是一個(gè)泡沫，而是真的能改變我們生活周邊或日常中的一些事情，無(wú)論是提高辦公效率，還是讓認(rèn)知提升更快，比如在教育、科普等方面。在 AI 到應(yīng)用的這個(gè)過(guò)程中，大家似乎都一致地選擇了智能體這個(gè)技術(shù)賽道，所以智能體才會(huì)這么火。”

在莊晨熠看來(lái)，Agent 的火爆，源于一種集體的、深沉的渴望——渴望 AI 能夠走出實(shí)驗(yàn)室，走出排行榜，真正作用于現(xiàn)實(shí)世界，去提升類似 GDP 這樣的宏觀指標(biāo)，而不是僅僅為了贏得一場(chǎng)又一場(chǎng)的“代碼競(jìng)賽”或“數(shù)學(xué)考試”。這是一種對(duì)“實(shí)干”的呼喚。

那么，又該如何回應(yīng)那個(gè)最核心的質(zhì)疑：Agent 是不是 Workflow 的“套殼”？這是所有從業(yè)者都無(wú)法繞開(kāi)的靈魂拷問(wèn)。

“我們覺(jué)得智能體本身是不是一個(gè)有很厚技術(shù)壁壘的賽道？這包括它跟 workflow 之間的關(guān)系。這個(gè)我可以稍微展開(kāi)一下�！�

他沒(méi)有直接給出“是”或“否”的簡(jiǎn)單答案，而是選擇從歷史的演進(jìn)中尋找答案�！耙郧拔覀�?cè)诠纠镒鲋悄苤�，在大模型出現(xiàn)之前，它也是一個(gè)聊天系統(tǒng)。智能助理背后其實(shí)也是無(wú)數(shù)的 workflow，你可以認(rèn)為它是一個(gè) graph。什么樣的問(wèn)題應(yīng)該如何回答，這是偏規(guī)則性的、靜態(tài)的。但是，這種我們稱之為編排的 graph，到一定程度后就無(wú)法維護(hù)了。 因?yàn)樗刑嗟囊?guī)則，再增加一條，就很有可能影響其他規(guī)則，導(dǎo)致那些 if-else 或代碼無(wú)法維護(hù)�！�

大模型的出現(xiàn)，成了一個(gè)真正的分水嶺。它用強(qiáng)大的、基于概率的語(yǔ)義理解能力，替代了過(guò)去需要工程師一行行手寫的、脆弱不堪的僵化規(guī)則。這是一種根本性的解放。

“Agent 這邊也是一樣。像現(xiàn)在比較火的 LangChain、N8N 等框架，它們還是主打 workflow。但我認(rèn)為 workflow 是智能體前期一個(gè)成熟的技術(shù)階段，它是一個(gè)里程碑（milestone）。 不是說(shuō) workflow 就不是智能體，但智能體一定會(huì)在 workflow 的基礎(chǔ)上繼續(xù)往下發(fā)展�！�

這是一個(gè)極其重要的論斷。莊晨熠并不認(rèn)為 Workflow 是 Agent 的對(duì)立面，或者是一種“偽裝”。恰恰相反，他將其視為通往真正智能體的必經(jīng)之路，是一個(gè)堅(jiān)實(shí)、可靠、且在當(dāng)前階段不可或缺的里程碑。將兩者對(duì)立起來(lái)，是一種非黑即白的誤讀。

真正的分野在于，發(fā)展的終極方向是什么。

“過(guò)去是用戶提前定義好 SOP（標(biāo)準(zhǔn)作業(yè)程序）：寫代碼前要先做需求分析，然后做設(shè)計(jì)，再寫一個(gè)類，最后實(shí)現(xiàn)類里的方法。這是人類做事的方式，也是 workflow 比較魯棒、易于落地的方式。但未來(lái)是結(jié)果導(dǎo)向的：你能做得好，那就是好；如果做得不好，過(guò)程再 SOP、再標(biāo)準(zhǔn)化也沒(méi)有意義。 所以它應(yīng)該是一個(gè)循序漸進(jìn)的過(guò)程。”

從遵循固定的“標(biāo)準(zhǔn)作業(yè)程序”，到追求最終的“結(jié)果導(dǎo)向”，這正是莊晨熠眼中，Agent 所帶來(lái)的真正革命性的轉(zhuǎn)變。它要求智能體不再是一個(gè)只會(huì)按圖索驥的木偶，而是一個(gè)能夠自主判斷、動(dòng)態(tài)調(diào)整、甚至在必要時(shí)打破規(guī)則的生命體。

從這一刻開(kāi)始，我們的對(duì)話從概念的邊界轉(zhuǎn)向?qū)嵺`的深水區(qū)。

一場(chǎng)關(guān)于“彎道超車”的豪賭

當(dāng)行業(yè)的巨頭們?cè)凇熬毚竽Ｐ汀钡能妭涓?jìng)賽中不斷加碼，將海量的電力與資本投入到無(wú)盡的參數(shù)競(jìng)賽中，追求著更高的 Scaling Law 時(shí)，一條不同的、更安靜的聲音開(kāi)始出現(xiàn)。

“我前有一次去上海人工智能學(xué)院，跟政府里面的人聊到這個(gè)話題。其實(shí)從政府或者國(guó)家層面，他們是想在大模型這個(gè)領(lǐng)域彎道超車的。以及有一些教授專家，他們會(huì)覺(jué)得大模型的軍備競(jìng)賽有點(diǎn)太浪費(fèi)資源。”莊晨熠坦言，這種反思的聲音，并非少數(shù)。

問(wèn)題是，不參與這場(chǎng)近乎殘酷的“軍備競(jìng)賽”，還有別的路可走嗎？

AWorld 團(tuán)隊(duì)所走的“群體智能”路線，正被一部分人視為這樣一次“彎道超車”的嘗試。其核心思想并非去構(gòu)建一個(gè)無(wú)所不能的、巨大的“通天塔”模型，而是通過(guò)構(gòu)建一個(gè)高效的協(xié)同框架，讓多個(gè)相對(duì)“小”的智能體（背后可能是中等規(guī)模的大模型）協(xié)同工作，像一個(gè)配合默契的專家團(tuán)隊(duì)，去完成一個(gè)“巨無(wú)霸”模型也難以獨(dú)立完成的復(fù)雜任務(wù)。

這聽(tīng)起來(lái)像是一個(gè)完美的非對(duì)稱戰(zhàn)略。如果這個(gè)理論成立，那是否意味著我們應(yīng)該把資源更多地投入到如何“組織模型”，而非“訓(xùn)練更大的模型”上？

莊晨熠并不認(rèn)為這是一個(gè)非此即彼的、需要站隊(duì)的選擇。他的思考更為辯證。

“在我看來(lái)，它們應(yīng)該是一個(gè)相輔相成的關(guān)系。 這里的本質(zhì)是，群體智能背后也是一個(gè)一個(gè)的大模型。那么就變成了說(shuō)，哪些應(yīng)該由群體智能來(lái)做，哪些最終應(yīng)該還是放到模型里面？”

為了闡述這兩者之間微妙而深刻的共生關(guān)系，他描繪了一個(gè)極富想象力的場(chǎng)景。

“群體智能很有可能能完成一個(gè)操作系統(tǒng)的開(kāi)發(fā)，比如說(shuō)它能開(kāi)發(fā)出一個(gè) Linux。一個(gè)非常復(fù)雜的系統(tǒng)，可能要跑一個(gè)月甚至半年時(shí)間，它把這個(gè)操作系統(tǒng)開(kāi)發(fā)出來(lái)了。開(kāi)發(fā)出來(lái)之后，它里面會(huì)沉淀很多的數(shù)據(jù)。那么這些數(shù)據(jù)到底對(duì)大模型有沒(méi)有用？哪些應(yīng)該放到大模型里面，哪些應(yīng)該還是通過(guò)群體智能或者復(fù)雜系統(tǒng)去做？這是一個(gè)很有意思的課題。”

在這個(gè)宏大的設(shè)想中，群體智能系統(tǒng)扮演了一個(gè)前所未有的角色：它不再是單純的數(shù)據(jù)消費(fèi)者，而是一個(gè)高度復(fù)雜的“數(shù)據(jù)工廠”。它通過(guò)解決真實(shí)世界中極其復(fù)雜的問(wèn)題（如開(kāi)發(fā)操作系統(tǒng)），生產(chǎn)出傳統(tǒng)方法（如爬取網(wǎng)頁(yè)）難以獲得的高質(zhì)量、帶過(guò)程邏輯、充滿因果鏈條的數(shù)據(jù)。

這些數(shù)據(jù)，反過(guò)來(lái)又可以“喂養(yǎng)”基礎(chǔ)大模型，讓其基礎(chǔ)能力變得更強(qiáng)，擁有更深刻的邏輯推理能力。

而一個(gè)更強(qiáng)的大模型，又會(huì)讓群體智能系統(tǒng)中的每一個(gè)智能體變得更聰明，從而能挑戰(zhàn)更艱巨的任務(wù)，生產(chǎn)出更高質(zhì)量的數(shù)據(jù)。

“所以雖然大家技術(shù)賽道可能會(huì)分叉，但是我覺(jué)得它是個(gè)螺旋上升的過(guò)程。我復(fù)雜系統(tǒng)做好的東西是不是可以給大模型借鑒，大模型做好了是不是又可以幫我的復(fù)雜系統(tǒng)做提升，大概是這么一個(gè)螺旋的關(guān)系。”

這種“螺旋上升”的哲學(xué)觀，也體現(xiàn)在他對(duì)通用智能體與基礎(chǔ)模型關(guān)系的判斷上。當(dāng)被問(wèn)及 OpenAI、Google 這樣的基礎(chǔ)模型廠商是否在不斷壓縮 Agent 團(tuán)隊(duì)的生存空間時(shí)，他的回答再次出人意料。

“我自己的答案也比較明確，我覺(jué)得通用 Agent，也就是 AWorld 在做的事情，跟基礎(chǔ)模型其實(shí)邊界是相對(duì)模糊的。”

許多人將 Agent 創(chuàng)業(yè)看作是純粹的應(yīng)用層開(kāi)發(fā)，是“模型有了，我們做個(gè)殼”的生意。但莊晨熠的日常工作，卻徹底顛覆了這種淺層的認(rèn)知�！�我自己平時(shí)日常里做得最多的事情其實(shí)還是訓(xùn)練。 可能大家會(huì)覺(jué)得做智能體有很多工程上的事情，會(huì)有一些上下文管理，或者現(xiàn)在比較火的詞叫‘上下文工程’。但是我覺(jué)得更本質(zhì)的還是要訓(xùn)練一個(gè)模型。你可能可以不做 pre-train，但是 post-train 還是需要做的�！�

他認(rèn)為，基礎(chǔ)模型能力的提升，對(duì)于智能體是天大的好事，絕非威脅。而 Agent 團(tuán)隊(duì)的核心價(jià)值，在于走完從技術(shù)到價(jià)值的、最艱難的“最后一公里”。

“真的讓模型在一個(gè)場(chǎng)景里有用戶愿意來(lái)用，或者有客戶愿意為你掏錢，這應(yīng)該是智能體技術(shù)需要去做的事情，包括工程和訓(xùn)練�！�

模型的能力是必要條件，它決定了天花板的絕對(duì)高度。而 Agent 框架和群體智能系統(tǒng)，則是在想方設(shè)法地去逼近，甚至在特定任務(wù)上，通過(guò)巧妙的協(xié)同，暫時(shí)性地“突破”這個(gè)天花板。

“就像我們做強(qiáng)化學(xué)習(xí)時(shí)，冷啟動(dòng)的 policy model 能力一定要足夠強(qiáng)，”他再次強(qiáng)調(diào)模型的基礎(chǔ)性，“有了強(qiáng)的模型能力之后，你怎么樣去設(shè)計(jì)這個(gè)復(fù)雜系統(tǒng)？如果不設(shè)計(jì)這個(gè)系統(tǒng)，你有可能只能答對(duì)三道題；設(shè)計(jì)了這個(gè)系統(tǒng)，你就能答對(duì)五道題。 那這個(gè)系統(tǒng)本身，或者說(shuō)我們叫上下文工程，還是有貢獻(xiàn)的。所以今天應(yīng)該是個(gè)相輔相成的關(guān)系。”

當(dāng)機(jī)器學(xué)會(huì)“繞路”

理論的闡述總是顯得有些蒼白，一個(gè)生動(dòng)的故事，往往更能揭示革命的本質(zhì)。

在 AWorld 團(tuán)隊(duì)使用其框架挑戰(zhàn) GAIA（一個(gè)以復(fù)雜、多步驟、跨應(yīng)用操作著稱的通用 AI 評(píng)測(cè)基準(zhǔn)）時(shí)，發(fā)生了一件讓所有參與者都印象深刻的事。這個(gè)故事，或許是區(qū)分一個(gè)“真 Agent”和一個(gè)“偽 Agent”的最佳試金石。

“不管是 workflow 也好，還是動(dòng)態(tài)的智能體自己編排也好，都離不開(kāi)使用工具，”莊晨熠開(kāi)始娓娓道來(lái)，將我們帶回那個(gè)具體的測(cè)試場(chǎng)景，“工具的服務(wù)本身有可能有一定概率是失敗的，這個(gè)是一定要承認(rèn)的。比如這個(gè)工具本身需要花錢，你突然間預(yù)算用完了，不管怎么調(diào)用它都是失敗的。如果是 workflow，你會(huì)發(fā)現(xiàn)就失敗了，這個(gè)節(jié)點(diǎn)永遠(yuǎn)跑不過(guò)去。”

這是傳統(tǒng)自動(dòng)化流程與生俱來(lái)的脆弱性。它像一列在固定軌道上行駛的火車，任何一處鐵軌的損壞，都會(huì)導(dǎo)致整趟旅程的徹底失敗。它沒(méi)有備用路線，沒(méi)有繞行的能力。

“但我們自己拿 AWorld 構(gòu)建的智能體去動(dòng)態(tài)跑的時(shí)候，會(huì)發(fā)現(xiàn)這個(gè)工具返回失敗之后，它會(huì)繞過(guò)去。”

當(dāng)時(shí)，智能體需要調(diào)用一個(gè)外部的 PDF 解析工具來(lái)讀取一個(gè)關(guān)鍵文件的內(nèi)容，但那個(gè)工具因?yàn)榫W(wǎng)絡(luò)、權(quán)限或其他未知原因，調(diào)用失敗了。按照傳統(tǒng)劇本，任務(wù)應(yīng)該就此中斷，并向用戶拋出一個(gè)冰冷的錯(cuò)誤報(bào)告。但接下來(lái)發(fā)生的事情，讓在場(chǎng)的工程師們真實(shí)地看到了“智能”的火花。

“它會(huì)自己去寫 Python 代碼。”莊晨熠回憶道，語(yǔ)氣中帶著一絲興奮，“它會(huì)想，那個(gè)工具用不了了，那要不自己寫一個(gè)，自己去裝一個(gè)叫 PYPDF 的包來(lái)處理。你會(huì)發(fā)現(xiàn)它有一定的智能可以繞過(guò)那個(gè)失敗的節(jié)點(diǎn)。”

這個(gè)“繞路”行為，看似只是一個(gè)小小的技術(shù)細(xì)節(jié)，背后卻是一次認(rèn)知上的巨大飛躍。它意味著系統(tǒng)不再是僵化的、需要人類預(yù)設(shè)所有異常情況的指令執(zhí)行者，而是具備了初步的自主診斷、問(wèn)題分析和尋找替代方案的能力。這正是動(dòng)態(tài)智能體與靜態(tài)工作流最核心、最本質(zhì)的區(qū)別。

這個(gè)生動(dòng)的故事也引出了一個(gè)更深層的問(wèn)題：智能體與我們這個(gè)紛繁復(fù)雜的真實(shí)世界，究竟應(yīng)該如何交互？為什么它不直接使用像 Microsoft Word 或 Adobe Acrobat 這樣成熟的人類工具，而非要自己“造輪子”去寫代碼？

“這是個(gè)好問(wèn)題，也是我被問(wèn)了兩年的問(wèn)題�！�

莊晨熠顯然對(duì)這個(gè)問(wèn)題有過(guò)長(zhǎng)期的思考，他系統(tǒng)地總結(jié)了智能體影響真實(shí)世界的三種經(jīng)典介質(zhì)。

第一種介質(zhì)是“人”�！拔沂且粋€(gè)智能體，我打電話給你，你是披薩店的店員。我是通過(guò)自然語(yǔ)言跟你聊，然后你操作那個(gè)系統(tǒng)幫我把披薩下單并送過(guò)來(lái)，那么介質(zhì)就是人。”這是一種間接的交互，智能體通過(guò)說(shuō)服和溝通，讓人類成為其在物理世界的“執(zhí)行器”。

第二種介質(zhì)是“API”。這是目前最主流、最成熟的方式，幾乎所有的 Agent 框架都在大量使用�！暗木窒扌砸埠苊黠@，”莊晨熠指出，“API 在一定程度上很垂直，你很依賴寫那個(gè) API 的公司或個(gè)人。它的參數(shù)一旦改了，你也得跟著適配�！边@使得基于 API 的 Agent 系統(tǒng)非常脆弱，并且難以泛化到新的、沒(méi)有提供 API 的應(yīng)用上。

第三種介質(zhì)，也是莊晨熠認(rèn)為未來(lái)潛力最大、最具想象空間的，是“GUI”，即圖形用戶界面。“像桌面環(huán)境，或者你剛剛講的 Word、Office 其他的一些軟件，它提供給用戶的是一套圖形界面……GUI 其實(shí)更像是一套人類自然語(yǔ)言 plus 符號(hào)語(yǔ)言，我怎么知道‘確定’那個(gè)按鈕就代表這個(gè)意思，它背后是有語(yǔ)義在里面的，更像是一套符號(hào)。既然自然語(yǔ)言可以建模得這么絲滑，那符號(hào)語(yǔ)言是不是也可以建模得這么絲滑？”

他個(gè)人判斷，GUI 的泛化性和可擴(kuò)展性是最高的，因?yàn)樗M的是人類使用計(jì)算機(jī)的自然方式。這也是“Computer Use”（計(jì)算機(jī)使用）這個(gè)概念在學(xué)術(shù)界和產(chǎn)業(yè)界都如此火熱的根本原因。

但他也坦誠(chéng)，這條路的實(shí)現(xiàn)難度同樣是最高的。

“難度也比較高，”他簡(jiǎn)單地補(bǔ)充了一句。

在通往 GUI 這個(gè)終極形態(tài)的漫漫長(zhǎng)路上，行業(yè)需要建立標(biāo)準(zhǔn)和協(xié)議來(lái)讓不同的智能體之間能夠溝通和協(xié)作。但無(wú)論是目前流行的 MCP（Model-Controller-Plugin）還是 A2A（Agent-to-Agent），莊晨熠都認(rèn)為它們還不是最終形態(tài)。

“協(xié)議還會(huì)再變化，不會(huì)就一直是 MCP 或者 A2A，”他說(shuō)，“這是一個(gè)技術(shù)上的思考。另外從生態(tài)上來(lái)說(shuō)，如果大家都認(rèn)可了這個(gè)協(xié)議，它有可能就會(huì)成為一個(gè)標(biāo)準(zhǔn)。這個(gè)是很難預(yù)測(cè)的，有可能是些大公司振臂一呼，很多人就 follow……另外一種是它確實(shí)好用，那它有可能形成一個(gè)生態(tài)，就會(huì)比較穩(wěn)定�！�

開(kāi)源是技術(shù)人的名片

莊晨熠與“智能體”的結(jié)緣，并非始于大模型的浪潮，而是始于一場(chǎng)關(guān)于生與死的計(jì)算機(jī)模擬。

他博士期間的研究方向是圖卷積（Graph Convolutional Networks），一個(gè)純粹的、偏理論的算法領(lǐng)域。畢業(yè)后，他在日本國(guó)立研究所工作的一年，這段看似與主流 AI 敘事有些偏離的經(jīng)歷，卻無(wú)意中為他日后的職業(yè)生涯埋下了最關(guān)鍵的伏筆。

“日本是一個(gè)災(zāi)難特別多的國(guó)家，比如海嘯、地震。”他回憶道，“當(dāng)時(shí)我在他們的國(guó)立研究所里面做的一個(gè)課題是，當(dāng)災(zāi)難發(fā)生后，一個(gè)車站要怎么去快速疏散乘客，避免踩踏，或者疏散不完導(dǎo)致生命危險(xiǎn)等。它其實(shí)是個(gè)防災(zāi)的課題�！�

在這個(gè)聽(tīng)起來(lái)更像是“城市應(yīng)急管理”或“數(shù)字孿生”的項(xiàng)目里，他第一次真正意義上接觸到了 Agent 的概念，盡管那是傳統(tǒng)意義上的、基于規(guī)則的 Agent。

“這里面我們會(huì)把所有的乘客和內(nèi)部的人員模擬成智能體（Agent），但跟現(xiàn)在的智能體概念不太一樣。然后我們?nèi)ソo他們?cè)O(shè)計(jì)全局最優(yōu)的疏散路線。我們會(huì)假設(shè)有些通道可以同時(shí)通過(guò)兩個(gè)人，有些可能只能通過(guò)一個(gè)人等等。這個(gè)又涉及到 graph 的一些事情，所以本身跟我博士課題也比較相關(guān)�！�

從模擬災(zāi)難中倉(cāng)皇求生的人群，到編排數(shù)字世界里協(xié)同工作的 AI，這兩者之間，看似風(fēng)馬牛不相及，但內(nèi)里的哲學(xué)卻有一種奇妙的共通之處。它們的核心，都是關(guān)于如何理解和組織“群體行為”，如何通過(guò)對(duì)微觀個(gè)體的建模和引導(dǎo)，來(lái)達(dá)成一個(gè)宏觀的、復(fù)雜系統(tǒng)的最優(yōu)目標(biāo)。

這段獨(dú)特的經(jīng)歷，或許在他內(nèi)心深處種下了一顆“群體智能”的種子。當(dāng)他后來(lái)加入螞蟻集團(tuán)，正式投身于大模型落地應(yīng)用時(shí)，智能體這條賽道，對(duì)他而言，幾乎是一種宿命般的、自然而然的選擇。

在技術(shù)浪潮以天為單位進(jìn)行迭代的今天，如何保持領(lǐng)先？

莊晨熠的方法論聽(tīng)起來(lái)簡(jiǎn)單而純粹：做開(kāi)源。

“螞蟻的開(kāi)源，我覺(jué)得是寫在血液里面的�！彼紫葘⑵錃w因于一種根深蒂固的企業(yè)文化，“這是第一點(diǎn)，我們自己?jiǎn)T工不太會(huì)去思考要不要開(kāi)源。包括我們寫論文，一般也會(huì)把代碼或者數(shù)據(jù)開(kāi)源出來(lái)，這是一個(gè)企業(yè)文化的事情。”

但更重要的，是他作為一個(gè)一線技術(shù)人，對(duì)開(kāi)源價(jià)值的切身體會(huì)和堅(jiān)定信仰。他親眼見(jiàn)證了開(kāi)源社區(qū)是如何在短短兩年之內(nèi)，將與閉源頂尖模型的差距從“望塵莫及”的恐慌，追趕到今天以“月”為單位計(jì)算的并駕齊驅(qū)。

“這個(gè)其實(shí)就是開(kāi)源的力量。你有些技術(shù)拿在自己手里的時(shí)候，可能會(huì)覺(jué)得別人一定是追不上的。但是集體的智慧，又回到了那個(gè)群體智能的邏輯，我覺(jué)得集體的智慧還是能加速 AI 的發(fā)展。 因?yàn)?AI 還不是一個(gè)很收斂的場(chǎng)景，需要大家群策群力�！�

對(duì)于一個(gè) Agent 開(kāi)源框架，社區(qū)最寶貴的貢獻(xiàn)是什么？是更多的工具、更多的測(cè)試集，還是天馬行空的腦洞？他的答案都不是。

“我覺(jué)得它更需要貢獻(xiàn)的是一些認(rèn)知上的東西。”

這是一個(gè)深刻的洞察。他認(rèn)為，代碼本身，一個(gè)優(yōu)秀的工程團(tuán)隊(duì)總能實(shí)現(xiàn)，盡管過(guò)程會(huì)很艱難�！暗情_(kāi)源里面更核心的一點(diǎn)是說(shuō)，你要把認(rèn)知給傳達(dá)出來(lái)。一是讓別人去檢驗(yàn)?zāi)愕恼J(rèn)知到底對(duì)不對(duì)，或者是不是最先進(jìn)的那一波。其次是你的認(rèn)知也可以給別人一些提示或者信號(hào)。那么他們?cè)覆辉敢?follow，或者在你的認(rèn)知之上能不能做出更優(yōu)秀、更超前的一些認(rèn)知或技術(shù)產(chǎn)品，這時(shí)你就會(huì)發(fā)現(xiàn)開(kāi)源非常有意義。所以我認(rèn)為它不是單純的代碼，代碼背后的思考是非常重要的。”

代碼是思想的載體，而開(kāi)源，就是將代碼背后的設(shè)計(jì)哲學(xué)、技術(shù)判斷和對(duì)未來(lái)的洞見(jiàn)，毫無(wú)保留地公之于眾，接受整個(gè)世界的檢驗(yàn)、批評(píng)與共創(chuàng)。

這種開(kāi)放的心態(tài)，也徹底改變了他與全球頂尖開(kāi)發(fā)者的交流方式。

“做開(kāi)源就是一個(gè)非常好的點(diǎn)。你會(huì)發(fā)現(xiàn)很多公司，無(wú)論是創(chuàng)業(yè)公司還是大公司，很多項(xiàng)目是基于開(kāi)源項(xiàng)目二次開(kāi)發(fā)的。” 莊晨熠提到了 OpenManus 的 00 后創(chuàng)始人，正是我們此前在《萬(wàn)有引力》對(duì)話的梁新兵、向勁宇。

開(kāi)源項(xiàng)目，成了一種超越公司、地域、年齡和背景的“技術(shù)社交名片”，一種全球極客通用的語(yǔ)言。

“如果你不開(kāi)源，你跟他說(shuō) ‘我是莊晨熠，來(lái)自螞蟻的’，他跟你聊不起來(lái)。但是他一旦知道 ‘哦，原來(lái)你是那個(gè)項(xiàng)目的！’——他可能看過(guò)你那個(gè)項(xiàng)目，你們很快就能對(duì)齊（align）到一起了�！�

“開(kāi)源項(xiàng)目是名片。” 我聽(tīng)完之后，這么形容道。

“對(duì)，是名片，然后才能聊實(shí)質(zhì)的東西。不然見(jiàn)面只能聊 ‘你哪個(gè)公司的’，那些沒(méi)有太多的營(yíng)養(yǎng)。”

這種“Talking is cheap, show me the code”的極客精神，也貫穿于他對(duì)自己團(tuán)隊(duì)的要求之中。他有一個(gè)看似簡(jiǎn)單卻極難達(dá)成的硬性標(biāo)準(zhǔn)：“我們自己做出來(lái)的智能體我們自己能用。 你說(shuō)你做得很好，那你給我用一用。我的 query 有可能是 ‘你幫我讀這一百篇論文’�！�

AWorld 項(xiàng)目鏈接：https://github.com/inclusionAI/AWorld

創(chuàng)造一個(gè)可以 7x24 小時(shí)工作的“獨(dú)立個(gè)體”

對(duì)話的最后，我們聊到了更遙遠(yuǎn)的未來(lái)。在解決了 IMO 這樣的頂級(jí)智力難題之后，下一個(gè)最令莊晨熠興奮、也最能體現(xiàn)群體智能價(jià)值的挑戰(zhàn)是什么？

他的目光，投向了“長(zhǎng)程任務(wù)”（Long-horizon Task）。

“我個(gè)人是喜歡去去跑那種長(zhǎng)程任務(wù)�，F(xiàn)在一般的應(yīng)用，我們看到的都是偏短期的，要不就 10 秒內(nèi)或一分鐘內(nèi)就希望得到結(jié)果。但是我對(duì)未來(lái)智能體的設(shè)想是一個(gè)獨(dú)立的個(gè)體，那它應(yīng)該就是 7x24 小時(shí)獨(dú)立的。 它可以干活也可以休息，這是它的自由。但它一定要把長(zhǎng)程任務(wù)給跑起來(lái)。”

他透露，像 Anthropic 這樣的頂級(jí)公司，內(nèi)部也正在測(cè)試需要連續(xù)跑七個(gè)小時(shí)的標(biāo)準(zhǔn)任務(wù)。長(zhǎng)程任務(wù)不僅僅是一個(gè)時(shí)間維度的拉長(zhǎng)，它像一個(gè)“考綱”，背后牽扯出了一系列目前 Agent 技術(shù)最棘手、最核心的難題：超長(zhǎng)上下文的管理和記憶、多輪交互中的信息衰減、模型 Attention 機(jī)制在長(zhǎng)序列下的局限性等等。

“它會(huì)引出很多技術(shù)挑戰(zhàn)，但表現(xiàn)出來(lái)就是我能正兒八-經(jīng)地、很好地完成一個(gè)非常復(fù)雜的長(zhǎng)程任務(wù)。這個(gè)是我們自己在數(shù)學(xué)、GAIA 這樣的榜單之后，會(huì)關(guān)注的一些技術(shù)課題�！�

對(duì)于 AWorld 的未來(lái)，他將其清晰地歸納為兩件核心的事。

第一，是“環(huán)境”�！拔覀冇幸粋€(gè)使命是想讓智能體在不同的環(huán)境里面跑起來(lái)。跑起來(lái)不是說(shuō)它只是做一個(gè)產(chǎn)品，而是希望智能體可以在不同環(huán)境里面去學(xué)習(xí)經(jīng)驗(yàn)。你在 GAIA 的環(huán)境里面學(xué)到一些 computer use 的經(jīng)驗(yàn)，你在 IMO 的環(huán)境里面學(xué)到一些數(shù)學(xué)的經(jīng)驗(yàn)。”這些在不同“世界”里學(xué)到的寶貴經(jīng)驗(yàn)，最終將通過(guò)不斷的訓(xùn)練，沉淀到模型本身，創(chuàng)造出在垂直領(lǐng)域更強(qiáng)大、甚至超越通用頂尖模型的新模型。

第二，是“技術(shù)產(chǎn)品”。AWorld 構(gòu)建的智能體，將作為一個(gè)開(kāi)放的、讓社區(qū)能第一時(shí)間用到技術(shù)紅利的產(chǎn)品，而非一個(gè)精雕細(xì)琢、追求極致交互體驗(yàn)的消費(fèi)級(jí)產(chǎn)品。“我們會(huì)把它定義成一個(gè)技術(shù)產(chǎn)品，因?yàn)樗皇悄敲匆粋€(gè)我們俗稱‘雕過(guò)花’的產(chǎn)品……我們可能不關(guān)注這些，但是一些技術(shù)的紅利，最好是能讓社區(qū)或者大家能提前用起來(lái)。”

一個(gè)持續(xù)學(xué)習(xí)的模型，一個(gè)開(kāi)放共享的技術(shù)產(chǎn)品。這便是莊晨熠為 AWorld 規(guī)劃的清晰路徑。

在這場(chǎng)圍繞 AI Agent 的巨大喧囂與泡沫中，莊晨熠和他的團(tuán)隊(duì)，似乎選擇了一條更需要耐心和定力的路。他們不急于定義終局，也不熱衷于包裝概念，而是在一次次解決世界級(jí)難題的極限挑戰(zhàn)中，在一次次面向全球開(kāi)發(fā)者的開(kāi)源分享中，讓智能體在真實(shí)的世界里，學(xué)習(xí)、犯錯(cuò)、進(jìn)化。

就像那個(gè)在工具調(diào)用失敗后，沒(méi)有報(bào)錯(cuò)、沒(méi)有放棄，而是默默開(kāi)始自己寫 Python 代碼的 Agent 一樣，這條少有人走的路或許也會(huì)遇到各種障礙和失敗的節(jié)點(diǎn)，但真正的智能，總會(huì)找到“繞路”前行的方法。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.