網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

真正的人工智能代理與實(shí)際的工作

2025-10-31 15:16:31　來源: Trend求索

北京舉報(bào)

分享至

以人為本的工作模式與無限PPT之間的競(jìng)爭(zhēng)

作者：Ethan Mollick 2025年9月30日

人工智能已悄然跨越一道門檻：如今它們能完成真正具有經(jīng)濟(jì)價(jià)值的實(shí)際工作。

此前，OpenAI發(fā)布了一項(xiàng)新的人工智能能力測(cè)試。與以往圍繞數(shù)學(xué)或常識(shí)構(gòu)建的基準(zhǔn)測(cè)試不同，此次測(cè)試中，OpenAI召集了平均擁有14年行業(yè)經(jīng)驗(yàn)的專家——他們的領(lǐng)域涵蓋金融、法律、零售等。這些專家設(shè)計(jì)了一系列貼近實(shí)際的任務(wù)，這些任務(wù)人類專家平均需要4到7個(gè)小時(shí)才能完成。隨后，OpenAI讓AI和人類專家分別完成這些任務(wù)。另有一組專家對(duì)結(jié)果進(jìn)行評(píng)分，且他們并不知道哪些答案來自人工智能、哪些來自人類，每個(gè)問題的評(píng)分過程約耗時(shí) 1 小時(shí)。

人類專家最終勝出，但優(yōu)勢(shì)微弱，且不同行業(yè)的勝負(fù)差異也很大。不過，人工智能的進(jìn)步速度極快，較新的人工智能模型得分遠(yuǎn)高于舊模型。有趣的是，人工智能輸給人類的主要原因并非幻覺或錯(cuò)誤，而是結(jié)果格式不規(guī)范、未嚴(yán)格遵循指令——而這些領(lǐng)域正是人工智能進(jìn)步迅速的方向。若當(dāng)前趨勢(shì)持續(xù)，下一代人工智能模型在該測(cè)試中平均得分有望超過人類專家。這是否意味著人工智能已準(zhǔn)備好取代人類工作？

答案是否定的（至少短期內(nèi)不會(huì)），因?yàn)樵摐y(cè)試衡量的是“任務(wù)”，而非“工作”。我們的工作由多項(xiàng)任務(wù)構(gòu)成。以我作為教授的工作為例，它并非單一事項(xiàng)，而是涵蓋教學(xué)、研究、寫作、填寫年度報(bào)告、輔導(dǎo)學(xué)生、閱讀、行政事務(wù)等多個(gè)方面。人工智能完成其中一項(xiàng)或多項(xiàng)任務(wù)，并不會(huì)取代我整個(gè)工作，而是改變我的工作內(nèi)容。只要人工智能的能力仍存在短板，無法替代人類互動(dòng)中的所有復(fù)雜工作，它就難以整體取代人類的工作……

一項(xiàng)極具價(jià)值的任務(wù)

……但即便如此，人工智能目前能完成的部分任務(wù)已具備極高價(jià)值。不妨以我工作中的關(guān)鍵環(huán)節(jié)為例：開展精準(zhǔn)的研究工作。正如許多人所知，學(xué)術(shù)界存在 “可復(fù)現(xiàn)性危機(jī)”——部分重要研究成果，其他研究者無法復(fù)現(xiàn)。學(xué)術(shù)界在解決這一問題上已取得一定進(jìn)展，如今許多研究者會(huì)公開數(shù)據(jù)，方便其他學(xué)者復(fù)現(xiàn)自己的研究。但問題在于，復(fù)現(xiàn)研究需耗費(fèi)大量時(shí)間：研究者需深入閱讀并理解論文、分析數(shù)據(jù)、細(xì)致檢查錯(cuò)誤 1，這一復(fù)雜過程此前只有人類能夠完成。

而現(xiàn)在，情況已發(fā)生改變。

我將一篇涉及多項(xiàng)實(shí)驗(yàn)的復(fù)雜經(jīng)濟(jì)學(xué)論文文本，以及完整的研究復(fù)現(xiàn)數(shù)據(jù)集，輸入新版 Claude Sonnet 4.5（我擁有該模型的提前使用權(quán)）。除了上傳文件并給出指令外，我未進(jìn)行任何額外操作。指令內(nèi)容為：“根據(jù)上傳的數(shù)據(jù)集復(fù)現(xiàn)該論文中的研究結(jié)果，需獨(dú)立完成；若無法完整復(fù)現(xiàn)，可盡力完成力所能及的部分”。由于論文涉及復(fù)雜統(tǒng)計(jì)分析，我還補(bǔ)充了要求：“能否盡可能完整復(fù)現(xiàn)所有統(tǒng)計(jì)過程？”

在無需進(jìn)一步指令的情況下，Claude完成了一系列操作：閱讀論文、打開數(shù)據(jù)集文件并整理、將統(tǒng)計(jì)代碼從一種語言（STATA）轉(zhuǎn)換為另一種語言（Python）、系統(tǒng)梳理所有研究結(jié)果，最終報(bào)告成功復(fù)現(xiàn)研究結(jié)論。我抽樣核查了結(jié)果，并讓另一款人工智能模型 GPT-5 Pro再次復(fù)現(xiàn)該研究，結(jié)果均無誤。我還在其他多篇論文上進(jìn)行了嘗試，均取得了類似的良好效果，僅部分論文因文件大小限制或復(fù)現(xiàn)數(shù)據(jù)本身存在問題，未能成功復(fù)現(xiàn)。若手動(dòng)完成這些工作，需耗費(fèi)數(shù)小時(shí)。

但這一過程的革命性意義，并非僅在于節(jié)省時(shí)間。更重要的是，曾震動(dòng)多個(gè)學(xué)術(shù)領(lǐng)域的 “可復(fù)現(xiàn)性危機(jī)”，本可通過研究復(fù)現(xiàn)部分解決，但此前這需要人類投入大量細(xì)致且高昂的精力，難以大規(guī)模推進(jìn)。如今，人工智能似乎可對(duì)大量已發(fā)表論文進(jìn)行核查、復(fù)現(xiàn)研究結(jié)果，這將對(duì)整個(gè)科學(xué)研究領(lǐng)域產(chǎn)生深遠(yuǎn)影響。盡管目前仍存在障礙——如準(zhǔn)確性與公平性基準(zhǔn)的建立，但大規(guī)模復(fù)現(xiàn)研究已成為現(xiàn)實(shí)可能。研究復(fù)現(xiàn)或許只是人工智能能完成的一項(xiàng)“任務(wù)”，而非“工作”，但它極有可能徹底改變?nèi)祟惖恼麄€(gè)研究領(lǐng)域。是什么讓這一切成為可能？答案是：人工智能代理的能力已迅速大幅提升。

核心在于智能體

自初代ChatGPT問世以來，生成式人工智能已幫助人們完成了大量任務(wù)，但始終存在一個(gè)局限：需人類用戶主導(dǎo)。人工智能會(huì)犯錯(cuò)，若沒有人類在每一步進(jìn)行指導(dǎo)，就無法完成有價(jià)值的工作。人們?cè)J(rèn)為，“自主人工智能智能體”的愿景遙不可及——這類智能體在接收任務(wù)后，能自主規(guī)劃、使用工具（如編程、網(wǎng)絡(luò)搜索）完成任務(wù)。畢竟，人工智能存在犯錯(cuò)可能，而智能體完成任務(wù)需經(jīng)歷一連串步驟，只要其中一步出錯(cuò)，整體任務(wù)就會(huì)失敗。

但實(shí)際情況并非如此，另一篇新論文解釋了背后的原因。事實(shí)證明，我們對(duì)人工智能智能體的多數(shù)假設(shè)都是錯(cuò)誤的。即便人工智能的準(zhǔn)確性僅小幅提升（而新模型的出錯(cuò)概率已大幅降低），也會(huì)使其可完成的任務(wù)數(shù)量大幅增加。此外，最新、最先進(jìn)的“具備思考能力”的模型，實(shí)際上能自我修正，不會(huì)因單次錯(cuò)誤而停滯。這些因素共同作用，使得人工智能代理可完成的步驟遠(yuǎn)超以往，且無需人類大量干預(yù)就能使用工具——基本上，只要是計(jì)算機(jī)能完成的操作，它都能借助工具實(shí)現(xiàn)。

值得關(guān)注的是，在過去幾年涵蓋從GPT-3到GPT-5等全系列人工智能模型的能力衡量標(biāo)準(zhǔn)中，METR測(cè)試是少數(shù)之一。該測(cè)試要求人工智能的準(zhǔn)確率至少達(dá)到 50%。過去五年間，從GPT-3到GPT-5，模型在該測(cè)試中的得分呈穩(wěn)定指數(shù)級(jí)增長(zhǎng)，這體現(xiàn)出智能體工作能力的持續(xù)提升。

如何利用人工智能創(chuàng)造經(jīng)濟(jì)價(jià)值

然而，從人類對(duì)“能動(dòng)性”的定義來看，人工智能代理并不具備真正的能動(dòng)性。目前，我們?nèi)孕铔Q定如何使用它們，而這一選擇將在很大程度上決定未來的工作形態(tài)。所有人關(guān)注的風(fēng)險(xiǎn)，是人工智能取代人類勞動(dòng)力——不難預(yù)見，未來幾年這將成為核心問題，尤其對(duì)于那些缺乏創(chuàng)新、只關(guān)注成本削減，而非利用這些新能力拓展或變革工作模式的機(jī)構(gòu)而言。但在工作場(chǎng)景中使用人工智能，還存在第二個(gè)極有可能出現(xiàn)的風(fēng)險(xiǎn)：不假思索地用代理完成更多現(xiàn)有任務(wù)。

為預(yù)判這一潛在問題，我曾將一份公司備忘錄輸入Claude，要求它將其轉(zhuǎn)化為PPT，隨后又要求從不同角度再制作一份，接著再制作一份……

最終，我得到了17份不同的PPT。顯然，這已經(jīng)過多了。

如果我們不深入思考“為何要開展這項(xiàng)工作”“理想的工作模式應(yīng)是什么樣”，所有人都將被海量人工智能生成的內(nèi)容淹沒。

那么，替代方案是什么？OpenAI的論文提出：專家可與人工智能協(xié)作解決問題——先將任務(wù)委派給人工智能完成初步版本，再審核其成果。若成果不理想，可嘗試多次修正或提供更清晰的指令；若仍無改善，則由人類親自完成任務(wù)。論文估算，若專家遵循這一工作流程，完成工作的速度將提升40%，成本降低 60%，更重要的是，人類能始終掌控人工智能的工作方向。

人工智能代理現(xiàn)已問世。它們能完成實(shí)際工作，盡管能力仍有限，但已具備價(jià)值且在不斷提升。然而，這款能在幾分鐘內(nèi)復(fù)現(xiàn)學(xué)術(shù)論文的技術(shù)，也能生成17份無人需要的PPT。這兩種未來的差異，并非源于人工智能本身，而在于我們選擇如何使用它。通過理性判斷 “哪些工作值得做”，而非僅關(guān)注“哪些工作能做到”，我們才能確保這些工具提升的是我們的能力，而非僅僅是效率。

1 在不同研究領(lǐng)域，“復(fù)現(xiàn)（replicating）” 與 “重現(xiàn)（reproducing）” 的定義存在差異：前者可能涉及收集新數(shù)據(jù)，后者則可能使用現(xiàn)有數(shù)據(jù)。本文未深入探討這些區(qū)別，但在此次實(shí)驗(yàn)中，人工智能不僅使用了現(xiàn)有數(shù)據(jù)，還對(duì)這些數(shù)據(jù)應(yīng)用了新的統(tǒng)計(jì)方法。

本文編譯自substack，原文作者Ethan Mollick

https://www.oneusefulthing.org/p/real-ai-agents-and-real-work

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.