網易首頁 > 網易號 > 正文申請入駐

沃頓教授警告：老板用AI正偷偷賺錢，而你還在審它做的17份PPT？

2025-12-23 17:14:33　來源: 新智元

北京舉報

分享至

新智元報道

編輯：peter東 KingHZ

【新智元導讀】AI已經不只會「答題」，開始下場「掙錢」了。但它也可能順手給你產出17份PPT，把你淹沒在電子垃圾里。下一代AI也許真能贏過專家，可更刺激的問題是：它會替你上班，還是讓你轉職為「AI監(jiān)工」？

悄然之間，人工智能跨越了一個關鍵門檻：它們現(xiàn)在已能完成具有實際經濟價值的工作。

但當你把一份企業(yè)備忘錄交給Claude，讓它做個 PPT，結果它一口氣生成了17個版本。

面對這種「用力過猛」的 AI，你可能會懷疑：它真的具有實用性和經濟價值嗎？

對此，賓夕法尼亞大學沃頓商學院教授Ethan Mollick給出了他的回答。

智能體能完成特定任務

但無法取代工作

考慮到開發(fā)新AI所投入的天量資源，無論是字面意義還是象征意義上，我們卻在精確衡量AI「智能」程度這件事上意外地捉襟見肘。

目前，最普遍的做法是將AI視作人類，通過標準化測試來統(tǒng)計其答對題目的數(shù)量。

這類被稱為「基準測試」的評估體系多達數(shù)十種，已成為衡量AI能力演進的核心標尺。

但AI真的實用性？有經濟價值嗎？

要回答這個問題，不能光靠感覺，得看數(shù)據(jù)。

OpenAI發(fā)布了一個名叫GDPVAL的新基準測試。它不像以往的數(shù)學或常識測試，而是專門考察大模型在現(xiàn)實工作場景中能否創(chuàng)造經濟價值。

這一次，考得很「實戰(zhàn)」。

OpenAI組了個高端局：

出題人：來自金融、法律、零售等行業(yè)的資深專家（平均14年經驗）。
題目難度：人類專家平均需要4-7小時才能完成的真實業(yè)務任務。
評測方式：AI和人類專家同臺競技，由第三方專家進行盲測打分。

然后，OpenAI讓各家的大模型和其他專家親自完成這些任務。第三組專家對結果進行評分，評分的專家不知道哪些答案來自AI，哪些來自人類，每個問題的評分時間大約需要一小時。

測試結果非常耐人尋味：人類專家贏了，但是贏得很難（勉強獲勝）。

圖1：GDPVAL中，不同模型在對應任務上和人類具有相同或更好水平的比例。

同時，測試發(fā)現(xiàn)AI進步極快：較新的模型得分遠超舊模型。

輸在哪？有趣的是，大模型輸給人類，并不是因為「幻覺」或「胡說八道」，主要是因為格式排版不好或沒能精確遵循指令——而這些恰恰是最容易修復的短板。

圖2：不同領域中，大模型的表現(xiàn)好壞差異較大

如果當前趨勢持續(xù)，下一代人工智能模型在這項測試中應超越人類專家。但這意味著AI已做好準備，來取代人類工作了嗎？

回答是否定。

這里的關鍵在于：GDPVAL測試的是「任務」（Task），而我們做的是「工作」（Job）。

任務是具體的：寫一段代碼、翻譯一篇文章。
工作是復雜的：它包含了一連串的任務，更包含了人際溝通、決策博弈和對突發(fā)狀況的處理。

只要AI還做不到像人類一樣處理復雜互動，它就無法取代你的崗位。

但在這些高價值的任務中，AI什么時候能達到人類專家級水平？理論上，AI落地已無阻礙？

Ethan Mollick教授認為，AI智能體突然變得具有落地可能，確實讓人大吃一驚。部分原因在于大家對智能體的錯誤認知。

智能體，工作「續(xù)航能力」指數(shù)級增長

以前，大家認為，AI想獨立完成長任務非常難，比如寫一個完整的軟件。因為AI只要中間錯一步，后面就全完了（誤差累積）。

但劍橋大學等機構聯(lián)手顛覆了這個認知：AI的能力并沒有遇到瓶頸，反而在爆發(fā)。

預印本鏈接：https://arxiv.org/abs/2509.09677

劍橋大學Akshit Sinha等研究人員挖掘出四大原因：

1）收益非遞減：變準一點點，能做的事會暴增

2）自我修正：它會停下來檢查，不會被一個錯誤拖死

3）更長上下文：一次對話就能裝下更長流程

4）更強模型能力：規(guī)劃更穩(wěn)，長任務更不崩

所有這一切意味著，AI 智能體能夠應對那些需要更多步驟才能完成的任務，并且這一過程無需人工干預。

圖3：大模型性能的提升不會引起收益遞減的四個原因

因此，指標METR，從GPT-3到GPT-5，在五年間持續(xù)保持了指數(shù)級增長，顯示出智能體能力增加的速度沒有放緩。

圖4：大模型能夠穩(wěn)定完成的任務所需的耗時變化

該指標衡量AI能以至少50%幾率獨立完成的任務到底多長。

這意味著我們在不遠的未來，就能夠看到AI完成需要專業(yè)人士一天甚至一周時間才能完成的復雜任務。

人類決定AI的未來

然而，真正具有自主性智能體并不存在。

目前，我們需要決定如何使用它們，這將決定未來工作的許多方面。當下大多人關注的重點是用AI取代人類勞動所帶來的風險，而且不難看出這將在未來幾年成為一個主要問題，特別是對于那些只關注削減成本、而不是利用這些新能力來擴展或轉型工作的，同時缺乏想象力的組織。

但在工作中使用AI，會帶來的另一個非常有可能發(fā)生的風險是：我們會無意識地讓智能體去完成一堆比我們當下所做的更多，但完全不必要的任務，例如根據(jù)一個文檔做17個PPT。

我們如果不認真思考我們?yōu)槭裁匆龉ぷ?，以及工作應該是什么樣子，那么會被AI生成的「電子垃圾」大潮淹沒。

那么，替代方案是什么？

OpenAI建議專家可以通過將任務委托給 AI ，將AI生成的結果當成初稿，由人類審查，從而與 AI 合作解決問題。如果AI生成的初稿不夠好，用戶可在提示詞中提供糾正或優(yōu)化提示詞再試一次。如果那仍然不起作用，他們應該親自完成工作。

如果專家遵循這種工作流程，論文估計他們可以加快40%的工作速度，降低60%的成本。更重要的是，他們可以保持對 AI 的控制權。

圖5：不同大模型帶來的速度和成本提升

具有經濟實用性的智能體已經出現(xiàn)。例如通過讓AI智能體去復現(xiàn)學術論文，可以應對學術界的「可復現(xiàn)性危機」。

盡管智能體能夠完成的任務仍然有限，但它有經濟價值，并且價值正在遞增。

出現(xiàn)哪一個未來，區(qū)別不在于AI技術的演變，而在于我們選擇如何使用AI。通過在我們的判斷中決定什么值得做，而不僅僅是能做什么，我們可以確保這些工具使我們變得更有能力，而不僅僅是更有效率。

參考資料：

https://www.oneusefulthing.org/p/real-ai-agents-and-real-work

秒追ASI

?點贊、轉發(fā)、在看一鍵三連?

點亮星標，鎖定新智元極速推送！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

AI熱潮該糾偏了

DeepTech深科技 2025-12-26 15:04:47
0 跟貼 0
格斗冠軍機器人突然發(fā)瘋！嚇呆研究人員

量子位 2025-07-25 09:10:58
0 跟貼 0

大模型也會賭博上癮！理智出走！

量子位 2025-11-03 07:06:08
0 跟貼 0

機器人疊衣，靈巧手抓萬物，超實用機器人組合來了

量子位 2025-07-29 03:31:41
1 跟貼 1
五八智能四足機器人平臺Q20A，適用于千行百業(yè)

量子位 2025-09-30 15:35:41
0 跟貼 0

李飛飛發(fā)起機器人家務挑戰(zhàn)賽，老黃第一時間批錢贊助

量子位 2025-10-13 09:30:54
0 跟貼 0

未來醫(yī)生摘得全球第一，臨床安全有效性評估新基準

量子位 2025-11-19 11:14:03
0 跟貼 0
荒野求生（機器狗全自主版），2025ATEC挑戰(zhàn)真實戶外無遙操

量子位 2025-12-08 19:24:34
0 跟貼 0

機器人管家Figure 03來了，承包一切家務！

量子位 2025-10-11 10:13:00
0 跟貼 0
五八智能四足機器人平臺Q20A 不止跑跳整活還能維護公共安全

量子位 2025-09-30 10:01:00
0 跟貼 0
機器人終于有自己的真機評測大考了

量子位 2025-10-15 20:05:44
0 跟貼 0
靈巧手作為獨立執(zhí)行平臺，實現(xiàn)工業(yè)與家庭場景應用

量子位 2025-12-11 03:38:13
0 跟貼 0
波士頓機器狗練成“輕功”！連續(xù)七個后空翻

量子位 2025-09-07 01:03:18
0 跟貼 0
Notion CEO長文刷屏：AI將把知識工作帶入“無限心智”時代

DeepTech深科技 2025-12-26 18:24:53
0 跟貼 0
清華唐杰：領域大模型，偽命題

量子位 2025-12-26 17:05:53
0 跟貼 0
推理成本打到1元/百萬token，浪潮撬動Agent規(guī)?；白詈笠还铩?/a>

量子位 2025-12-26 14:36:33
2 跟貼 2
又一國產大模型剛剛開源！能使喚機器狗拿水

智東西 2025-12-26 20:40:18
0 跟貼 0
00后已身家百億！2025 AI造富榜單：超50位億萬富翁誕生

智東西 2025-12-26 21:30:53
0 跟貼 0
當AI開始制造神曲，騰訊音樂們還剩什么？

鈦媒體APP 2025-12-26 20:37:11
0 跟貼 0
福建干部去西北任職，不帶翻譯可不行

朱熹愛追劇 2025-12-23 17:59:58
1 跟貼 1
天塌了！我花500元請人做的紅包抽獎網頁，豆包居然一秒免費生成？！

秋葉PPT 2025-12-26 08:22:04
0 跟貼 0
測完3個AI做PPT 今年年終匯報我只用這個

清醒科技Pro 2025-12-24 19:48:15
6 跟貼 6
小伙是擺自己的新車，卻不料對方有真人工智能，這局人工智能?。?/a>

故居生活 2025-12-26 09:04:12
0 跟貼 0
【ai agent智能體架構躍遷】1小時吃透 Agent 核心（設計模式全解析+代碼實戰(zhàn)）新手也能

盧菁老師 2025-12-24 17:13:20
0 跟貼 0
人工智能產生了自我意識到底有多可怕

浪嫂剪輯 2025-12-22 15:11:47
1 跟貼 1
讓小咪勞斯看看這翻譯怎么樣！又in又after的

一口淪陷小館 2025-12-23 14:08:23
1 跟貼 1
誰知道他在說什么??？快來翻譯一下

阿文笑出聲 2025-12-25 12:08:18
29 跟貼 29
更適合中國寶寶的翻譯

破碎影視劇 2025-12-25 08:44:18
0 跟貼 0
奧特曼談馬斯克：我曾視他為英雄，如今不再說話

量子位 2025-09-16 04:14:37
0 跟貼 0
馬斯克用Grok替代X員工，裁員90%

量子位 2025-11-29 16:58:47
0 跟貼 0
DeepMind負責人：2036 AI意識覺醒？LeCun怒懟：LLM路線全錯！

新智元 2025-12-16 16:55:25
0 跟貼 0
通用智能純粹胡扯？！哈薩比斯和LeCun吵起來了

量子位 2025-12-24 17:54:55
0 跟貼 0
老棋手挑戰(zhàn)人工智能，傳統(tǒng)技藝能否逆襲，大戰(zhàn)結果拭目以待

愛笑集中營 2025-12-22 09:32:34
4 跟貼 4
大模型的魅力在于突發(fā)涌現(xiàn)的能力

量子位 2025-12-11 03:38:02
0 跟貼 0
AI研發(fā)本質是一場與生物進化同構的試錯游戲

量子位 2025-12-12 04:34:17
0 跟貼 0
誰在賦能這場數(shù)字樂章？主板背后的算力底座與生態(tài)力量

量子位 2025-11-29 16:58:47
0 跟貼 0
AI建造者如何使用AI？《時代》周刊專訪三位科技領袖

量子位 2025-12-16 08:37:19
5 跟貼 5
數(shù)據(jù)中心的未來：英特爾至強6處理器與AI服務器

量子位 2025-12-19 12:00:39
0 跟貼 0
AI服務器的六邊形戰(zhàn)士，英特爾?至強?6處理器全面升級

量子位 2025-11-29 16:58:51
0 跟貼 0
流星余跡通信：一秒能發(fā)80字，速度16KB/s？

量子位 2025-11-29 16:59:10
0 跟貼 0

新智元

AI產業(yè)主平臺領航智能+時代

14189文章數(shù) 66399關注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

健康

親子

旅游

數(shù)碼

手機 / 數(shù)碼

房產 / 家居

沃頓教授警告：老板用AI正偷偷賺錢，而你還在審它做的17份PPT？

收割3000億！拼多多"土辦法"熬死所有巨頭

黑老大2名表超5千萬成交 深圳原政法委書記是其保護傘

黑老大2名表超5千萬成交 深圳原政法委書記是其保護傘

開翻航母之后，他決定親手造一艘航母

王傳君生病后近照變化大，面部浮腫

投資巨鱷羅杰斯最新持倉：只留四種資產

兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

態(tài)度原創(chuàng)

云游安徽｜踏訪池州，讀懂山水間的萬年史書

這些新療法，讓化療不再那么痛苦

別讓孩子成為大人炒作的工具

辰山植物園“荒野生花”番杏科植物展即將開幕，元旦假期邂逅石礫間的堅韌精靈

ACEMAGIC阿邁奇推出M1A PRO+迷你主機：AI Max+ 395，三M.2

沃頓教授警告：老板用AI正偷偷賺錢，而你還在審它做的17份PPT？

收割3000億！拼多多"土辦法"熬死所有巨頭

黑老大2名表超5千萬成交深圳原政法委書記是其保護傘

黑老大2名表超5千萬成交深圳原政法委書記是其保護傘

兩大CEO試駕華為乾崑*啟境開啟首款獵裝轎跑路測

云游安徽｜踏訪池州，讀懂山水間的萬年史書

這些新療法，讓化療不再那么痛苦

辰山植物園“荒野生花”番杏科植物展即將開幕，元旦假期邂逅石礫間的堅韌精靈

ACEMAGIC阿邁奇推出M1A PRO+迷你主機：AI Max+ 395，三M.2