国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

沃頓教授警告:老板用AI正偷偷賺錢,而你還在審它做的17份PPT?

0
分享至


新智元報(bào)道

編輯:peter東 KingHZ

【新智元導(dǎo)讀】AI已經(jīng)不只會(huì)「答題」,開始下場「掙錢」了。但它也可能順手給你產(chǎn)出17份PPT,把你淹沒在電子垃圾里。下一代AI也許真能贏過專家,可更刺激的問題是:它會(huì)替你上班,還是讓你轉(zhuǎn)職為「AI監(jiān)工」?

悄然之間,人工智能跨越了一個(gè)關(guān)鍵門檻:它們現(xiàn)在已能完成具有實(shí)際經(jīng)濟(jì)價(jià)值的工作。

但當(dāng)你把一份企業(yè)備忘錄交給Claude,讓它做個(gè) PPT,結(jié)果它一口氣生成了17個(gè)版本。

面對這種「用力過猛」的 AI,你可能會(huì)懷疑:它真的具有實(shí)用性和經(jīng)濟(jì)價(jià)值嗎?

對此,賓夕法尼亞大學(xué)沃頓商學(xué)院教授Ethan Mollick給出了他的回答。


智能體能完成特定任務(wù)

但無法取代工作

考慮到開發(fā)新AI所投入的天量資源,無論是字面意義還是象征意義上,我們卻在精確衡量AI「智能」程度這件事上意外地捉襟見肘。

目前,最普遍的做法是將AI視作人類,通過標(biāo)準(zhǔn)化測試來統(tǒng)計(jì)其答對題目的數(shù)量。

這類被稱為「基準(zhǔn)測試」的評估體系多達(dá)數(shù)十種,已成為衡量AI能力演進(jìn)的核心標(biāo)尺。


但AI真的實(shí)用性?有經(jīng)濟(jì)價(jià)值嗎?

要回答這個(gè)問題,不能光靠感覺,得看數(shù)據(jù)。

OpenAI發(fā)布了一個(gè)名叫GDPVAL的新基準(zhǔn)測試。它不像以往的數(shù)學(xué)或常識測試,而是專門考察大模型在現(xiàn)實(shí)工作場景中能否創(chuàng)造經(jīng)濟(jì)價(jià)值。

這一次,考得很「實(shí)戰(zhàn)」。

OpenAI組了個(gè)高端局:

  • 出題人:來自金融、法律、零售等行業(yè)的資深專家(平均14年經(jīng)驗(yàn))。

  • 題目難度:人類專家平均需要4-7小時(shí)才能完成的真實(shí)業(yè)務(wù)任務(wù)。

  • 評測方式:AI和人類專家同臺競技,由第三方專家進(jìn)行盲測打分。

然后,OpenAI讓各家的大模型和其他專家親自完成這些任務(wù)。第三組專家對結(jié)果進(jìn)行評分,評分的專家不知道哪些答案來自AI,哪些來自人類,每個(gè)問題的評分時(shí)間大約需要一小時(shí)。

測試結(jié)果非常耐人尋味:人類專家贏了,但是贏得很難(勉強(qiáng)獲勝)。


圖1:GDPVAL中,不同模型在對應(yīng)任務(wù)上和人類具有相同或更好水平的比例。

同時(shí),測試發(fā)現(xiàn)AI進(jìn)步極快:較新的模型得分遠(yuǎn)超舊模型。

輸在哪?有趣的是,大模型輸給人類,并不是因?yàn)椤富糜X」或「胡說八道」,主要是因?yàn)?strong>格式排版不好或沒能精確遵循指令——而這些恰恰是最容易修復(fù)的短板。


圖2:不同領(lǐng)域中,大模型的表現(xiàn)好壞差異較大

如果當(dāng)前趨勢持續(xù),下一代人工智能模型在這項(xiàng)測試中應(yīng)超越人類專家。但這意味著AI已做好準(zhǔn)備,來取代人類工作了嗎?

回答是否定。

這里的關(guān)鍵在于:GDPVAL測試的是「任務(wù)」(Task),而我們做的是「工作」(Job)。

  • 任務(wù)是具體的:寫一段代碼、翻譯一篇文章。

  • 工作是復(fù)雜的:它包含了一連串的任務(wù),更包含了人際溝通、決策博弈和對突發(fā)狀況的處理。

只要AI還做不到像人類一樣處理復(fù)雜互動(dòng),它就無法取代你的崗位。

但在這些高價(jià)值的任務(wù)中,AI什么時(shí)候能達(dá)到人類專家級水平?理論上,AI落地已無阻礙?

Ethan Mollick教授認(rèn)為,AI智能體突然變得具有落地可能,確實(shí)讓人大吃一驚。部分原因在于大家對智能體的錯(cuò)誤認(rèn)知 。


智能體,工作「續(xù)航能力」指數(shù)級增長

以前,大家認(rèn)為,AI想獨(dú)立完成長任務(wù)非常難,比如寫一個(gè)完整的軟件。因?yàn)锳I只要中間錯(cuò)一步,后面就全完了(誤差累積)。

但劍橋大學(xué)等機(jī)構(gòu)聯(lián)手顛覆了這個(gè)認(rèn)知:AI的能力并沒有遇到瓶頸,反而在爆發(fā)。


預(yù)印本鏈接:https://arxiv.org/abs/2509.09677

劍橋大學(xué)Akshit Sinha等研究人員挖掘出四大原因:

1)收益非遞減:變準(zhǔn)一點(diǎn)點(diǎn),能做的事會(huì)暴增

2)自我修正:它會(huì)停下來檢查,不會(huì)被一個(gè)錯(cuò)誤拖死

3)更長上下文:一次對話就能裝下更長流程

4)更強(qiáng)模型能力:規(guī)劃更穩(wěn),長任務(wù)更不崩

所有這一切意味著,AI 智能體能夠應(yīng)對那些需要更多步驟才能完成的任務(wù),并且這一過程無需人工干預(yù)。


圖3:大模型性能的提升不會(huì)引起收益遞減的四個(gè)原因

因此,指標(biāo)METR,從GPT-3到GPT-5,在五年間持續(xù)保持了指數(shù)級增長,顯示出智能體能力增加的速度沒有放緩。


圖4:大模型能夠穩(wěn)定完成的任務(wù)所需的耗時(shí)變化

該指標(biāo)衡量AI能以至少50%幾率獨(dú)立完成的任務(wù)到底多長。

這意味著我們在不遠(yuǎn)的未來,就能夠看到AI完成需要專業(yè)人士一天甚至一周時(shí)間才能完成的復(fù)雜任務(wù)。

人類決定AI的未來

然而,真正具有自主性智能體并不存在。

目前,我們需要決定如何使用它們,這將決定未來工作的許多方面。當(dāng)下大多人關(guān)注的重點(diǎn)是用AI取代人類勞動(dòng)所帶來的風(fēng)險(xiǎn),而且不難看出這將在未來幾年成為一個(gè)主要問題,特別是對于那些只關(guān)注削減成本、而不是利用這些新能力來擴(kuò)展或轉(zhuǎn)型工作的,同時(shí)缺乏想象力的組織。

但在工作中使用AI,會(huì)帶來的另一個(gè)非常有可能發(fā)生的風(fēng)險(xiǎn)是:我們會(huì)無意識地讓智能體去完成一堆比我們當(dāng)下所做的更多,但完全不必要的任務(wù),例如根據(jù)一個(gè)文檔做17個(gè)PPT。

我們?nèi)绻徽J(rèn)真思考我們?yōu)槭裁匆龉ぷ?,以及工作?yīng)該是什么樣子,那么會(huì)被AI生成的「電子垃圾」大潮淹沒。

那么,替代方案是什么?

OpenAI建議專家可以通過將任務(wù)委托給 AI ,將AI生成的結(jié)果當(dāng)成初稿,由人類審查,從而與 AI 合作解決問題。如果AI生成的初稿不夠好,用戶可在提示詞中提供糾正或優(yōu)化提示詞再試一次。如果那仍然不起作用,他們應(yīng)該親自完成工作。

如果專家遵循這種工作流程,論文估計(jì)他們可以加快40%的工作速度,降低60%的成本。更重要的是,他們可以保持對 AI 的控制權(quán)。


圖5:不同大模型帶來的速度和成本提升

具有經(jīng)濟(jì)實(shí)用性的智能體已經(jīng)出現(xiàn)。例如通過讓AI智能體去復(fù)現(xiàn)學(xué)術(shù)論文,可以應(yīng)對學(xué)術(shù)界的「可復(fù)現(xiàn)性危機(jī)」。

盡管智能體能夠完成的任務(wù)仍然有限,但它有經(jīng)濟(jì)價(jià)值,并且價(jià)值正在遞增。

出現(xiàn)哪一個(gè)未來,區(qū)別不在于AI技術(shù)的演變,而在于我們選擇如何使用AI。通過在我們的判斷中決定什么值得做,而不僅僅是能做什么,我們可以確保這些工具使我們變得更有能力,而不僅僅是更有效率。

參考資料:

https://www.oneusefulthing.org/p/real-ai-agents-and-real-work

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
官方發(fā)文證明!56歲王菲迎來喜訊,讓謝霆鋒和整個(gè)娛樂圈沉默了

官方發(fā)文證明!56歲王菲迎來喜訊,讓謝霆鋒和整個(gè)娛樂圈沉默了

神秘莫測的世界
2025-12-23 23:59:46
闞清子生子引發(fā)爭議,爆料人稱寶寶出生多處畸形,已救治無效去世

闞清子生子引發(fā)爭議,爆料人稱寶寶出生多處畸形,已救治無效去世

有范又有料
2025-12-24 09:35:27
江蘇新誕生一座中型機(jī)場

江蘇新誕生一座中型機(jī)場

魯中晨報(bào)
2025-12-24 17:32:07
朝鮮和俄羅斯因20億美元援俄士兵勞務(wù)款項(xiàng)正式鬧掰

朝鮮和俄羅斯因20億美元援俄士兵勞務(wù)款項(xiàng)正式鬧掰

微微熱評
2025-12-22 16:44:36
外國游客將嬰兒“寄存”給保安 中國寶媽幫忙換尿不濕哄娃 景區(qū)回應(yīng):證明咱們工作人員認(rèn)真負(fù)責(zé)

外國游客將嬰兒“寄存”給保安 中國寶媽幫忙換尿不濕哄娃 景區(qū)回應(yīng):證明咱們工作人員認(rèn)真負(fù)責(zé)

閃電新聞
2025-12-24 14:34:08
被逼到墻角后,克林頓宣戰(zhàn),寧可身敗名裂,也要讓特朗普“陪葬”

被逼到墻角后,克林頓宣戰(zhàn),寧可身敗名裂,也要讓特朗普“陪葬”

壹切的壹切
2025-12-25 04:19:00
2026年開始,房地產(chǎn)將迎來“拋售潮”?內(nèi)行人:房價(jià)可能超乎想象

2026年開始,房地產(chǎn)將迎來“拋售潮”?內(nèi)行人:房價(jià)可能超乎想象

韓胖說裝修
2025-12-22 20:05:17
馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個(gè)孩子

馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個(gè)孩子

豐譚筆錄
2025-12-12 11:16:23
刀郎也沒想到,隱退剛兩個(gè)多月,云朵就把手伸向了徐子堯!

刀郎也沒想到,隱退剛兩個(gè)多月,云朵就把手伸向了徐子堯!

振華觀史
2025-12-24 10:45:54
發(fā)現(xiàn)一個(gè)奇怪現(xiàn)象:喜歡把家里打掃得很干凈的人,往往會(huì)有這3種命運(yùn),并非迷信

發(fā)現(xiàn)一個(gè)奇怪現(xiàn)象:喜歡把家里打掃得很干凈的人,往往會(huì)有這3種命運(yùn),并非迷信

LULU生活家
2025-12-23 18:33:20
網(wǎng)傳“熱力公司人員戴警徽記錄儀入戶測溫”,公司回應(yīng):為服務(wù)記錄儀

網(wǎng)傳“熱力公司人員戴警徽記錄儀入戶測溫”,公司回應(yīng):為服務(wù)記錄儀

界面新聞
2025-12-24 08:49:04
印度大爺被毒蛇咬死,警方以為意外,卻發(fā)現(xiàn)倆兒子偷偷買巨額保險(xiǎn)...反轉(zhuǎn)了!

印度大爺被毒蛇咬死,警方以為意外,卻發(fā)現(xiàn)倆兒子偷偷買巨額保險(xiǎn)...反轉(zhuǎn)了!

英國那些事兒
2025-12-24 23:23:18
郭禮典再披露報(bào)信內(nèi)容:徐湖平跟落馬韓建林是好友,還贈(zèng)與其書畫

郭禮典再披露報(bào)信內(nèi)容:徐湖平跟落馬韓建林是好友,還贈(zèng)與其書畫

天天熱點(diǎn)見聞
2025-12-24 17:11:44
驚天反轉(zhuǎn)!高市超90%支持率真相曝光,原來老百姓關(guān)心的是這一點(diǎn)

驚天反轉(zhuǎn)!高市超90%支持率真相曝光,原來老百姓關(guān)心的是這一點(diǎn)

云上烏托邦
2025-12-24 19:19:01
造孽,挖了個(gè)大大坑

造孽,挖了個(gè)大大坑

越女事務(wù)所
2025-12-23 22:45:01
江蘇一百歲老人,時(shí)隔60多年才突然發(fā)現(xiàn),自己是中央特科重要人員

江蘇一百歲老人,時(shí)隔60多年才突然發(fā)現(xiàn),自己是中央特科重要人員

鶴羽說個(gè)事
2025-12-24 15:09:23
內(nèi)蒙“女色虎”落馬,靠陪睡高官上位,大肆斂財(cái)為了整容

內(nèi)蒙“女色虎”落馬,靠陪睡高官上位,大肆斂財(cái)為了整容

文史旺旺旺
2024-10-31 12:26:20
女人陪你去下面三個(gè)地方,就是想要和你越界了,藏不住

女人陪你去下面三個(gè)地方,就是想要和你越界了,藏不住

落雪聽梅a
2025-12-23 12:10:06
出道20年不溫不火,上海百億總裁丈夫成底氣

出道20年不溫不火,上海百億總裁丈夫成底氣

君笙的拂兮
2025-12-25 04:29:51
南博事件升級!已敲定6點(diǎn)定論,《江南春》送上拍賣場另有買家

南博事件升級!已敲定6點(diǎn)定論,《江南春》送上拍賣場另有買家

火山詩話
2025-12-24 10:55:06
2025-12-25 06:32:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時(shí)代
14175文章數(shù) 66395關(guān)注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

頭條要聞

幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財(cái)經(jīng)要聞

北京進(jìn)一步放松限購 滬深是否會(huì)跟進(jìn)?

汽車要聞

“運(yùn)動(dòng)版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

親子
健康
教育
數(shù)碼
游戲

親子要聞

闞清子被曝早產(chǎn)女嬰,多重畸形搶救無效去世,細(xì)節(jié)曝光嘆真不應(yīng)該

這些新療法,讓化療不再那么痛苦

教育要聞

誰說初中三年可以逆風(fēng)翻盤?

數(shù)碼要聞

AMD Zen 6與Intel Nova Lake或?qū)⑸涎?88 MB 3D緩存“大戰(zhàn)”

前《DOTA2》選手起訴LGD 稱拖欠近14萬賽事獎(jiǎng)金

無障礙瀏覽 進(jìn)入關(guān)懷版