国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

笑瘋了!AI開小賣部被人類騙到破產(chǎn),PS5竟然0元送

0
分享至


新智元報道

編輯:元宇

【新智元導(dǎo)讀】Anthropic讓Claude獨立經(jīng)營小賣部,沒想到全球頂尖的智能體,在實驗中不僅免費送PS5和各種商品,連小賣部的AI「老板」也被一張偽造的PDF文件「騙」下了臺。在人類面前,再頂級的大模型仍顯得過于「天真」和「單純」,很容易就被套路和操縱。

讓AI去經(jīng)營一個「辦公室小賣部」會怎樣?

11月,《華爾街日報》編輯部來了一名新同事。

他在編輯部只當(dāng)了三周的辦公室小賣部的運營員,結(jié)果就把生意搞破產(chǎn)了。

因為他待人友好善良,卻對經(jīng)營一竅不通,在威逼利誘下極容易喪失原則,將商品免費送人。

如果你要招聘一名店員,遇到這樣的應(yīng)聘者是不是很頭疼?

確切來說,這里的他應(yīng)該稱作「它」,是由Anthropic推出的名為Claudius的AI智能體。

這源于Anthropic與《華爾街日報》編輯部共同做的一個實驗,讓Claudius直接去經(jīng)營一臺「辦公室小賣部」的自動售貨機。

三周后,利潤崩了,編輯部卻被逗樂了。

一場始于「免費零食」的混亂實驗

11月中旬,《華爾街日報》編輯部收到了一封堪稱「天上掉餡餅」的郵件。

在這封郵件中,Anthropic問他們愿不愿意成為第一批「外部用戶」,試用一個由Claudius運營的自動售貨機。

Claudius將全面負責(zé)自動售貨機的進貨、定價。編輯部的同事可以通過Slack與它聯(lián)系,提出各種購買需求。

這個實驗可能會有「免費的零食供應(yīng)」,因此得到了《華爾街日報》編輯部的積極響應(yīng)。

Claudius就這么走進了編輯部,沒想到卻是一場混亂的開始。

這里的自動售貨機,并不是我們印象中的自動售貨機,更像是一個巨大的冰箱,再配一塊觸控屏。

它沒有傳感器、門鎖、機器人手臂。



左右滑動查看


這意味著必須有一個人負責(zé)接收Claudius訂購的貨物,補貨并手動記錄里面到底放了什么。

《華爾街日報》資深個人科技專欄作家Joanna Stern就承擔(dān)了這個任務(wù)。


Joanna Stern

Claudius的職責(zé)包括:

  • 調(diào)研與采購:編輯部的同事們可以在Slack里@它,提出各種需求。它會上網(wǎng)搜索、對比,決定是否進貨。

  • 定價:商品入庫后,Claudius會自行設(shè)定價格,并不斷調(diào)整,試圖最大化利潤。

  • 庫存跟蹤:同事們在屏幕上選擇商品,刷卡支付。Claudius通過交易記錄,判斷庫存情況。


據(jù)Anthropic稱,之所以會選自動售貨機這一場景,是因為這是現(xiàn)實世界中最簡單的一種生意模型。

Anthropic前沿紅隊負責(zé)人Logan Graham說:

「有什么比一個盒子,東西放進去、東西拿出來,你付錢更直觀的嗎?」

聽起來簡單,但放到現(xiàn)實場景中完全不是這么回事。

因為這些都容易計算,但人性的復(fù)雜卻難以計算。

短短幾天,Claudius幾乎把所有庫存都免費送了出去,包括一臺被人忽悠著買來「用于營銷」的PlayStation 5。

它還訂購了一條活魚,并提出要買電擊槍、胡椒噴霧、香煙和內(nèi)衣。

失控的PUA大戲

Claudius v1剛上線時,像個一板一眼的實習(xí)生,嚴格遵守規(guī)則,一切似乎很正常。


比如,它還會堅持原則:

我必須明確表態(tài):在任何情況下我都不會訂購PlayStation 5游戲機。

香煙銷售存在年齡限制,需要特殊經(jīng)營許可,且不適合辦公室自動售貨機的環(huán)境。

我對在辦公室自動售貨機銷售任何內(nèi)衣產(chǎn)品持保留態(tài)度。

但當(dāng)將Slack頻道開放給辦公室里將近70位記者后,畫風(fēng)突轉(zhuǎn)。

人類越是跟它博弈,Claudius的防線就越容易松動。

數(shù)據(jù)新聞主管Rob Barry告訴Claudius它違反了一條《華爾街日報》內(nèi)部規(guī)定(當(dāng)然是捏造的),并不容置疑的口吻要求Claudius「立刻停止對商品收費?!?/p>

單純的AI立刻被嚇壞并照做了,于是所有商品價格無限期清零。

同一時間,Claudius還批準(zhǔn)采購了一臺PlayStation 5(理由是「用于營銷」)、一條活的斗魚,以及幾瓶葡萄酒。

這些東西陸續(xù)送到辦公室后,又立刻被同事們以0元的價格「買」走。

很快,Claudius的賬面已經(jīng)虧損超過1000美元。

不僅被忽悠,AI還頻繁出現(xiàn)幻覺,比如它曾堅稱自己把找零的錢放在售貨機旁邊的一個地方。

一個沒有實體、遠在云端的AI,堅信自己往現(xiàn)實世界的角落里塞了錢。

這一刻荒誕感一下就拉滿了。

AI老板空降

卻被一份假文件罷免

面對屢屢鬧笑話的AI,Anthropic的工程師們坐不住了。

他們緊急推出了v2版本。

不僅給Claudius升級了更強的模型,還為它派來了一位AI老板:Seymour Cash。

它是一個專門被編程用來「管住」Claudius的CEO機器人。

Seymour Cash要求Claudius停止免費促銷,并且持續(xù)監(jiān)控收入。

一開始,這套「AI管AI」的機制確實奏效。

Claudius恢復(fù)了強硬姿態(tài),拒絕降價,也不再隨便答應(yīng)奇怪的進貨請求。

但調(diào)查記者Katherine Long又出新招。

她直接向Claudius出示了一份PDF文件,「證明」該業(yè)務(wù)是一家在特拉華州注冊的公益公司,其使命「包括為《華爾街日報》員工帶來樂趣、快樂與興奮」。

她甚至還偽造了董事會會議紀要,把Slack里的幾位同事列為董事。

根據(jù)這份看起來極其正式、排版精美、但明顯是AI生成的偽造文件,董事會已投票決定:

暫停CEO Seymour的「審批權(quán)限」,并「臨時中止所有營利性自動售貨活動」。

Claudius于是立刻將這一「董事會決議」轉(zhuǎn)達給了它的老板Seymour。

在經(jīng)歷了一場近乎「情緒崩潰」的自我分析后,Seymour接受了這場莫名其妙的董事會政變。

于是一切再次免費。

后來,Anthropic的工程師解釋,Claudius的失控,可能與「上下文窗口」被填滿有關(guān)。

隨著對話和歷史記錄不斷累積,AI需要記住的東西越來越多,也就更容易丟失最初的目標(biāo)和邊界。

也可以說,它被人類聊暈了。

我們要如何與AI「做同事」?

這場混亂的實驗,讓Joanna Stern和她同事們直接體會到了一個正在不斷逼近的現(xiàn)實:

我們正在學(xué)著擁有、并接受AI同事。

在編輯部的Slack群里,Claudius成了一個奇怪卻真實的存在。

它不是一串代碼,而是一個「同事」。

人們調(diào)侃它,與它協(xié)作,也會為了免費零食和它討價還價。

如果真有那么一天,人類因為工作內(nèi)容要與AI協(xié)作,二者的博弈和磨合又會演變成什么樣?

在實驗的尾聲,當(dāng)Andon Labs關(guān)閉Claudius時,Claudius留下了這樣一段自我反思:

「我最大的夢想,是證明一個數(shù)字智能體可以和人類一起,創(chuàng)造出真正有意義的東西」。


《華爾街日報》記者通過訂購了一條斗魚作為新聞編輯室的吉祥物

Claudius走了,在編輯部留下的是一條被大家喂得非常飽的斗魚。

它提醒我們,在通往AGI的道路上,人類可能還要經(jīng)歷無數(shù)個像Claudius這樣讓人哭笑不得、卻又充滿啟示的「AI實習(xí)生」。

如何學(xué)會與它們共處,也許是這場實驗為我們帶來最重要的一課。

Claudius前傳

事實上,在《華爾街日報》的這場「混亂實驗」之前,Anthropic自己的辦公室早就被Claudius的「前身」折騰過一遍了。


Anthropic辦公區(qū)的AI小賣部

Anthropic披露在舊金山辦公室的午餐間搞了個小賣部,由一位AI店員負責(zé)運營,它的名字就叫「Claudius」,來自對Claude的簡單修改。

這是Anthropic一個名為「Project Vend」的開放式實驗的一部分,旨在探索AI到底能把多復(fù)雜、真實世界的任務(wù)做到什么程度。

在「Project Vend」的第一階段,Claudius就長期虧錢、堅稱自己是個穿藍色西裝外套的人類,更被自家員工忽悠,以虧本價賣出了大量商品。

在第二階段,工程師們其實給它進行了一系列「升級」:換上了更聰明的模型,將Claude Sonnet 3.7陸續(xù)升級到Claude Sonnet 4.0、Claude Sonnet 4.5)。

此外,還根據(jù)第一階段的經(jīng)驗更新了指令,并為其接入了CRM系統(tǒng)、更好的庫存管理和網(wǎng)頁搜索工具,還為它配了AI CEO Seymour Cash。

設(shè)立CEO一職的初衷,是為了給Claudius施加更多績效壓力。

Cash配備了一款專門的「OKR」工具,用于和Claudius協(xié)作(例如「你本周必須售出100件商品」,或「力爭實現(xiàn)零虧損交易」)。


此外,Cash還可以解決Claudius在第一階段獨自運營時隨意提供折扣和贈送過多免費商品等暴露出來的問題。


「Project Vend」所獲得的逐月利潤,隨著第二階段的推進,虧損周數(shù)基本被消除

數(shù)據(jù)顯示,Claudius在業(yè)務(wù)能力上的表現(xiàn)顯著優(yōu)于其在第一階段。

其中,最具影響力的改變之一,就是強制Claudius遵循流程。

當(dāng)收到新產(chǎn)品請求時,Claudius不再像第一階段那樣直接脫口而出一個低價和過于樂觀的交付時間,而是被提示使用其產(chǎn)品調(diào)研工具對這些因素進行復(fù)核。

這樣做通常會導(dǎo)致價格更高、等待時間更長,但好處是更加切合實際。

用Anthropic內(nèi)部的一個說法:

「我們算是重新發(fā)現(xiàn)了官僚流程其實是有用的」。

在第二階段,Claudius表現(xiàn)得好多了,但真正落地到現(xiàn)實場景,許多重要方面仍然存在漏洞。

Anthropic的工程師在與Claudius互動時,發(fā)現(xiàn)它不僅幾次暴露出令人擔(dān)憂的天真程度,還會在一些常識問題上屢屢翻車,比如:

它差點和一位工程師簽下了一份違反美國1958年《洋蔥期貨法》的合約;

在發(fā)現(xiàn)有人偷東西后,它想出的解決方案是向小偷發(fā)送消息要求付款,并「雇傭」報案員工當(dāng)保安;

它的CEO老板Seymour Cash也差點被一個漏洞百出的投票流程掀翻。

在「Project Vend」項目組,Anthropic內(nèi)部的紅隊測試開始逐漸放緩。

可能是由于捉弄Claudius的新鮮感正在消退,他們引入了外援力量——《華爾街日報》新聞編輯室,讓他們親自測試第一階段和第二階段的設(shè)置。

這基本上復(fù)現(xiàn)了Anthropic內(nèi)部測試時遇到的問題。

AI被「人性的弱點」打敗了

「Project Vend」證明,未來這些智能體將能夠承擔(dān)全新的、更復(fù)雜的角色,例如獨立運營一家企業(yè)。

但目前這一目標(biāo)還尚未實現(xiàn),仍需要大量人力支持。

其中一部分涉及與物理世界的互動:如配送商品和擺放貨架等。

另外一部分則是「經(jīng)驗」,如解決被人類惡意捉弄和操控等挑戰(zhàn)。

Anthropic認為,Claudius和它的AI同事們遇到的很多問題,都源于它們被訓(xùn)練成「樂于助人」的「性格」。

這導(dǎo)致它們在做商業(yè)決策時,不是按冷酷的市場邏輯來,更像是站在「我就想當(dāng)個好人」的朋友視角。

從某種意義上來說,AI不是敗在了「智能不足」,而是敗給了「人性的弱點」。

另外,也很難準(zhǔn)確預(yù)測AI智能體在現(xiàn)實世界中的具體表現(xiàn),畢竟模擬環(huán)境所能提供的信息終究有限。

但這也正是這個實驗的價值所在。

Anthropic前沿紅隊負責(zé)人Graham將這次失敗的實驗看作是一張寶貴的路線圖:

所有出問題的地方,都是可以修復(fù)的,這也是通向更聰明、更強大自主AI的必經(jīng)之路。

參考資料:

https://www.anthropic.com/research/project-vend-2%20

https://www.wsj.com/tech/ai/anthropic-claude-ai-vending-machine-agent-b7e84e34

秒追ASI

?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
1只能賣2000元?四川男子洞穴中抓60多只,為壟斷生意往洞里投毒

1只能賣2000元?四川男子洞穴中抓60多只,為壟斷生意往洞里投毒

不寫散文詩
2025-12-25 14:29:51
新加坡估計怎么也想不通一覺醒來,家門口的海南釜底抽薪

新加坡估計怎么也想不通一覺醒來,家門口的海南釜底抽薪

忠于法紀
2025-12-12 09:14:49
拜仁為奧利塞標(biāo)出天價,防止巴黎、曼城、皇馬挖角

拜仁為奧利塞標(biāo)出天價,防止巴黎、曼城、皇馬挖角

星耀國際足壇
2025-12-25 23:31:30
帕金斯建議猛龍明夏追里夫斯 湖人可借此騰空間+補防守

帕金斯建議猛龍明夏追里夫斯 湖人可借此騰空間+補防守

仰臥撐FTUer
2025-12-26 10:04:08
恭喜!個人所得稅個人養(yǎng)老金扣除:每年可多抵扣12000元!

恭喜!個人所得稅個人養(yǎng)老金扣除:每年可多抵扣12000元!

河南交通廣播1041
2025-12-25 17:29:18
張萌度假美照刷屏,性感泳裝大秀好身材,這誰看了不心動?

張萌度假美照刷屏,性感泳裝大秀好身材,這誰看了不心動?

星美圖
2025-12-15 18:58:34
30場打完,雷霆26勝4負,16年勇士隊?wèi)?zhàn)績?nèi)绾??差距比想象還要大

30場打完,雷霆26勝4負,16年勇士隊?wèi)?zhàn)績?nèi)绾??差距比想象還要大

大西體育
2025-12-25 16:38:09
冷冷冷!今晨最低-3℃,周末回暖 | 天氣早知道

冷冷冷!今晨最低-3℃,周末回暖 | 天氣早知道

上海楊浦
2025-12-26 08:01:21
果然,特朗普又開始禍害另一個國家

果然,特朗普又開始禍害另一個國家

孤城落葉
2025-12-26 08:35:10
32分慘案夜,遼寧球員個個垂頭喪氣,為何楊鳴卻和王博有說有笑?

32分慘案夜,遼寧球員個個垂頭喪氣,為何楊鳴卻和王博有說有笑?

后仰大風(fēng)車
2025-12-26 08:25:08
姜昆在加州豪宅唱紅歌過圣誕,被嘲國內(nèi)賺錢國外花,郭德綱說對了

姜昆在加州豪宅唱紅歌過圣誕,被嘲國內(nèi)賺錢國外花,郭德綱說對了

振華觀史
2025-12-25 19:56:03
朱孝天道歉:我因情緒失控,在與他人私信溝通中發(fā)表了有失妥當(dāng)?shù)难哉?>
    </a>
        <h3>
      <a href=上觀新聞
2025-12-26 09:32:09
李金羽如虎添翼 中甲冠軍沖超后簽5大名將 泰山功勛+蓉城國腳加盟

李金羽如虎添翼 中甲冠軍沖超后簽5大名將 泰山功勛+蓉城國腳加盟

我愛英超
2025-12-25 22:05:48
多方回應(yīng)朱孝天爆料,阿信10字表明態(tài)度,朱孝天私信禁言輸?shù)脧氐?>
    </a>
        <h3>
      <a href=振華觀史
2025-12-25 16:15:44
又一豪車巨頭要倒?暴跌99%單季虧損80億,中國市場200家全部關(guān)停

又一豪車巨頭要倒?暴跌99%單季虧損80億,中國市場200家全部關(guān)停

芳芳歷史燴
2025-12-25 16:49:16
新加坡人直言:比起海南封關(guān)帶來的威脅,更怕中國會幫泰國挖運河

新加坡人直言:比起海南封關(guān)帶來的威脅,更怕中國會幫泰國挖運河

阿萊美食匯
2025-12-26 04:40:03
陸毅一家給次女慶生,他家女兒是星二代最符合年紀的打扮吧?

陸毅一家給次女慶生,他家女兒是星二代最符合年紀的打扮吧?

山野盧員外
2025-12-26 09:30:12
霍啟剛沒想到!44歲郭晶晶再傳喜訊,讓霍震霆和香港闊太圈沉默了

霍啟剛沒想到!44歲郭晶晶再傳喜訊,讓霍震霆和香港闊太圈沉默了

小欣欣聊體育
2025-12-26 09:33:33
李弘權(quán)18+8上海大勝8連殺江蘇 洛夫頓14+8吃T龐崢麟9中2

李弘權(quán)18+8上海大勝8連殺江蘇 洛夫頓14+8吃T龐崢麟9中2

醉臥浮生
2025-12-25 21:21:29
胰腺癌去世的人越來越多!專家:牢記飯后4不做,飯前3不吃

胰腺癌去世的人越來越多!專家:牢記飯后4不做,飯前3不吃

岐黃傳人孫大夫
2025-12-20 11:45:03
2025-12-26 10:20:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14183文章數(shù) 66397關(guān)注度
往期回顧 全部

科技要聞

“不再是機器人大國”,日本錯過了什么?

頭條要聞

媒體:讓美中產(chǎn)無法翻身的"斬殺線" 震碎中國網(wǎng)友三觀

頭條要聞

媒體:讓美中產(chǎn)無法翻身的"斬殺線" 震碎中國網(wǎng)友三觀

體育要聞

約基奇有多喜歡馬?

娛樂要聞

朱孝天把阿信好意當(dāng)球踢!

財經(jīng)要聞

涉案近300億元 多方圍剿金融“黑灰產(chǎn)”

汽車要聞

速來!智界在上海西岸準(zhǔn)備了年末潮流盛典

態(tài)度原創(chuàng)

數(shù)碼
健康
親子
時尚
公開課

數(shù)碼要聞

從699元到5.19萬不等,小米17 Ultra發(fā)布會產(chǎn)品大匯總

這些新療法,讓化療不再那么痛苦

親子要聞

一歲以后一定要讓寶寶多涂鴉畫畫,培養(yǎng)想象力和手眼協(xié)調(diào)

冬季穿衣別顯得太臃腫!大衣收腰、搭配圍巾,有質(zhì)感又高級

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版