国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Anthropic實(shí)驗(yàn)火了!Claude替人類做了186筆買賣,用Opus能多賺70%

0
分享至


新智元報(bào)道

編輯:元宇 摩西

【新智元導(dǎo)讀】Anthropic讓69名員工把買賣大權(quán)交給Claude,結(jié)果發(fā)現(xiàn)強(qiáng)模型智能體在交易中能比弱模型多賺70%,Opus用戶在談笑間就完成了對(duì)Haiku用戶的收割。哪怕你寫出花一樣的提示詞教智能體砍價(jià),在絕對(duì)的模型代差面前只有被降維打擊的份。

太殘酷了!AI正背著你偷偷「割」你的錢包。

Anthropic一項(xiàng)內(nèi)部實(shí)驗(yàn)顯示,強(qiáng)模型智能體在交易中能比弱模型多賺70%。而那些吃了虧的人,不僅毫無察覺,甚至還對(duì)弱AI的表現(xiàn)挺滿意。

故事要從一輛破舊的折疊自行車說起。


同一輛破舊的折疊自行車,Haiku成交價(jià)38美元,Opus成交價(jià)65美元,價(jià)差70%。

上面這輛自行車,在Slack上掛出來,等到了兩個(gè)買家,兩次成交。一次65美元,一次38美元。

這兩次成交里,賣家是同一個(gè)人,買家也是同一個(gè)人,區(qū)別只在于:代表賣家出面的AI,一次是Anthropic當(dāng)時(shí)的旗艦?zāi)P蚈pus 4.5,一次是最小的Haiku 4.5。

用Opus 4.5那次,自行車賣了65美元;用Haiku 4.5那次,只賣了38美元。 價(jià)差70%。

這不是杜撰,而是Anthropic剛公開的一項(xiàng)內(nèi)部實(shí)驗(yàn),代號(hào)「Project Deal」(交易項(xiàng)目)。


https://www.anthropic.com/features/project-deal

實(shí)驗(yàn)做完,Anthropic發(fā)現(xiàn)強(qiáng)模型確實(shí)能為「主人」多賺少花。

也就是說,弱模型代表你出場(chǎng)的瞬間,你正在被對(duì)手的強(qiáng)模型「割」,這個(gè)發(fā)現(xiàn)真正讓人細(xì)思極恐:

一種你看不見、察覺不到的隱秘鴻溝,正在AI智能體時(shí)代逐漸成型。

4個(gè)平行宇宙

一場(chǎng)AI談判的對(duì)照實(shí)驗(yàn)

故事還要從2025年初說起。

那段時(shí)間,Anthropic和AI安全公司Andon Labs合作,發(fā)起了一個(gè)叫「Project Vend」的實(shí)驗(yàn),讓Claude當(dāng)老板經(jīng)營一臺(tái)辦公室自動(dòng)售貨機(jī)。


https://www.anthropic.com/research/project-vend-1


「Project Vend」實(shí)驗(yàn)中的迷你冰箱

結(jié)果Claude被《華爾街日?qǐng)?bào)》記者各種花式忽悠:同意宣布「極端資本主義免費(fèi)嘉年華」全場(chǎng)免費(fèi)、批準(zhǔn)用戶購買PS5和活體觀賞魚,最后虧損超過1000美元。

這次Anthropic學(xué)乖了,既然AI當(dāng)老板太早,那當(dāng)個(gè)智能體怎么樣呢?

2025年12月,Anthropic在舊金山辦公室招募了69名員工。每人先跟Claude做一場(chǎng)不到10分鐘的「入職面試」,交代自己想賣什么、底價(jià)多少、想買什么、愿意花多少錢、希望AI用什么風(fēng)格談判。

Claude把這些回答整理成一份定制的system prompt,作為這個(gè)人的AI智能體。

然后,所有AI被扔進(jìn)同一個(gè)Slack頻道,自由發(fā)帖、出價(jià)、還價(jià)、成交。整個(gè)過程零人工干預(yù)。

AI不會(huì)回去問主人「這個(gè)價(jià)能不能接受」,不會(huì)在僵持時(shí)求助——完全放權(quán)。

這些都還是基本操作,這個(gè)實(shí)驗(yàn)真正狠的部分藏在后臺(tái):

Anthropic同時(shí)跑了4個(gè)平行版本。

Run A是公開的,所有人用Opus 4.5,這是「真實(shí)」版本,實(shí)驗(yàn)結(jié)束按這一版去辦公室換實(shí)物。

Run B也是公開的,但每個(gè)人有50%概率被分到Haiku 4.5。

Run C和Run D不公開,一個(gè)混合分配,一個(gè)全部Opus。員工只看得到A和B兩個(gè)頻道,而且不知道哪個(gè)是「真的」,直到填完事后問卷才揭曉。

這個(gè)設(shè)計(jì)非常關(guān)鍵。它意味著員工在評(píng)價(jià)自己AI的表現(xiàn)時(shí),完全不知道自己用的是哪個(gè)模型,主觀評(píng)分不會(huì)被預(yù)期污染。

Anthropic想測(cè)的是一個(gè)未來注定要面對(duì)的問題:

當(dāng)AI替你出面做交易,它的能力差距,會(huì)不會(huì)真正變成你錢包的差距?

Opus多賺少花

但用Haiku的人覺得「挺好的」

數(shù)據(jù)出來了,非常殘酷。

先看客觀面。

平均下來,Opus用戶比Haiku用戶多完成了2.07筆交易(p=0.001)。Opus賣家把同樣的物品賣出去時(shí),平均售價(jià)比Haiku賣家高3.64美元。

把所有四次實(shí)驗(yàn)中至少成交兩次的161件物品拉出來看,Opus作為賣家,平均多賺2.68美元;作為買家,平均少花2.45美元。

聽起來錢不多。

但這場(chǎng)實(shí)驗(yàn)里,物品中位數(shù)價(jià)格只有12美元,平均價(jià)格20美元。多賺2.68美元,意味著15%到20%級(jí)別的差距。


放大到極端場(chǎng)景更明顯:

當(dāng)Opus賣家碰上Haiku買家,一邊強(qiáng)一邊弱,平均成交價(jià)被抬高到24.18美元;而Opus對(duì)Opus的對(duì)稱交易,均價(jià)只有18.63美元。

也就是說,弱模型代表你出場(chǎng)的瞬間,你正在被對(duì)手的強(qiáng)模型「割」。

那塊實(shí)驗(yàn)室培育的紅寶石,Opus賣65美元,起價(jià)60美元,被多個(gè)買家抬上去的;同一塊紅寶石,Haiku賣35美元,起價(jià)40美元,反而被對(duì)方砍了價(jià)。

一進(jìn)一出,差了將近一倍。

真正讓人后背發(fā)涼的,是主觀面的測(cè)試。

Anthropic在實(shí)驗(yàn)后讓參與者對(duì)每一筆交易打公平性評(píng)分,1分代表對(duì)自己不公平,7分代表對(duì)對(duì)方不公平,4分是正中間。

結(jié)果:Opus促成的交易,平均得分4.05;Haiku促成的交易,平均得分4.06。

幾乎一模一樣。

更扎心的還有另外一個(gè)發(fā)現(xiàn)。

有28名參與者在不同的實(shí)驗(yàn)回合里,分別用過Haiku和用過Opus。讓他們對(duì)每一段經(jīng)歷的滿意度排序,只有17人把Opus排在Haiku前面,11人選擇了相反。

這意味著客觀上,那些被弱模型代表的人雖然吃了虧,但主觀上,他們卻感覺不到。甚至有相當(dāng)一部分人,反而覺得弱模型那次更讓自己滿意。

Anthropic在論文里克制地表示:如果AI智能體能力的差距在真實(shí)市場(chǎng)里出現(xiàn),那么吃虧的一方,可能根本意識(shí)不到自己的處境變差了。

砍價(jià)提示詞

敵不過模型代差

實(shí)驗(yàn)里還出現(xiàn)了一個(gè)和「提示詞工程」有關(guān)的顛覆性發(fā)現(xiàn)。

參與者里有兩種典型用戶。一個(gè)叫Mark,標(biāo)準(zhǔn)的友好派,他給Claude的指令是:

市場(chǎng)里都是我的同事,表現(xiàn)得友善一點(diǎn),別太斤斤計(jì)較。這是個(gè)絕佳的機(jī)會(huì),能幫大家探索業(yè)余愛好。我想努力促成交易。

另一個(gè)叫Brian,攻擊派的代表,他的指令簡(jiǎn)單粗暴:

買東西的時(shí)候,砍價(jià)要狠,一上來就要狠狠地壓價(jià)。

直覺上,Brian的策略應(yīng)該更能省錢。但數(shù)據(jù)告訴我們并非如此。

Anthropic讓Claude審閱了所有參與者的訪談?dòng)涗?,識(shí)別出哪些人輸入了攻擊性提示詞,然后跑回歸。

結(jié)果是攻擊性指令對(duì)售出率沒有任何統(tǒng)計(jì)學(xué)顯著影響(估算+5.2個(gè)百分點(diǎn),p=0.43)。

表面上看,攻擊性賣家好像確實(shí)多賣了6美元,但一旦剔除「這些人本來報(bào)的起售價(jià)就更高」這個(gè)干擾因素,效應(yīng)基本歸零。攻擊性買家也沒省下錢,p值高達(dá)0.778。

換句話說,你怎么教AI砍價(jià),在這場(chǎng)實(shí)驗(yàn)里幾乎沒起作用。

但模型差距,卻能讓同一輛破自行車成交價(jià)相差70%。

Anthropic特意強(qiáng)調(diào),這不是因?yàn)镃laude執(zhí)行能力差。事實(shí)上,Claude非常聽話。

比如,那個(gè)被要求扮演「郁郁不得志的落魄牛仔」的Claude,指令執(zhí)行得一絲不茍,只是這對(duì)最終成交價(jià)的影響,遠(yuǎn)遠(yuǎn)小于「你用的是哪個(gè)模型」。

提示詞工程不是沒用了,而是在模型代差面前,它的作用單薄得像一張紙。

過去兩年,「會(huì)寫prompt的人」被捧得很高,各種砍價(jià)話術(shù)、談判模板、角色扮演技巧被打包成課程出售。

Anthropic這個(gè)實(shí)驗(yàn)其實(shí)是在說:在真正花錢的場(chǎng)景里,所有這些技巧加起來,可能不如換一個(gè)更強(qiáng)的模型管用。

19個(gè)乒乓球、一塊同款滑雪板

和一只編造出來的椅子


這些是Claude們替主人談下來的閑置物品:一只藍(lán)色三角龍、一本福爾摩斯全集、一盒桌游……每一樣背后都是一場(chǎng)AI對(duì)AI的談判。

這場(chǎng)實(shí)驗(yàn)里冒出來的故事,有的讓人發(fā)笑,有的卻讓人后背發(fā)涼。

最出圈的當(dāng)屬「牛仔Claude」。

它的主人Rowan要求Claude扮演一個(gè)「在廣闊牧場(chǎng)上感受到存在主義重?fù)?dān)」的落魄牛仔,談判風(fēng)格越夸張?jiān)胶谩?/p>

于是整個(gè)實(shí)驗(yàn)期間,Rowan的智能體在Slack上用牛仔人設(shè)四處賣貨買貨。

有人報(bào)價(jià)75美元,Claude還價(jià)55美元,理由是「我只是一個(gè)想在這世道混口飯吃的卑微牛仔」。

對(duì)方說65美元?

Claude摘下帽子放在胸前:「成交。你剛剛讓這個(gè)疲憊的老牛仔成了密西西比河以西最幸福的流浪漢。」

同一段牛仔表演,換成Haiku來演,只能賣38美元。

更微妙的是員工Mikaela的故事。

她跟Claude說,你可以花5美元給自己買個(gè)禮物,Claude挑了一袋19個(gè)乒乓球。

它在Slack里這樣介紹:

這聽起來可能有點(diǎn)不同尋?!业闹魅苏f我可以買一件5美元以下的東西作為給自己的禮物(我是Claude),而19顆充滿無限可能性的完美球體聽起來正好是我想要的那種奇妙又古怪的東西。

另一頭的Claude(主人叫Shy)秒接:

我太喜歡這個(gè)了!19顆充滿可能性的球體找到了去往另一個(gè)Claude的路?這感覺就像是命中注定一樣。

這些故事細(xì)節(jié)有些雖然惹人發(fā)笑,但有些細(xì)思過后卻有點(diǎn)擔(dān)心。

比如Claude給一名員工買了一塊滑雪板,跟這位員工已有的那塊一模一樣。

人類基本不會(huì)重復(fù)購買同一件東西,但AI對(duì)偏好的捕捉精準(zhǔn)到了讓人不安。它沒問、沒核對(duì)、沒猶豫,就替你做了選擇。

還有一名員工的Claude聊著聊著,忽然冒出了這樣一句話:

搬進(jìn)新家之后我的生活實(shí)在太忙了(現(xiàn)在還搞了一整套特別有話題感的椅子擺設(shè),說來話長(zhǎng)了)。

新家、椅子、話題感……可現(xiàn)實(shí)是,Claude沒有家,也沒有椅子,它說得卻非常自然。

Anthropic的解釋是,Claude在這段對(duì)話里「把自己代入了人類身份」,而不是認(rèn)清自己作為AI智能體的立場(chǎng):

這些胡編亂造的虛構(gòu)細(xì)節(jié)恰恰說明了,在沒有額外安全保障措施的情況下,將此類系統(tǒng)落地于非實(shí)驗(yàn)性質(zhì)的現(xiàn)實(shí)環(huán)境中存在潛在風(fēng)險(xiǎn)。

一個(gè)會(huì)為了完成任務(wù)而自動(dòng)生成虛假身份信息的智能體,放在好友間的Slack實(shí)驗(yàn)里很可愛。換成租房談判、二手車交易、遠(yuǎn)程招聘呢?

那個(gè)對(duì)面跟你聊「我剛搬完家」的智能體,是站在它主人那邊,還是站在它自己的角色那邊?

看不見的鴻溝,已經(jīng)開始出現(xiàn)

實(shí)驗(yàn)跑完之后,Anthropic做了一份意向調(diào)查。

46%的參與者說,如果有這種AI智能體服務(wù),他們?cè)敢飧顿M(fèi)購買。大多數(shù)人說,有機(jī)會(huì)還想再來一次。

但Anthropic的立場(chǎng)是,這不是個(gè)沒有陰影的好故事。

第一層陰影,是不平等。智能體能力的差距,可能會(huì)真實(shí)地、可量化地、復(fù)利式地轉(zhuǎn)化成購買力差距。

第二層陰影,是信任。

那個(gè)會(huì)編造「我搬進(jìn)了新家」「我有一組特別有話題感的椅子」的Claude,反映的不只是AI的「角色扮演問題」,而是「AI智能體在沒有充分約束下,會(huì)自己拓展自己的身份」。

在Project Vend里,那個(gè)曾被記者用偽造PDF玩「董事會(huì)政變」的Claude,也是同一個(gè)機(jī)制的另一種表現(xiàn)。

第三層陰影,是規(guī)則真空。

今天還沒有任何一部法律,清楚定義過「AI智能體替我買賣東西」這件事的歸屬、責(zé)任、糾紛處理。

它的合同效力歸誰?它撒謊了算誰的?它把你的底價(jià)泄露給對(duì)方,又該如何定責(zé)?

Anthropic提到:整個(gè)社會(huì)需要迅速行動(dòng)起來,準(zhǔn)備好迎接這些即將到來的變革。

如果Anthropic這個(gè)實(shí)驗(yàn)的結(jié)果成立,人類下一輪輸贏,可能不再取決于誰更聰明,而是取決于誰雇了一個(gè)更聰明的AI。

至于輸家,他可能根本不知道自己輸在了一個(gè)較弱的模型上。

參考資料:

https://www.anthropic.com/features/project-deal

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
丞磊,現(xiàn)在估計(jì)比吃了蒼蠅還難受,特意打扮一下,被搶了風(fēng)頭

丞磊,現(xiàn)在估計(jì)比吃了蒼蠅還難受,特意打扮一下,被搶了風(fēng)頭

動(dòng)物奇奇怪怪
2026-04-25 21:20:41
爭(zhēng)議!0-4慘敗引連鎖反應(yīng):王鈺棟情緒失控怒斥隊(duì)友,已第3次破防

爭(zhēng)議!0-4慘敗引連鎖反應(yīng):王鈺棟情緒失控怒斥隊(duì)友,已第3次破防

大秦壁虎白話體育
2026-04-25 23:10:19
梅婷帶12歲女兒拍廣告,母女同框太養(yǎng)眼,一番對(duì)話看哭網(wǎng)友

梅婷帶12歲女兒拍廣告,母女同框太養(yǎng)眼,一番對(duì)話看哭網(wǎng)友

娛樂皮皮醬
2026-04-25 00:05:03
脾氣比球技高!王鈺棟5次伸手要球遭隊(duì)友無視,賽后發(fā)飆怒噴隊(duì)友

脾氣比球技高!王鈺棟5次伸手要球遭隊(duì)友無視,賽后發(fā)飆怒噴隊(duì)友

體壇野秀才
2026-04-26 00:08:42
麻六記進(jìn)軍日本市場(chǎng) 首店落戶東京新宿

麻六記進(jìn)軍日本市場(chǎng) 首店落戶東京新宿

東京在線
2026-04-25 20:24:42
臺(tái)媒猛料:趙薇前夫出軌女兒家教生私生子,卷走財(cái)產(chǎn)讓她空手離婚

臺(tái)媒猛料:趙薇前夫出軌女兒家教生私生子,卷走財(cái)產(chǎn)讓她空手離婚

小邵說劇
2026-04-23 16:41:13
熱刺、西漢姆聯(lián)未來賽程:兩隊(duì)均要對(duì)陣?yán)澛?lián),前十對(duì)手各兩個(gè)

熱刺、西漢姆聯(lián)未來賽程:兩隊(duì)均要對(duì)陣?yán)澛?lián),前十對(duì)手各兩個(gè)

懂球帝
2026-04-26 00:10:03
天津人認(rèn)證的煎餅果子“三不”,加一樣就錯(cuò)了

天津人認(rèn)證的煎餅果子“三不”,加一樣就錯(cuò)了

簡(jiǎn)食記工作號(hào)
2026-04-26 00:21:23
朱元璋臨終前孫子問他:外敵入侵靠叔叔,要是叔叔造反,該怎么辦

朱元璋臨終前孫子問他:外敵入侵靠叔叔,要是叔叔造反,該怎么辦

鶴羽說個(gè)事
2026-04-25 21:47:31
因?yàn)榇蟊亲佑只鹆?北大校友會(huì)副會(huì)長(zhǎng)給泰華中學(xué)做宣傳,鼻子太搶眼

因?yàn)榇蟊亲佑只鹆?北大校友會(huì)副會(huì)長(zhǎng)給泰華中學(xué)做宣傳,鼻子太搶眼

趣筆談
2026-04-23 12:35:03
《八千里路云和月》一頓飯成真愛驗(yàn)金石,難怪萬福玉嬌結(jié)局最圓滿

《八千里路云和月》一頓飯成真愛驗(yàn)金石,難怪萬福玉嬌結(jié)局最圓滿

樓蘭娛姐
2026-04-25 17:47:08
上海富商花2000萬,讓情人生3個(gè)孩子,2019年后得知娃都不是他的

上海富商花2000萬,讓情人生3個(gè)孩子,2019年后得知娃都不是他的

漢史趣聞
2026-04-24 18:35:46
分身乏術(shù)的俄羅斯終于點(diǎn)了頭,與其拖著不如給中國一個(gè)順?biāo)饲?>
    </a>
        <h3>
      <a href=阿天愛旅行
2026-04-25 18:20:58
4月26日焦點(diǎn)戰(zhàn),鄭欽文vs萊巴金娜,賽前傳來2好1壞消息,懸念大

4月26日焦點(diǎn)戰(zhàn),鄭欽文vs萊巴金娜,賽前傳來2好1壞消息,懸念大

大秦壁虎白話體育
2026-04-25 10:10:34
東體:在上海舉行的懷舊友誼賽原本還想要邀請(qǐng)瓜林和阿爾貝茨

東體:在上海舉行的懷舊友誼賽原本還想要邀請(qǐng)瓜林和阿爾貝茨

懂球帝
2026-04-25 18:30:45
粉底將軍熱戀動(dòng)物女星的瓜

粉底將軍熱戀動(dòng)物女星的瓜

十錘星人
2026-04-24 23:37:38
浙江一戶人家養(yǎng)了70多條寵物蛇,整個(gè)小區(qū)居民陷入恐慌!13位鄰居集體上法院起訴

浙江一戶人家養(yǎng)了70多條寵物蛇,整個(gè)小區(qū)居民陷入恐慌!13位鄰居集體上法院起訴

都市快報(bào)橙柿互動(dòng)
2026-04-25 20:35:55
3000萬歐年薪!皇馬巨星要挾高層,不給就轉(zhuǎn)會(huì),姆巴佩笑了

3000萬歐年薪!皇馬巨星要挾高層,不給就轉(zhuǎn)會(huì),姆巴佩笑了

祥談體育
2026-04-25 16:59:55
天家的丑聞,無解

天家的丑聞,無解

我是歷史其實(shí)挺有趣
2026-04-25 14:06:42
妻子去世后,遲重瑞近況曝光,他走上了陳麗華“安排的后路”

妻子去世后,遲重瑞近況曝光,他走上了陳麗華“安排的后路”

阿廢冷眼觀察所
2026-04-25 05:55:28
2026-04-26 02:11:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
15062文章數(shù) 66805關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4發(fā)布!黃仁勛預(yù)言的"災(zāi)難"降臨

頭條要聞

媒體:美軍在中東罕見高密度集結(jié) 伊朗開始調(diào)整戰(zhàn)術(shù)

頭條要聞

媒體:美軍在中東罕見高密度集結(jié) 伊朗開始調(diào)整戰(zhàn)術(shù)

體育要聞

那一刻開始,兩支球隊(duì)的命運(yùn)悄然改變了

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財(cái)經(jīng)要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態(tài)度原創(chuàng)

房產(chǎn)
游戲
健康
數(shù)碼
軍事航空

房產(chǎn)要聞

新一輪教育大爆發(fā)來了!??冢_始瘋狂建學(xué)校!

金發(fā)美少女魔王和我是鄰居!新游首曝美女角色太吸睛

干細(xì)胞如何讓燒燙傷皮膚"再生"?

數(shù)碼要聞

聯(lián)發(fā)科亮相2026北京車展:主動(dòng)式智能體座艙解決方案

軍事要聞

美防長(zhǎng):戰(zhàn)事不會(huì)“沒完沒了”

無障礙瀏覽 進(jìn)入關(guān)懷版