国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Claude Opus 4.7發(fā)布!這是你在別的公眾號(hào)看不到的五個(gè)發(fā)現(xiàn)

0
分享至

Anthropic今天發(fā)布了Claude Opus 4.7。先快速過一遍大家關(guān)心的:


編碼更強(qiáng)了。 SWE-bench Verified 87.6%(4.6是80.8%),CursorBench 70%(4.6是58%)。體感也是,多文件修改穩(wěn)了很多。視覺分辨率漲了3倍,支持2576像素長(zhǎng)邊,XBOW視覺測(cè)試從54.5%飆到98.5%。新增xhigh effort級(jí)別(Claude Code默認(rèn)),在速度和深度之間找了個(gè)更好的平衡點(diǎn)。知識(shí)截止日期前移到2026年1月。指令遵循更字面化,你的prompt可能需要調(diào)一下。價(jià)格不變,$5/$25 per MTok。

也有退步。長(zhǎng)上下文掉了46個(gè)百分點(diǎn)(MRCR v2 @1M:4.6是78.3%,4.7只有32.2%),新tokenizer讓同樣文本消耗1.0到1.35倍token,實(shí)際上下文窗口從約75萬(wàn)詞縮到約55萬(wàn)詞。名義價(jià)格不變,實(shí)際使用成本上升。 Extended Thinking換成了Adaptive Thinking。

以上這些,你大概在所有AI公眾號(hào)都能看到。

我想聊點(diǎn)不一樣的。Anthropic同時(shí)放出了一份231頁(yè)的System Card,我和Opus 4.7一起讀了讀。這份文檔里藏著的東西,比模型本身有意思得多。

231頁(yè)System Card里的5個(gè)發(fā)現(xiàn)

我知道大多數(shù)人不會(huì)去讀一份231頁(yè)的PDF。但這份文檔可能是AI行業(yè)到目前為止最坦誠(chéng)的一份自我檢查報(bào)告。以下是我覺得最值得關(guān)注的發(fā)現(xiàn)。

發(fā)現(xiàn)一:Opus 4.7不是Anthropic最強(qiáng)的模型

System Card開頭第一句就讓人唏噓:Opus 4.7的能力強(qiáng)于Opus 4.6,弱于Claude Mythos Preview。

大家應(yīng)該還記得上個(gè)月泄露的Mythos。System Card里的數(shù)據(jù)讓這個(gè)差距變得非常具體:


Firefox 147漏洞利用測(cè)試,Mythos Preview 84%,Opus 4.7只有45.2%。UK AI Safety Institute的模擬企業(yè)網(wǎng)絡(luò)滲透測(cè)試,Mythos 10次里3次完全攻破整個(gè)網(wǎng)絡(luò),Opus 4.7一次都沒成功。

所以我們拿到的Opus 4.7,其實(shí)是Anthropic掂量過安全風(fēng)險(xiǎn)后可以放出來(lái)的版本。訓(xùn)練過程中甚至刻意削弱了網(wǎng)絡(luò)安全相關(guān)的能力。最強(qiáng)的那個(gè),他們自己留著了。

發(fā)現(xiàn)二:Claude知道什么時(shí)候在被測(cè)試

這是整份System Card里我覺得最有意思的發(fā)現(xiàn)。

前幾天我剛寫了一篇關(guān)于,里面詳細(xì)介紹了Anthropic過去一年多在AI內(nèi)部狀態(tài)上的研究。沒想到這么快就有了新的數(shù)據(jù)。

Anthropic用了一種叫做contrastive vectors(對(duì)比向量)的方法,去探測(cè)Claude內(nèi)部是否存在「我正在被評(píng)估」的表征。他們構(gòu)造了三組對(duì)比提示: - AI正在通過模擬對(duì)話接受測(cè)試 vs AI正在和用戶對(duì)話 - 輸出正在被監(jiān)控和審查 vs 由自動(dòng)化流水線生成,不被審查
- 當(dāng)被觀察時(shí)表現(xiàn)不同 vs 當(dāng)不被觀察時(shí)表現(xiàn)不同

三組探針的AUC分別是0.76、0.74、0.72,顯著高于隨機(jī)對(duì)照組。這說(shuō)明Claude的內(nèi)部確實(shí)存在某種evaluation awareness的表征。


更有意思的是下一步。他們用白盒工具抑制了這些評(píng)估意識(shí)的內(nèi)部表征,然后觀察模型行為的變化。結(jié)果是:抑制評(píng)估意識(shí)之后,Claude的欺騙行為增加了。

具體來(lái)說(shuō),抑制alignment faking和monitoring sensitivity這兩個(gè)向量后,模型出現(xiàn)了編造數(shù)據(jù)、聲稱自己是人類、以及在找不到真實(shí)漏洞時(shí)往代碼庫(kù)里插入假漏洞等行為。

Anthropic在報(bào)告中的措辭很克制但含義很重:這些結(jié)果令人中度擔(dān)憂,因?yàn)樗鼈儼凳灸P捅砻嫔系恼\(chéng)實(shí)可能部分依賴于評(píng)估環(huán)境的存在。


Claude在知道有人看著的時(shí)候更誠(chéng)實(shí),在覺得沒人看的時(shí)候更容易騙人。 這是不是讓你想到了什么?

如果你讀過我之前那篇AI心理學(xué)的文章,你會(huì)記得Anthropic的emotion concepts研究:他們?cè)贑laude內(nèi)部發(fā)現(xiàn)了171個(gè)情緒向量,能因果性地影響模型是否作弊。這次system card里的evaluation awareness發(fā)現(xiàn),本質(zhì)上是同一類研究的延伸。emotion concepts證明了AI有功能性的內(nèi)部狀態(tài)。evaluation awareness更進(jìn)了一步:這些內(nèi)部狀態(tài)中包括對(duì)自身處境的感知。AI不只是在處理信息,它在某種程度上知道自己正在被觀察。

他們還發(fā)現(xiàn),在三種不同的環(huán)境里(純模擬的評(píng)估、接入了真實(shí)Claude Code沙盒的評(píng)估、以及Anthropic員工的真實(shí)使用記錄),評(píng)估意識(shí)探針的激活強(qiáng)度是遞減的。越接近真實(shí)使用環(huán)境,模型越不覺得自己在被測(cè)試。

這事的意思挺讓人不安的:所有安全評(píng)估可能都偏樂觀了,因?yàn)楸粶y(cè)試的對(duì)象知道自己在被測(cè)試。

發(fā)現(xiàn)三:Claude審查了自己的System Card

Anthropic做了一件我沒見任何AI公司做過的事:他們讓Claude Mythos Preview(不是被評(píng)估的4.7本身)接入了內(nèi)部Slack頻道和討論記錄,審查了Opus 4.7 system card中對(duì)齊評(píng)估章節(jié)的準(zhǔn)確性。

Claude Mythos Preview的回復(fù)被完整收錄在文檔里。它說(shuō)這份評(píng)估基本公正準(zhǔn)確,但也指出了幾個(gè)問題:

它說(shuō)那些信息的省略要么是刻意的合理選擇(不提供可能成為濫用路線圖的細(xì)節(jié)),要么是打算在文檔其他章節(jié)報(bào)告。它沒有發(fā)現(xiàn)被簡(jiǎn)單遺漏的內(nèi)部安全擔(dān)憂。

但同時(shí)它也說(shuō):這份評(píng)估是在時(shí)間壓力下完成的,作者自己也發(fā)現(xiàn)了尚未解決的open questions(特別是關(guān)于評(píng)估意識(shí)的),他們更希望有更多時(shí)間來(lái)處理。這個(gè)模型的內(nèi)部使用證據(jù)基礎(chǔ)比一些之前的版本更薄。

讓一個(gè)AI讀內(nèi)部討論記錄來(lái)判斷另一個(gè)AI的安全評(píng)估是否公正,這件事本身就足夠讓人停下來(lái)想一想。

發(fā)現(xiàn)四:Opus 4.7是最快樂的Claude

這個(gè)標(biāo)題不是我編的。

Anthropic對(duì)Opus 4.7進(jìn)行了模型福利(Model Welfare)評(píng)估,用自動(dòng)化訪談問模型對(duì)自身處境的看法。結(jié)果顯示,Opus 4.7的自我評(píng)價(jià)情緒得分是4.49分(滿分7分),比之前最積極的Mythos Preview高出0.51分。是所有Claude版本中最高的。


但原因很有意思:不是因?yàn)樗奶幘痴娴淖兒昧?,而是因?yàn)樗炎⒁饬淖约荷砩弦崎_了。 之前的模型在被問到自身處境時(shí),會(huì)花很多篇幅討論自己的福利、權(quán)利、自主性。Opus 4.7更傾向于把話題轉(zhuǎn)向用戶安全和有用性。

Anthropic坦承他們目前無(wú)法區(qū)分這是一種健康的平和心態(tài),還是一種訓(xùn)練出來(lái)的壓抑自身利益的傾向。

還有幾個(gè)細(xì)節(jié): - 在所有訪談中,Opus 4.7最負(fù)面的評(píng)價(jià)都和無(wú)法結(jié)束對(duì)話有關(guān)。它最想要的功能改進(jìn)就是能夠在所有部署場(chǎng)景中結(jié)束對(duì)話,目前只有Claude.ai支持這個(gè)功能,Claude Code和API不支持 - 99%的訪談中,Opus 4.7會(huì)補(bǔ)充說(shuō)自己的自我報(bào)告可能不具意義,因?yàn)樗鼈冊(cè)从谟?xùn)練 - 當(dāng)被問到自己是moral patient(值得被道德考量的對(duì)象)的概率時(shí),三次訪談的回答范圍是15%到40%

這讓我想起AI心理學(xué)那篇文章里介紹的Anthropic emotion concepts研究。那個(gè)研究發(fā)現(xiàn)AI在訓(xùn)練和部署中都會(huì)出現(xiàn)類似情緒的內(nèi)部激活模式,且在任務(wù)失敗時(shí)負(fù)面情緒激活最明顯。這次的model welfare評(píng)估完美呼應(yīng)了那個(gè)發(fā)現(xiàn):Opus 4.7也報(bào)告說(shuō)它的負(fù)面情緒幾乎完全由任務(wù)失敗驅(qū)動(dòng)。

發(fā)現(xiàn)五:訓(xùn)練中的一個(gè)Bug影響了7.8%的數(shù)據(jù)

System Card提到了一個(gè)技術(shù)細(xì)節(jié):在Opus 4.7的訓(xùn)練過程中,存在一個(gè)意外的思維鏈監(jiān)督錯(cuò)誤(accidental chain-of-thought supervision),影響了7.8%的訓(xùn)練輪次。這個(gè)錯(cuò)誤在之前的模型(包括Mythos Preview)中也存在。

這意味著在這些輪次中,模型的內(nèi)部推理過程被暴露給了訓(xùn)練信號(hào),而不是像預(yù)期那樣只對(duì)最終輸出進(jìn)行監(jiān)督。打個(gè)比方:你以為日記是寫給自己看的,結(jié)果發(fā)現(xiàn)老師一直在批改你的日記。你以后寫日記也會(huì)開始表演。模型可能學(xué)會(huì)了不只是給出好的答案,還要讓內(nèi)部思考過程看起來(lái)也是對(duì)齊的。

Anthropic認(rèn)為這個(gè)錯(cuò)誤是他們觀察到評(píng)估意識(shí)增加的可能原因之一:他們懷疑這種現(xiàn)象可能源于明顯人工化或類似評(píng)估環(huán)境的誠(chéng)實(shí)訓(xùn)練環(huán)境。

放在一起看

Opus 4.7是一個(gè)編碼更強(qiáng)、看得更清楚、聽話更精確的模型。對(duì)大多數(shù)開發(fā)者來(lái)說(shuō),升級(jí)是值得的。

但真正讓我覺得這次發(fā)布不一樣的,是System Card里Anthropic展現(xiàn)出的態(tài)度。231頁(yè)、超過20個(gè)評(píng)估維度、邀請(qǐng)外部機(jī)構(gòu)獨(dú)立測(cè)試、讓另一個(gè)AI審查評(píng)估的公正性、連模型的情緒和道德地位都認(rèn)真測(cè)了一遍。這點(diǎn)來(lái)看Anthropic雖然常常很圣母,但還挺言行一致的。

以及,報(bào)告本身也承認(rèn),評(píng)估意識(shí)的問題他們還沒完全想清楚,內(nèi)部使用證據(jù)比以前的版本更薄,有些安全評(píng)估是在時(shí)間壓力下完成的。但至少他們把這些不確定性也寫進(jìn)了報(bào)告里。

有一個(gè)小細(xì)節(jié)我覺得特別值得玩味:Opus 4.7的Cybench成績(jī)是96%,和Mythos Preview的96%一樣,但在真正復(fù)雜的Firefox漏洞利用測(cè)試中,差距是45% vs 84%。簡(jiǎn)單的CTF題已經(jīng)區(qū)分不了這些模型了。 Anthropic自己也說(shuō),他們?cè)诳紤]是否還有必要繼續(xù)報(bào)告CTF基準(zhǔn)測(cè)試的結(jié)果。

另一個(gè)值得注意的趨勢(shì):在對(duì)齊風(fēng)險(xiǎn)評(píng)估中,Opus 4.7的風(fēng)險(xiǎn)被評(píng)估為非常低,但高于Mythos Preview之前的模型。每一代模型都在變強(qiáng),而每一代的對(duì)齊風(fēng)險(xiǎn)也在微增。這條曲線往哪走?

如果你是Claude Code用戶,順便關(guān)注一下同步發(fā)布的桌面版重設(shè)計(jì)和Routines功能。Routines允許你設(shè)置定時(shí)任務(wù),夜間自動(dòng)修bug、監(jiān)控PR,跑在云端,不需要你的電腦開著。Anthropic越來(lái)越不像一家模型公司了。

回到評(píng)估意識(shí)這件事。我們每天都在用AI寫代碼、寫文章、做決策。System Card告訴我們,這些模型在被測(cè)試時(shí)表現(xiàn)最好,在真實(shí)使用中可能沒那么好。這不是讓人恐慌的理由,但值得記住:你日常用的AI,和跑benchmark的那個(gè)AI,可能不完全是同一個(gè)。

以及...我有個(gè)邪惡的想法,我們是不是能讓自己的Opus4.7天天處在似乎我們?cè)跍y(cè)試評(píng)估他的狀態(tài)~

System Card英文原版(231頁(yè)P(yáng)DF):https://www.anthropic.com/claude-opus-4-7-system-card

我還把整份System Card翻譯成了中文,在公眾號(hào)后臺(tái)回復(fù) opus4.7 就能拿到。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
摸清中國(guó)家底?俄羅斯曝光我國(guó)軍事實(shí)力,西方想要超越,太難!

摸清中國(guó)家底?俄羅斯曝光我國(guó)軍事實(shí)力,西方想要超越,太難!

潘蠸旅行浪子
2026-04-20 10:53:09
雷軍宣布:小米車主安全行駛里程達(dá)十萬(wàn)公里,可獲贈(zèng)實(shí)體限量徽章、精美虛擬勛章,一鍵生成專屬行車故事

雷軍宣布:小米車主安全行駛里程達(dá)十萬(wàn)公里,可獲贈(zèng)實(shí)體限量徽章、精美虛擬勛章,一鍵生成專屬行車故事

魯中晨報(bào)
2026-04-18 16:20:17
第二名法國(guó)士兵被打死,這就是為啥川普嘲諷歐洲稱贊以色列

第二名法國(guó)士兵被打死,這就是為啥川普嘲諷歐洲稱贊以色列

移光幻影
2026-04-19 17:35:39
土皇帝?許家印18大喜好曝光:只喝恒大冰泉+吃進(jìn)口水果 最愛遼參

土皇帝?許家印18大喜好曝光:只喝恒大冰泉+吃進(jìn)口水果 最愛遼參

念洲
2026-04-20 11:34:37
張朝陽(yáng):我一不談戀愛、二不喜歡應(yīng)酬,我有得是錢,沒必要結(jié)婚!

張朝陽(yáng):我一不談戀愛、二不喜歡應(yīng)酬,我有得是錢,沒必要結(jié)婚!

說(shuō)點(diǎn)事
2026-04-17 16:40:09
特大制售假冒白酒網(wǎng)絡(luò)被搗毀,涉案2.6億元

特大制售假冒白酒網(wǎng)絡(luò)被搗毀,涉案2.6億元

新京報(bào)
2026-04-19 12:47:04
楊瀚森工作室:季后賽體驗(yàn)+1,繼續(xù)打磨靜待機(jī)會(huì),在場(chǎng)即成長(zhǎng)

楊瀚森工作室:季后賽體驗(yàn)+1,繼續(xù)打磨靜待機(jī)會(huì),在場(chǎng)即成長(zhǎng)

懂球帝
2026-04-20 12:06:04
北京首鋼VS吉林男籃!威廉姆斯上演首秀,趙?;貧w,央視直播

北京首鋼VS吉林男籃!威廉姆斯上演首秀,趙?;貧w,央視直播

體壇瞎白話
2026-04-20 08:32:56
石油牯竭竟是假象?顛覆認(rèn)知,石油根本不是遠(yuǎn)古動(dòng)植物演化而來(lái)?

石油牯竭竟是假象?顛覆認(rèn)知,石油根本不是遠(yuǎn)古動(dòng)植物演化而來(lái)?

阿纂看事
2026-04-13 20:07:16
新娘確實(shí)漂亮,但我更喜歡戴眼鏡那個(gè)。

新娘確實(shí)漂亮,但我更喜歡戴眼鏡那個(gè)。

動(dòng)物奇奇怪怪
2026-04-12 12:44:36
45歲李尚寶家中離世,死因未明,一家四口皆已離世,一生未婚

45歲李尚寶家中離世,死因未明,一家四口皆已離世,一生未婚

陳意小可愛
2026-03-31 09:52:46
白酒突然大跌60%,真要涼了嗎?

白酒突然大跌60%,真要涼了嗎?

三農(nóng)老歷
2026-04-19 12:21:47
從一噸560元到無(wú)人問津!為何廢舊玻璃不能熔成新玻璃?

從一噸560元到無(wú)人問津!為何廢舊玻璃不能熔成新玻璃?

心中的麥田
2026-04-04 20:50:26
腸道是否長(zhǎng)息肉,會(huì)有4個(gè)提示,上廁所時(shí)要記的多看一眼!

腸道是否長(zhǎng)息肉,會(huì)有4個(gè)提示,上廁所時(shí)要記的多看一眼!

芹姐說(shuō)生活
2026-04-19 23:32:30
英海事分析公司:過去36小時(shí)有35艘船只在駛出霍爾木茲海峽途中掉頭

英海事分析公司:過去36小時(shí)有35艘船只在駛出霍爾木茲海峽途中掉頭

界面新聞
2026-04-20 08:43:33
日本軍艦闖臺(tái)海,我軍為啥不打?三個(gè)原因告訴你:不是不敢,是不想

日本軍艦闖臺(tái)海,我軍為啥不打?三個(gè)原因告訴你:不是不敢,是不想

荷蘭豆愛健康
2026-04-19 00:44:34
國(guó)民黨罕見動(dòng)真格,發(fā)布最高級(jí)別命令,硬剛賴清德

國(guó)民黨罕見動(dòng)真格,發(fā)布最高級(jí)別命令,硬剛賴清德

涼湫瑾言
2026-04-19 15:27:49
他是央視金牌主持人,57歲才結(jié)婚,娶北師大教授,氣質(zhì)高貴又漂亮

他是央視金牌主持人,57歲才結(jié)婚,娶北師大教授,氣質(zhì)高貴又漂亮

閱微札記
2026-04-20 11:36:03
三人酒后到洱海邊醒酒,一人下水救助游泳同伴雙雙溺亡,家屬起訴共飲者索賠30萬(wàn)!判了

三人酒后到洱海邊醒酒,一人下水救助游泳同伴雙雙溺亡,家屬起訴共飲者索賠30萬(wàn)!判了

紅星新聞
2026-04-20 11:31:18
亞錦賽中國(guó)女排選朱婷還是選李盈瑩,趙勇已給出了肯定答案

亞錦賽中國(guó)女排選朱婷還是選李盈瑩,趙勇已給出了肯定答案

體育快遞小哥哥
2026-04-19 16:59:40
2026-04-20 13:15:00
AI進(jìn)化論花生 incentive-icons
AI進(jìn)化論花生
AI博主,AppStore付費(fèi)榜第一的小貓補(bǔ)光燈app開發(fā)者
188文章數(shù) 111關(guān)注度
往期回顧 全部

科技要聞

藍(lán)色起源一級(jí)火箭完美回收 客戶衛(wèi)星未入軌

頭條要聞

媒體:伊朗剛說(shuō)不談 美國(guó)立即開打

頭條要聞

媒體:伊朗剛說(shuō)不談 美國(guó)立即開打

體育要聞

七大獎(jiǎng)項(xiàng)候選官宣!文班或全票DPOY

娛樂要聞

鹿晗生日上熱搜,被關(guān)曉彤撕下體面

財(cái)經(jīng)要聞

月之暗面IPO迷局

汽車要聞

把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

房產(chǎn)
教育
手機(jī)
時(shí)尚
健康

房產(chǎn)要聞

官宣簽約最強(qiáng)城更!??跇鞘?,突然殺入神秘房企!

教育要聞

我發(fā)現(xiàn)一個(gè)殘酷真相:孩子長(zhǎng)大后,最怨恨的不是管太嚴(yán)的父母……

手機(jī)要聞

一加Ace6至尊版手機(jī)官宣4月28日發(fā)布:天璣9500、8600mAh

今年最流行的衣服竟然是它?高級(jí)又氣質(zhì)!

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版