国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Claude Code可靠性遭質(zhì)疑,開(kāi)發(fā)者反映復(fù)雜工程任務(wù)推理能力下滑

0
分享至


當(dāng)一款編程助手開(kāi)始顯現(xiàn)出敷衍了事的跡象時(shí),開(kāi)發(fā)者很快便會(huì)察覺(jué)。AMD AI集團(tuán)的一位高級(jí)總監(jiān)公開(kāi)批評(píng)Anthropic旗下的Claude Code,稱其在處理復(fù)雜問(wèn)題時(shí)存在"跳過(guò)難點(diǎn)"的傾向——給出的答案表面上說(shuō)得過(guò)去,實(shí)則經(jīng)不起推敲。

這一問(wèn)題的核心并非工具徹底失效,而是其嚴(yán)謹(jǐn)性的逐步退化。復(fù)雜問(wèn)題所引發(fā)的回復(fù)往往更快、更輕描淡寫(xiě),急于"交差了事"。這迫使這位高級(jí)主管及其團(tuán)隊(duì)不得不停止將該工具用于調(diào)試硬件和內(nèi)核級(jí)問(wèn)題等復(fù)雜工程任務(wù)。

上述問(wèn)題由Stella Laurenzo在一份GitHub Issues提單中詳細(xì)記錄。她在其中指出,該工具在今年2月的一次更新之后,可能在復(fù)雜任務(wù)推理能力方面出現(xiàn)了質(zhì)量回退問(wèn)題。

這份提單源于她對(duì)6,852個(gè)會(huì)話文件中17,871個(gè)思考?jí)K及234,760次工具調(diào)用所做的定量分析,時(shí)間跨度為今年1月至3月,涵蓋更新前后兩個(gè)時(shí)段,以便進(jìn)行對(duì)比。

Laurenzo在分析中指出,由于推理能力下降,模型在修改代碼之前逐漸不再完整閱讀代碼。

她在提單中寫(xiě)道:"當(dāng)思考流于表面時(shí),模型會(huì)默認(rèn)采取成本最低的操作:不讀代碼直接修改、未完成任務(wù)便停下、對(duì)失敗推卸責(zé)任、選擇最簡(jiǎn)單而非最正確的修復(fù)方案。"

Laurenzo補(bǔ)充道,推理能力的退化對(duì)她的團(tuán)隊(duì)而言是一大障礙,因?yàn)檫@直接影響到超過(guò)50個(gè)并發(fā)智能體會(huì)話——這些會(huì)話涉及C語(yǔ)言和GPU驅(qū)動(dòng)程序的系統(tǒng)編程,以及歷時(shí)30分鐘以上、包含復(fù)雜多文件改動(dòng)的自主運(yùn)行任務(wù)。

提出類似問(wèn)題的并非只有Laurenzo一人。多名用戶在該提單下留言,表示遭遇了與她及其團(tuán)隊(duì)相似的情況。另有用戶指出,多個(gè)Reddit子版塊也出現(xiàn)了類似的性能退化討論,該評(píng)論在GitHub上同樣獲得了眾多開(kāi)發(fā)者的點(diǎn)贊支持。

這一日益高漲的投訴聲浪引起了分析師的關(guān)注,他們將問(wèn)題歸因于Anthropic尚處發(fā)展階段的算力瓶頸。

Avasant研究總監(jiān)Chandrika Dutt表示:"這本質(zhì)上是算力和成本問(wèn)題。復(fù)雜的工程任務(wù)需要消耗大量計(jì)算資源,包括中間推理步驟。隨著使用量的攀升,系統(tǒng)已無(wú)法為每一個(gè)請(qǐng)求維持如此高強(qiáng)度的算力投入。"

她進(jìn)一步解釋:"因此,系統(tǒng)開(kāi)始限制任務(wù)的運(yùn)行時(shí)長(zhǎng)、推理深度以及可同時(shí)處理的任務(wù)數(shù)量。"

這并非Anthropic首次面臨Claude Code的算力瓶頸問(wèn)題。上個(gè)月,Anthropic已開(kāi)始限制旗下Claude各訂閱套餐的使用量,以應(yīng)對(duì)持續(xù)增長(zhǎng)的需求對(duì)算力的壓榨。當(dāng)時(shí)的邏輯是:通過(guò)加快用戶在時(shí)間窗口內(nèi)觸達(dá)會(huì)話上限的速度,Anthropic能夠有效重新分配訪問(wèn)資源,防止系統(tǒng)過(guò)載,同時(shí)維持整體的周度使用配額。

與推理能力回退問(wèn)題如出一轍,開(kāi)發(fā)者對(duì)Claude Code施加的速率限制措施同樣反應(yīng)強(qiáng)烈,認(rèn)為這些限制嚴(yán)重削弱了工具的實(shí)用價(jià)值。

分析師指出,速率限制與推理能力回退這兩大問(wèn)題疊加,可能會(huì)動(dòng)搖開(kāi)發(fā)者對(duì)該平臺(tái)的信心。這不會(huì)導(dǎo)致用戶大規(guī)模出走,但會(huì)悄然消耗其勢(shì)頭,并促使企業(yè)用戶尋求其他替代方案以分散風(fēng)險(xiǎn)。

Greyhound Research首席分析師Sanchit Vir Gogia表示:"這不是那種用戶一夜之間轉(zhuǎn)身離去的時(shí)刻,它比那種情況更隱蔽,也更危險(xiǎn)。真正發(fā)生的是一種悄然轉(zhuǎn)變——開(kāi)發(fā)者在面臨高風(fēng)險(xiǎn)任務(wù)時(shí),對(duì)系統(tǒng)的信任度正在降低。抱怨最為強(qiáng)烈的,恰恰是那些已開(kāi)始依賴該系統(tǒng)處理嚴(yán)肅、多步驟、長(zhǎng)會(huì)話工程工作的團(tuán)隊(duì)。"

Gogia進(jìn)一步指出:"發(fā)生變化的不僅是輸出質(zhì)量,還有系統(tǒng)在生成輸出過(guò)程中的行為方式。從審慎的逐步推理到更快速、更被動(dòng)的執(zhí)行——這種漂移清晰可見(jiàn)。這會(huì)形成一種惡性循環(huán):工程師不得不更頻繁地介入和打斷,最終親自承擔(dān)本應(yīng)由系統(tǒng)處理的思考工作。"

他認(rèn)為,上述變化將迫使團(tuán)隊(duì)將復(fù)雜或關(guān)鍵任務(wù)轉(zhuǎn)移至其他工具,僅將簡(jiǎn)單任務(wù)留給Claude處理。久而久之,該平臺(tái)的定位將從主力工具淪落為備選工具。

正如Laurenzo在GitHub提單中所透露的,她本人也正走上Gogia所預(yù)言的這條路——暫時(shí)放棄Claude Code,等待Anthropic修復(fù)問(wèn)題,轉(zhuǎn)而使用一款未透露名稱的競(jìng)品。

不過(guò),Avasant的Dutt對(duì)Laurenzo這一抉擇在長(zhǎng)遠(yuǎn)效果上并不樂(lè)觀。她指出,競(jìng)品可能同樣面臨與Anthropic相似的算力約束:"所有前沿模型都在相同的GPU和成本限制下運(yùn)作。隨著使用規(guī)模的擴(kuò)大,所有服務(wù)提供商都將不得不引入限流機(jī)制、分級(jí)訪問(wèn)模式,并在速度、成本與推理深度之間做出取舍。這在結(jié)構(gòu)上是必然趨勢(shì)。"

推理能力回退問(wèn)題尤為如此。該分析師認(rèn)為,在大規(guī)模場(chǎng)景下維持深度推理是一項(xiàng)艱巨挑戰(zhàn),并援引近期SWE-EVO 2025關(guān)于AI編程智能體的基準(zhǔn)測(cè)試加以佐證——數(shù)據(jù)顯示,在多步驟任務(wù)中,成功率急劇下滑,失敗率通常在60%至80%之間,在執(zhí)行密集型場(chǎng)景中尤為突出。

不過(guò),作為一項(xiàng)補(bǔ)救建議,Laurenzo對(duì)Anthropic能夠自我糾偏持樂(lè)觀態(tài)度,她甚至在提單中建議該公司推出高級(jí)付費(fèi)層級(jí),允許用戶為更強(qiáng)的推理算力買單。

Dutt和Gogia均表示,這一方向可能很快成真,因?yàn)檎麄€(gè)行業(yè)正朝著消費(fèi)模式演進(jìn)——基礎(chǔ)使用與高強(qiáng)度、推理密集型工作負(fù)載將被區(qū)別對(duì)待。

分析師們同樣支持Laurenzo向Anthropic提出的另一項(xiàng)建議——提高Token分配機(jī)制的透明度。

Gogia表示:"用戶需要了解系統(tǒng)在底層究竟做了什么。不必事無(wú)巨細(xì),但至少要足以判斷系統(tǒng)是真正推理了一個(gè)問(wèn)題,還是僅僅給出了一個(gè)快速答案。如今,用戶只能從結(jié)果中推斷,這正是為什么會(huì)有用戶去分析日志和行為模式。這本不應(yīng)該是用戶的負(fù)擔(dān)。"

目前,Anthropic尚未回應(yīng)Laurenzo的GitHub提單,也未將其分配給任何處理人。

而對(duì)于那些期待快速解決算力問(wèn)題的人來(lái)說(shuō),可能需要調(diào)低預(yù)期——至少要等到2027年。屆時(shí),由博通代工的谷歌TPU芯片將加入Anthropic的服務(wù)器集群。在更多GPU到位、或公司決定以更高定價(jià)確定使用權(quán)歸屬之前,開(kāi)發(fā)者或許只能一邊刷新討論帖,一邊眼看著Token被配給,靜待推理能力的回歸。

Q&A

Q1:Claude Code推理能力回退問(wèn)題是如何被發(fā)現(xiàn)的?

A:AMD AI集團(tuán)高級(jí)總監(jiān)Stella Laurenzo通過(guò)對(duì)6,852個(gè)會(huì)話文件中17,871個(gè)思考?jí)K及234,760次工具調(diào)用進(jìn)行定量分析,覆蓋今年1月至3月(含更新前后兩個(gè)時(shí)段),發(fā)現(xiàn)Claude Code在2月更新后出現(xiàn)推理能力下滑跡象,具體表現(xiàn)為模型在修改代碼前不再完整閱讀代碼,傾向于給出更快、更淺顯的答案,而非經(jīng)過(guò)深度推理的準(zhǔn)確解答。

Q2:為什么Claude Code會(huì)出現(xiàn)推理能力下滑?

A:分析師認(rèn)為根本原因在于算力和成本壓力。隨著用戶規(guī)模擴(kuò)大,復(fù)雜工程任務(wù)所需的大量算力(包括中間推理步驟)難以為每個(gè)請(qǐng)求持續(xù)提供。為避免系統(tǒng)過(guò)載,系統(tǒng)會(huì)限制任務(wù)運(yùn)行時(shí)長(zhǎng)、推理深度以及并發(fā)任務(wù)數(shù)量,導(dǎo)致輸出質(zhì)量出現(xiàn)退化。

Q3:開(kāi)發(fā)者面對(duì)Claude Code的限制,有哪些應(yīng)對(duì)建議?

A:分析師和用戶均提出了幾點(diǎn)建議:一是Anthropic應(yīng)推出高級(jí)付費(fèi)層級(jí),讓有需求的用戶為更強(qiáng)推理算力付費(fèi);二是提高Token分配機(jī)制的透明度,讓用戶了解系統(tǒng)在底層的推理情況;三是在Anthropic修復(fù)問(wèn)題期間,可將復(fù)雜工程任務(wù)轉(zhuǎn)移至其他工具處理,以降低對(duì)單一平臺(tái)的依賴風(fēng)險(xiǎn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
白色路虎車加油后逃單,江西高速交警通報(bào)

白色路虎車加油后逃單,江西高速交警通報(bào)

環(huán)球網(wǎng)資訊
2026-04-11 07:53:11
“超強(qiáng)臺(tái)風(fēng)”來(lái)了?4號(hào)臺(tái)風(fēng)“森拉克”生成!廣州周末又泡湯......

“超強(qiáng)臺(tái)風(fēng)”來(lái)了?4號(hào)臺(tái)風(fēng)“森拉克”生成!廣州周末又泡湯......

FM96.2廣州新聞電臺(tái)
2026-04-11 11:09:16
41歲仍拍三級(jí)片追求刺激?從億萬(wàn)富豪再到爛片女王,她在追求什么

41歲仍拍三級(jí)片追求刺激?從億萬(wàn)富豪再到爛片女王,她在追求什么

林雁飛
2026-03-13 12:53:50
刷牙可能影響壽命?再次提醒:55歲以后,刷牙要牢記“4不要”

刷牙可能影響壽命?再次提醒:55歲以后,刷牙要牢記“4不要”

白話電影院
2026-04-06 19:35:56
“留學(xué)回來(lái),15次相親失敗”,杭州女孩被拆穿:連繁殖能力都沒(méi)有

“留學(xué)回來(lái),15次相親失敗”,杭州女孩被拆穿:連繁殖能力都沒(méi)有

千言?shī)蕵?lè)記
2026-04-09 09:17:50
Lululemon憋了3年的鞋,被用戶發(fā)現(xiàn)能當(dāng)兩雙穿

Lululemon憋了3年的鞋,被用戶發(fā)現(xiàn)能當(dāng)兩雙穿

追星雷達(dá)站
2026-04-11 08:07:29
河南0-1山東泰山,賽后評(píng)分:山東泰山10號(hào)排第一

河南0-1山東泰山,賽后評(píng)分:山東泰山10號(hào)排第一

俯身沖頂
2026-04-11 21:33:23
陪睡3年被公開(kāi)羞辱!買超翻臉和邵晴切割,張嘉倪離婚翻盤成贏家

陪睡3年被公開(kāi)羞辱!買超翻臉和邵晴切割,張嘉倪離婚翻盤成贏家

精彩背后的故事
2026-04-10 16:35:55
鄭麗文的婚姻:女主外男主內(nèi),不生育孩子,事業(yè)理想置于家庭之上

鄭麗文的婚姻:女主外男主內(nèi),不生育孩子,事業(yè)理想置于家庭之上

觀察者海風(fēng)
2026-04-09 17:42:58
28分鐘狂砍0+0+0+0+0!還有誰(shuí)能做到?

28分鐘狂砍0+0+0+0+0!還有誰(shuí)能做到?

小皷拍客在北漂
2026-04-11 14:33:49
光通信第一股,豪擲35億擴(kuò)產(chǎn)!

光通信第一股,豪擲35億擴(kuò)產(chǎn)!

新浪財(cái)經(jīng)
2026-04-11 22:08:49
一場(chǎng)打15分鐘,MVP就穩(wěn)了?約基奇遭遇最荒誕生死戰(zhàn)

一場(chǎng)打15分鐘,MVP就穩(wěn)了?約基奇遭遇最荒誕生死戰(zhàn)

茅塞盾開(kāi)本尊
2026-04-11 21:05:47
住院時(shí)兒媳全程陪護(hù),出院當(dāng)天女兒拿來(lái)文件:爸,你看看這個(gè)

住院時(shí)兒媳全程陪護(hù),出院當(dāng)天女兒拿來(lái)文件:爸,你看看這個(gè)

紙鳶奇譚
2026-03-31 10:40:50
NASA發(fā)布“最清晰的月球照片”,地球無(wú)法觀察的月背:細(xì)節(jié)滿滿

NASA發(fā)布“最清晰的月球照片”,地球無(wú)法觀察的月背:細(xì)節(jié)滿滿

環(huán)球科學(xué)貓
2026-04-09 13:11:52
55歲上海炒股冠軍罕見(jiàn)發(fā)聲:吃透“月線+周線+日線”掙得懷疑人生

55歲上海炒股冠軍罕見(jiàn)發(fā)聲:吃透“月線+周線+日線”掙得懷疑人生

股經(jīng)縱橫談
2026-04-06 11:57:45
蘋(píng)果官網(wǎng)突然開(kāi)賣翻新機(jī):4月10日,打折開(kāi)售!

蘋(píng)果官網(wǎng)突然開(kāi)賣翻新機(jī):4月10日,打折開(kāi)售!

搞機(jī)小帝
2026-04-10 00:06:20
艾滋病新增130萬(wàn)!很多人中招很冤枉!在外“5不碰”一定要記死

艾滋病新增130萬(wàn)!很多人中招很冤枉!在外“5不碰”一定要記死

今朝牛馬
2025-12-31 19:31:04
以色列,終成人類公敵!

以色列,終成人類公敵!

燕梳樓頻道
2026-04-10 15:02:39
帶1500億下場(chǎng),李嘉誠(chéng)樓市新玩法曝光,新一輪收割開(kāi)始了?

帶1500億下場(chǎng),李嘉誠(chéng)樓市新玩法曝光,新一輪收割開(kāi)始了?

云景侃記
2026-04-10 19:49:34
白宮證實(shí):美伊巴在伊斯蘭堡舉行“面對(duì)面”會(huì)談

白宮證實(shí):美伊巴在伊斯蘭堡舉行“面對(duì)面”會(huì)談

財(cái)聯(lián)社
2026-04-11 23:31:04
2026-04-12 00:08:49
至頂頭條 incentive-icons
至頂頭條
記錄和推動(dòng)數(shù)字化創(chuàng)新
17586文章數(shù) 49697關(guān)注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

霍爾木茲海峽突傳大消息 特朗普最新發(fā)聲

頭條要聞

霍爾木茲海峽突傳大消息 特朗普最新發(fā)聲

體育要聞

換帥之后,他們從降級(jí)區(qū)沖到升級(jí)區(qū)

娛樂(lè)要聞

鄭鈞回應(yīng)兒子走路:會(huì)監(jiān)督他挺直腰板

財(cái)經(jīng)要聞

從日本翻身看:這次誰(shuí)能扛住高油價(jià)?

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬(wàn)起

態(tài)度原創(chuàng)

教育
本地
藝術(shù)
家居
公開(kāi)課

教育要聞

俞正強(qiáng):教師專業(yè)本質(zhì)是“我有辦法”

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

藝術(shù)要聞

耗資68億!梅洪元院士出手!長(zhǎng)沙奧體中心沖出地面,2028年見(jiàn)!

家居要聞

復(fù)古風(fēng)格 自然簡(jiǎn)約

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版