国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5.4發(fā)布,AI的最強(qiáng)之爭已經(jīng)結(jié)束了!

0
分享至

GPT-5.4發(fā)布了。

說實(shí)話,我猶豫了半天要不要寫這篇。真的被模型發(fā)布搞疲了。隔幾周一個新版本,每次都是「史上最強(qiáng)」,但你真用起來,體感差異越來越小??颗芤粌蓚€benchmark,已經(jīng)越來越難測出模型的真實(shí)能力了,需要更長時間的日常使用才有體感。
而且就拿我最常用的agentic能力和coding能力來說,我不太相信GPT一個小版本的更新能超過Claude。所以對我日常使用最多的模型,其實(shí)沒什么影響。

但看完GPT-5.4的數(shù)據(jù)之后,我還是決定寫。不是因?yàn)樗卸鄰?qiáng),而是因?yàn)槲野l(fā)現(xiàn)了一個更有意思的事。我打開了三個網(wǎng)頁:OpenAI的博客、Anthropic的定價頁、Google的Gemini文檔,把三家的數(shù)據(jù)攤在一起看。

結(jié)論讓我有點(diǎn)意外:它們已經(jīng)不在同一條賽道上了。

先說結(jié)論:不再有「最好的AI」

一年前,「哪個AI最好」還是個合理的問題。各家模型能力分布還比較均勻,都在同一條賽道上跑。

現(xiàn)在這個問題過時了。

想操控電腦、做PPT、跑知識工作?GPT-5.4。想寫代碼、跑Agent、做復(fù)雜開發(fā)?Claude Opus 4.6。想要最強(qiáng)推理、圖片視頻理解、最大上下文、最低價格?Gemini 3.1 Pro。

我自己就是這么用的。平時寫代碼,左邊開著Codex做審查,中間跑Claude Code寫實(shí)際代碼,右邊還有個Cursor兜底。Codex的上下文工程優(yōu)化比Claude Code好不少,能在一個窗口下不停布置任務(wù)不用擔(dān)心上下文撐爆。但Opus的天花板更高,獨(dú)立解決復(fù)雜問題的能力沒有對手。所以日常就是混著用,各取所長。

說個更直觀的數(shù)據(jù):我今年和ChatGPT的對話量比去年減少了90%以上。不是ChatGPT變差了,是我的需求被Claude Code、Cursor、Gemini分走了。不同任務(wù)交給不同模型,你不會拿錘子去擰螺絲。

之前有人問我:「花叔,你推薦哪個AI?」

我的回答是:這取決于你是誰。

產(chǎn)品經(jīng)理或分析師,日常做報告、處理數(shù)據(jù)?ChatGPT Plus大概率是你的最優(yōu)解,GPT-5.4的知識工作能力確實(shí)強(qiáng)。

開發(fā)者,寫代碼是主要需求?Claude Code + Opus 4.6,目前沒有對手。YC剛公布的Winter 26批次數(shù)據(jù)也印證了這一點(diǎn):Anthropic占比52%,首次超過OpenAI。去年OpenAI還占90%以上,一年完全逆轉(zhuǎn)了。

對價格敏感,或者需要處理超長文本、音視頻分析?Gemini。$2/$12的價格加2M token上下文,性價比無敵。

如果你是資深用戶,可能最終會像我一樣:三個都用,看菜下鍋。

結(jié)論說完了。下面看看GPT-5.4到底做了什么,以及三家是怎么走到這一步的。

GPT-5.4到底做了什么

先過一遍GPT-5.4的數(shù)據(jù)。說實(shí)話,有幾個確實(shí)讓我眼前一亮。

Computer Use,就是讓AI直接操控你的電腦。GPT-5.4在OSWorld基準(zhǔn)測試上拿到75.0%,超過了人類基準(zhǔn)的72.4% 。這是所有AI模型第一次在這個測試上超越人類。上一代GPT-5.2才47.3%,一個版本漲了快一倍,這個提升幅度我覺得是這次最值得關(guān)注的。


知識工作也很猛。GDPval達(dá)到83.0%,意思是在44個職業(yè)的專業(yè)任務(wù)里,GPT-5.4有八成以上能打平或超越行業(yè)專家。投行建模從68.4%跳到87.3%,做PPT時人類評審有68%的概率更喜歡GPT-5.4的版本。這個數(shù)據(jù)要是真的,華爾街的junior analyst該緊張了。


上下文窗口拉到了100萬token,OpenAI迄今最大。還出了個叫Tool Search的新功能,跑Agent的時候不用把所有工具定義塞進(jìn)prompt了,模型自己按需查找,token消耗直接減了47%。做Agent開發(fā)的應(yīng)該會很開心。

但你仔細(xì)看,這些最亮眼的提升都指向同一個方向:讓AI替你干白領(lǐng)的活。操控電腦、做PPT、投行建模、知識工作。OpenAI押的注很明確:AI不只是聊天工具,它要做你的數(shù)字員工。

但編程呢?

這是我最關(guān)心的部分,也是最有意思的部分。

GPT-5.4在SWE-Bench Pro上的成績是57.7%。上一代GPT-5.2是56.8%。

提升了0.9個百分點(diǎn)。

你沒看錯。一個做了Computer Use超越人類、1M上下文、投行建模87%的模型,編程能力只漲了0.9%。Claude Opus 4.6在SWE-Bench Verified上是80.8%,依然世界第一。(這倆是不同難度的測試,Pro更難,但0.9%的提升本身就說明問題。)


OpenAI不是做不好,是選擇把資源放在了別的地方。

這和我實(shí)際用下來的感受完全對得上。Codex的gpt-5.2-codex選high模式時,后端能力確實(shí)強(qiáng),能跑一個多小時完全沒bug。但速度太慢了,思考時間過久,審美也差,讓它做前端基本不行。Opus雖然貴,但處理創(chuàng)意代碼工作時天花板明顯更高,經(jīng)常能獨(dú)立解決我好幾個月沒搞定的功能問題。

所以我日常就是混著用:Opus處理需要創(chuàng)造力的代碼,Codex做規(guī)劃和審查。

但我不覺得OpenAI是「編程不行」或「不想打這仗」。恰恰相反,OpenAI的野心比編程大得多,它想替代的是更廣泛的白領(lǐng)工作。你看它這次選的benchmark就知道了:Computer Use、投行建模、PPT評審、44個職業(yè)的知識工作。編程只是其中一個,甚至不是最重要的那個。

三張成績單

我把三家的數(shù)據(jù)都扒了一遍,攤在一起看,格局就很清楚了。


GPT-5.4贏了Computer Use和知識工作,Claude Opus 4.6贏了編程和Agent,Gemini 3.1 Pro贏了推理和性價比。沒有一家全贏。GPT-5.4贏了5個benchmark類別,Gemini贏了4個,Opus贏了3個。

但比誰贏了什么更有意思的,是各自的短板。

GPT-5.4編程就不說了,0.9%的提升。定價也是三家最貴的,Pro版輸出$180/百萬token,是Opus的7倍多。你用Pro版跑一個稍微復(fù)雜的Agent任務(wù),賬單看了可能會心疼。


Claude Opus 4.6呢,上下文窗口只有200K(1M還在beta),也沒有原生Computer Use。寫代碼無敵,但你讓它幫你操作電腦,目前還不行。

Gemini 3.1 Pro沒有Computer Use,編程也不如前兩家。但推理能力真的強(qiáng),ARC-AGI-2上77.1%,甩了另外兩家一條街。多模態(tài)理解也是三家最強(qiáng),圖片視頻分析這塊沒對手。加上$2/$12的定價和2M token上下文,Google這波性價比打得很猛。

看到這,你可能和我一樣想到了一件事:三家的強(qiáng)項(xiàng)和短板,剛好指向了三條完全不同的路。

三條路

GPT-5.4走的是白領(lǐng)替代路線。

操控電腦、做PPT、投行建模、知識工作。ChatGPT付費(fèi)用戶超過千萬,這些人不寫代碼,他們寫報告、做分析、處理數(shù)據(jù)。GPT-5.4就是為他們做的。

Claude走的是開發(fā)者搭檔路線。

編程世界第一、Claude Code在開發(fā)者圈子里口碑炸裂、Agent能力最強(qiáng)。我自己從去年8月開始用Claude Code搭了自動化寫作工作流,現(xiàn)在寫文章的效率提升太多了。Anthropic不追求ChatGPT那種C端規(guī)模,在開發(fā)者生態(tài)里做到不可替代就夠了。

Gemini走的是推理+多模態(tài)+性價比路線。

推理能力領(lǐng)先,多模態(tài)理解也是三家最強(qiáng)的。我現(xiàn)在分析圖片、理解視頻內(nèi)容都交給Gemini做,這塊確實(shí)沒對手。加上2M上下文和$2/$12的定價,性價比碾壓。國內(nèi)字節(jié)的Seed 2.0模型也在往這個方向走,多模態(tài)+低價正在成為一條清晰的賽道。

為什么Google敢定最低價、給最大上下文?因?yàn)镚emini不需要單獨(dú)賺錢。Google有搜索、有YouTube、有Android,Gemini的作用是讓整個生態(tài)更強(qiáng)。它的ROI不是用API收入算的。

三條路,三種賭注。


但OpenAI最大的問題不是技術(shù)

GPT-5.4技術(shù)上確實(shí)強(qiáng)。但OpenAI現(xiàn)在面對的最大挑戰(zhàn),和模型能力無關(guān)。

2月28日,OpenAI和美國國防部簽了正式合同。幾天前Anthropic剛剛公開拒絕了同一份合同,理由是五角大樓不愿加入「明確禁止自主武器部署」的條款。然后QuitGPT運(yùn)動就爆發(fā)了。

超過250萬人取消了ChatGPT訂閱或承諾停用,OpenAI舊金山總部門口有了抗議,900多名OpenAI和Google員工聯(lián)名簽公開信。

時機(jī)很微妙。GPT-5.4恰好在QuitGPT最高潮的時候發(fā)布。ChatGPT的市場份額已經(jīng)從高峰期的87%降到約68% ,Gemini從不到5%漲到18%以上。模型做得再好,用戶在流失,這個問題比任何benchmark都嚴(yán)重。

最強(qiáng)之爭,結(jié)束了

過去三年,AI的故事一直是「通用智能」:一個模型什么都能做,而且越來越強(qiáng)。

GPT-5.4打破了這個敘事。

它確實(shí)強(qiáng),但它強(qiáng)的方式說明了一件事:即便是最頂尖的AI公司,也得做取舍了。Computer Use超越人類,但編程只漲了0.9%。Claude編程無敵,但上下文只有競品的五分之一。Gemini推理最強(qiáng)價格最低,但Agent和Computer Use都不行。

每家都在自己選的賽道上做到了極致,同時接受了其他賽道的平庸。

我之前寫GPT-5發(fā)布時說過,AI的iPhone 4時刻已經(jīng)過去了?,F(xiàn)在回頭看,不只是「Wow時刻」沒了,連「誰是最強(qiáng)」這個問題本身都過時了。

對我們這些日常在用AI的人來說,這反而是好事。不用再糾結(jié)「到底選哪個」,根據(jù)自己的需求選就行。寫代碼用Claude,做知識工作用ChatGPT,省錢或跑長文本用Gemini。就像你不會只用一把刀做所有菜。

GPT-5.4發(fā)布了。但AI的「最強(qiáng)之爭」,已經(jīng)結(jié)束了。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
他接受紀(jì)律審查和監(jiān)察調(diào)查

他接受紀(jì)律審查和監(jiān)察調(diào)查

錫望
2026-04-20 18:03:58
慘敗上海發(fā)布會!烏戈向球迷道歉,不滿全隊(duì)?wèi)B(tài)度,強(qiáng)調(diào)最糟比賽!

慘敗上海發(fā)布會!烏戈向球迷道歉,不滿全隊(duì)?wèi)B(tài)度,強(qiáng)調(diào)最糟比賽!

籃球資訊達(dá)人
2026-04-20 23:44:59
阿聯(lián)酋沒美元了

阿聯(lián)酋沒美元了

凱利經(jīng)濟(jì)觀察
2026-04-20 12:17:23
震驚世界  美國校園槍擊慘案  一共 13 人死亡

震驚世界 美國校園槍擊慘案 一共 13 人死亡

那些看得見的老照片
2026-04-20 07:00:08
難怪伊朗拒絕談判,美方發(fā)現(xiàn),伊朗的兩張底牌,現(xiàn)在用出來很無解

難怪伊朗拒絕談判,美方發(fā)現(xiàn),伊朗的兩張底牌,現(xiàn)在用出來很無解

探史
2026-04-21 00:23:19
觸目驚心,大學(xué)生正在淪為最廉價勞動力,教育初心何在?

觸目驚心,大學(xué)生正在淪為最廉價勞動力,教育初心何在?

宏哥談商道
2026-04-18 19:00:03
上海偶遇李晨吃包子,看著挺壯實(shí)一人,晚飯居然就吃三個包子

上海偶遇李晨吃包子,看著挺壯實(shí)一人,晚飯居然就吃三個包子

悅君兮君不知
2026-04-19 13:21:45
采訪了100個娶了小三的男人,他們幾乎都說了同一句話,讓人恍然

采訪了100個娶了小三的男人,他們幾乎都說了同一句話,讓人恍然

千秋文化
2026-04-15 20:18:32
多名院士調(diào)查發(fā)現(xiàn):吃一口香椿,就或等于進(jìn)一次毒,真的假的?

多名院士調(diào)查發(fā)現(xiàn):吃一口香椿,就或等于進(jìn)一次毒,真的假的?

荊醫(yī)生科普
2026-04-17 15:32:24
快訊!美國財長貝森特表態(tài)了!

快訊!美國財長貝森特表態(tài)了!

達(dá)文西看世界
2026-04-20 10:02:57
日本壟斷全球90%!一旦斷供,別國造不出,中國咋辦?

日本壟斷全球90%!一旦斷供,別國造不出,中國咋辦?

今墨緣
2026-04-14 09:57:22
盧偉:主場21戰(zhàn)全勝超出預(yù)期,現(xiàn)在最擔(dān)心兩名大外的狀態(tài)問題

盧偉:主場21戰(zhàn)全勝超出預(yù)期,現(xiàn)在最擔(dān)心兩名大外的狀態(tài)問題

懂球帝
2026-04-20 23:33:08
一張“職高女生氛圍照”火了,被全網(wǎng)嘲笑:別給學(xué)不明白找借口了

一張“職高女生氛圍照”火了,被全網(wǎng)嘲笑:別給學(xué)不明白找借口了

世界圈
2026-04-07 13:11:51
小s愧疚網(wǎng)友不買賬,一年多來從未關(guān)心玥兒箖箖,冷漠的讓人心寒

小s愧疚網(wǎng)友不買賬,一年多來從未關(guān)心玥兒箖箖,冷漠的讓人心寒

打小我就醜
2026-04-21 00:33:10
山西偷情女子已社死,丈夫扒出賬號,不止一次出軌,酒店也受牽連

山西偷情女子已社死,丈夫扒出賬號,不止一次出軌,酒店也受牽連

小虎新車推薦員
2026-04-21 01:25:54
售價10999元起,華為發(fā)布全球首款大闊折手機(jī)

售價10999元起,華為發(fā)布全球首款大闊折手機(jī)

大象新聞
2026-04-20 16:51:05
反打6-2!希金斯第二階段橫掃卡特,世界冠軍闖進(jìn)世錦賽16強(qiáng)

反打6-2!希金斯第二階段橫掃卡特,世界冠軍闖進(jìn)世錦賽16強(qiáng)

世界體壇觀察家
2026-04-21 00:50:23
如果中國要建立新省,3個地方可能性最大,看看有沒有你的家鄉(xiāng)?

如果中國要建立新省,3個地方可能性最大,看看有沒有你的家鄉(xiāng)?

芳芳?xì)v史燴
2026-04-20 23:25:30
血糖高不高,上廁所就知道?醫(yī)生:尿液出現(xiàn)這3種變化要引...

血糖高不高,上廁所就知道?醫(yī)生:尿液出現(xiàn)這3種變化要引...

袁醫(yī)生課堂
2026-01-07 19:41:04
國家免費(fèi)電視全民普及:5分鐘設(shè)置教程,永久無套路實(shí)用指南

國家免費(fèi)電視全民普及:5分鐘設(shè)置教程,永久無套路實(shí)用指南

小蜜情感說
2026-04-18 08:34:02
2026-04-21 02:47:00
AI進(jìn)化論花生 incentive-icons
AI進(jìn)化論花生
AI博主,AppStore付費(fèi)榜第一的小貓補(bǔ)光燈app開發(fā)者
188文章數(shù) 111關(guān)注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價10999元起

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經(jīng)要聞

利潤暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

本地
家居
游戲
數(shù)碼
公開課

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

家居要聞

自然慢調(diào) 慢享時光

大司馬回歸兩個月,某音人氣穩(wěn)居頂流行列,道出風(fēng)光背后心酸現(xiàn)狀

數(shù)碼要聞

REDMI 顯示器 G Pro 27U 2026輕體驗(yàn):電競利器 桌面上的“小鋼炮”

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版