網(wǎng)易首頁 > 網(wǎng)易科技 > 網(wǎng)易科技 > 正文

凌晨突發(fā)！GPT-5.5正式上線：跑分更猛，價(jià)格翻倍，但這點(diǎn)不得不防

2026-04-24 09:32:10　來源: 網(wǎng)易智能

北京舉報(bào)

分享至

出品 | 網(wǎng)易智能

作者 | 小小

編輯 | 王鳳枝

GPT-5.5來了，大模型越來越像智能體了。

今天凌晨OpenAI意外發(fā)布GPT-5.5。最核心的變化不是答案寫得更漂亮，而是它更像一個(gè)能自己接活的系統(tǒng)：理解復(fù)雜目標(biāo)，自己拆步驟、調(diào)工具、核結(jié)果，把一件多環(huán)節(jié)的任務(wù)從頭推到尾。OpenAI這次想賣的，不只是更聰明，而是真能干活。

能力上去了，價(jià)格也跟著上去了。官方API定價(jià)GPT-5.5輸入每百萬token 5美元、輸出30美元，對比GPT-5.4的2.5美元和15美元正好翻了一倍。不過OpenAI也說了，GPT-5.5在不少復(fù)雜任務(wù)里能用更少的token把事情辦完。

目前GPT-5.5已經(jīng)開始向ChatGPT和Codex滾動(dòng)上線。ChatGPT里GPT-5.5 Thinking面向Plus、Pro、Business和Enterprise用戶，GPT-5.5 Pro面向Pro、Business和Enterprise用戶。API版本官方說很快跟上。

01一份讓對手沉默的跑分單：終端操作和數(shù)學(xué)推理甩開身位

先看數(shù)據(jù)。GPT-5.5在一系列硬核基準(zhǔn)測試中，把上一代GPT-5.4甩在了身后，也壓過了競爭對手一頭。

在最能體現(xiàn)智能體規(guī)劃和工具協(xié)調(diào)能力的Terminal-Bench 2.0測試中，GPT-5.5達(dá)到了82.7%的準(zhǔn)確率，大幅領(lǐng)先Claude Opus 4.7的69.4%和Gemini 3.1 Pro的68.5%。

在評估跨44種職業(yè)知識(shí)工作能力的GDPval測試中，GPT-5.5取得了84.9%的勝率或平局率，Claude Opus 4.7為80.3%，Gemini 3.1 Pro只有67.3%。在衡量模型自主操作真實(shí)計(jì)算機(jī)環(huán)境的OSWorld-Verified上，GPT-5.5得分78.7%，與Claude Opus 4.7的78%旗鼓相當(dāng)。

數(shù)學(xué)能力方面GPT-5.5在FrontierMath上的表現(xiàn)尤其突出。1至3級(jí)題目得分51.7%，Claude Opus 4.7為43.8%，Gemini 3.1 Pro為36.9%。到了最難的4級(jí)，GPT-5.5的35.4%遠(yuǎn)遠(yuǎn)超過Claude Opus 4.7的22.9%。

網(wǎng)絡(luò)安全方面，CyberGym測試中GPT-5.5得分81.8%，Claude Opus 4.7為73.1%。在客戶服務(wù)場景的Tau2-bench Telecom測試中，GPT-5.5無需任何提示調(diào)整就達(dá)到了98.0%的準(zhǔn)確率。

OpenAI內(nèi)部還有一個(gè)叫Expert-SWE的基準(zhǔn)，用來評估長周期編碼任務(wù)并預(yù)估人類專家中位完成時(shí)間為20小時(shí)。GPT-5.5在這里達(dá)到了73.1%，上一代GPT-5.4是68.5%。在公開的SWE-bench Pro上，GPT-5.5的58.6%則與Claude Opus 4.7的64.3%互有勝負(fù)。

第三方評測機(jī)構(gòu)Artificial Analysis做了全面測試。他們的結(jié)論是GPT-5.5讓OpenAI重新回到了AI領(lǐng)域的絕對第一，在他們設(shè)定的智能指數(shù)中領(lǐng)先3分，打破了此前與Anthropic和谷歌三方平局的格局。五大核心評估中，GPT-5.5在Terminal-Bench Hard、GDPval-AA和APEX-Agents-AA中均居榜首。

科學(xué)研究領(lǐng)域同樣沒落下。在專注于遺傳學(xué)和定量生物學(xué)的GeneBench上GPT-5.5得分約25%，GPT-5.4約為19%。在生物信息學(xué)基準(zhǔn)BixBench上，GPT-5.5以80.5%領(lǐng)先于GPT-5.4的74.0%。

這些數(shù)字拼在一起，畫出了一個(gè)輪廓，即GPT-5.5在需要規(guī)劃和持續(xù)執(zhí)行的智能體任務(wù)上優(yōu)勢明顯，在數(shù)學(xué)和網(wǎng)絡(luò)安全等需要深度推理的領(lǐng)域也拉開了距離，但在一些無工具的純學(xué)術(shù)推理上仍有來有回。OpenAI研究副總裁阿米莉亞·格萊斯（Amelia Glaese）說，無論是在基準(zhǔn)測試上，還是根據(jù)可信合作伙伴的反饋以及他們自己的經(jīng)驗(yàn)來看，這絕對是他們迄今為止最強(qiáng)的編碼模型。

但有一組數(shù)據(jù)不得不提前攤開。

在Artificial Analysis的私有基準(zhǔn)測試AA-Omniscience中，GPT-5.5展現(xiàn)了一個(gè)矛盾到讓人不安的特征。

GPT-5.5的準(zhǔn)確率是所有模型中最高的，達(dá)到57%，意味著它在回憶事實(shí)方面確實(shí)優(yōu)于所有競品。然而它的幻覺率高達(dá)86%。作為對比，Claude Opus 4.7的幻覺率是36%，Gemini 3.1 Pro是50%。換句話說，GPT-5.5知道的東西確實(shí)更多，但當(dāng)它不確定答案時(shí)，它選擇閉嘴的概率遠(yuǎn)低于對手。它更傾向于給出一個(gè)回答，哪怕這個(gè)回答可能是錯(cuò)的。

這組數(shù)據(jù)與它明白該做什么的核心敘事形成了直接的張力。一個(gè)幻覺率86%的模型，意味著它在十次不確定的情況下有將近九次會(huì)選擇硬答而不是承認(rèn)自己不知道。這種自信地做錯(cuò)事的傾向，恰恰是一個(gè)被寄望于自主規(guī)劃和執(zhí)行任務(wù)的模型最需要警惕的特質(zhì)。這意味著，GPT-5.5確實(shí)比前輩更會(huì)干活了，但它在干活過程中不知道自己不知道什么的概率，也比幾個(gè)主要競爭對手高出一大截。

這不是一個(gè)可以輕描淡寫帶過的小瑕疵。如果這個(gè)模型真的被委以獨(dú)立操作電腦、分析數(shù)據(jù)、生成報(bào)告的職責(zé)，那么用它的人最好時(shí)刻記住，它干活的主動(dòng)性和它犯錯(cuò)的主動(dòng)性可能來自同一種底層機(jī)制。Artificial Analysis的測試表明，從GPT-5.4到GPT-5.5在這項(xiàng)基準(zhǔn)上的14分漲幅主要由知識(shí)增長驅(qū)動(dòng)，幻覺方面僅有適度改進(jìn)。這意味著在目前的架構(gòu)下，更強(qiáng)的能力和更高的幻覺率可能是同一枚硬幣的兩面。

02更聰明，也更省token，同樣的活兒少花四成詞元

比分?jǐn)?shù)更值得注意的，是GPT-5.5達(dá)成這些分?jǐn)?shù)的方式。它用的輸出token數(shù)量大幅減少。簡單說就是它找到答案的路徑更短了。

在Terminal-Bench 2.0測試中，GPT-5.5在約3000至4000輸出token時(shí)分?jǐn)?shù)就達(dá)到了約82%，GPT-5.4在相近token數(shù)時(shí)只有約75%。

在Expert-SWE測試中差距更夸張，GPT-5.5用了約30000至35000輸出token就達(dá)到約73%的分?jǐn)?shù)，GPT-5.4花了超過60000 token才達(dá)到68.5%。在Tau2-bench Telecom中，GPT-5.5用約2000至4000 token達(dá)到98%的準(zhǔn)確率，GPT-5.4用了超過10000 token才達(dá)到約92%。

這種token效率直接影響了成本。Artificial Analysis的計(jì)算顯示，雖然GPT-5.5每個(gè)token的價(jià)格比GPT-5.4翻了一倍，漲到每100萬輸入5美元且輸出30美元，但token使用量減少約40%幾乎完全吸收了漲價(jià)的影響，運(yùn)行其智能指數(shù)的凈成本僅增加了約20%。在他們的編碼智能指數(shù)圖里GPT-5.5位于右上方，以相對較少的輸出token實(shí)現(xiàn)了最高的智能分?jǐn)?shù)，在成本和性能之間取得了當(dāng)前的最佳平衡。

需要說明的是，這個(gè)40%的節(jié)省幅度是在編碼和推理類基準(zhǔn)任務(wù)上測得的。如果使用場景不同，比如長篇寫作或開放式對話，token消耗的減少幅度未必相同，實(shí)際成本增幅也會(huì)隨之變化。不過在本文引用的幾項(xiàng)具體測試中，從Terminal-Bench到Expert-SWE再到Tau2-bench，token數(shù)量的下降是肉眼可見的。

他們還發(fā)現(xiàn)GPT-5.5的不同推理努力程度提供了靈活的選擇。中等努力程度的GPT-5.5在智能指數(shù)上得分與Claude Opus 4.7的最高檔位相當(dāng)，但成本僅為其四分之一，約1200美元對4800美元。低努力程度則花費(fèi)約500美元就能達(dá)到類似效果。這給了用戶一個(gè)根據(jù)任務(wù)需求調(diào)節(jié)智能與成本的階梯。

而這一切并沒有以犧牲速度為代價(jià)。按OpenAI的說法，GPT-5.5在實(shí)際服務(wù)中實(shí)現(xiàn)了與GPT-5.4相當(dāng)?shù)拿縯oken延遲。背后是軟硬件協(xié)同設(shè)計(jì)的成果。GPT-5.5與英偉達(dá)GB200和GB300 NVL72系統(tǒng)共同設(shè)計(jì)、訓(xùn)練并部署。AI自己也幫了忙，Codex分析了數(shù)周的生產(chǎn)流量模式后，編寫了自定義的啟發(fā)式算法來優(yōu)化GPU之間的負(fù)載均衡，最終將token生成速度提升了超過20%。

英偉達(dá)企業(yè)AI副總裁賈斯汀·博伊塔諾（Justin Boitano）評價(jià)說，GPT-5.5提供了執(zhí)行繁重工作所需的持續(xù)性能?；谟ミ_(dá)GB200 NVL72系統(tǒng)構(gòu)建和服務(wù)的這個(gè)模型，讓團(tuán)隊(duì)能夠從自然語言提示中交付端到端的功能，將調(diào)試時(shí)間從數(shù)天縮短到數(shù)小時(shí)，并將數(shù)周的實(shí)驗(yàn)轉(zhuǎn)化為在復(fù)雜代碼庫中的一夜進(jìn)展。他認(rèn)為這不僅僅是更快的編碼，而是一種全新的工作方式。

03能讀懂整個(gè)代碼庫，不是只會(huì)補(bǔ)全下一行

數(shù)據(jù)和效率說完了，來看看實(shí)際體驗(yàn)上到底有什么不同。

GPT-5.5與此前模型最核心的區(qū)別，在于它不再只是等著你一步步告訴它怎么做。用OpenAI總裁格雷格·布羅克曼（Greg Brockman）的話說，這個(gè)模型真正特別的地方，在于它能在更少的指導(dǎo)下做更多的事，可以審視一個(gè)不明確的問題，并自己弄清楚下一步該做什么。

這與早期測試者的感受高度一致。Every公司的創(chuàng)始人兼CEO丹·希珀（Dan Shipper）做了一個(gè)倒回時(shí)間的測試。

他花了幾天時(shí)間調(diào)試一個(gè)發(fā)布后的問題，然后讓他最好的工程師之一重寫了部分系統(tǒng)。為了測試GPT-5.5，他把已經(jīng)損壞的系統(tǒng)狀態(tài)交給模型看它能不能產(chǎn)出工程師最終決定的那種重寫方案。結(jié)果GPT-5.4做不到，GPT-5.5做到了。他的評價(jià)是這是他遇到的第一個(gè)具有嚴(yán)肅概念清晰度的編碼模型。

MagicPath的CEO彼得羅·斯基拉諾（Pietro Schirano）遇到了更復(fù)雜的場景。他讓GPT-5.5把一個(gè)包含數(shù)百個(gè)前端和重構(gòu)更改的分支合并到另一個(gè)也發(fā)生了巨大變化的主分支之中。模型在大約20分鐘內(nèi)一次性解決了所有沖突，最終完成了一個(gè)包含12個(gè)差異的堆棧幾乎完整。他說自己的感覺是真的在與一個(gè)更高的智能一起工作，甚至有一種尊重感。

其他提前拿到測試權(quán)限的高級(jí)工程師也報(bào)告了類似體驗(yàn)。他們說GPT-5.5在推理和自主性方面明顯強(qiáng)于GPT-5.4和Claude Opus 4.7，能提前發(fā)現(xiàn)問題，并在沒有明確提示的情況下預(yù)測測試和審查需求。有人讓模型重新架構(gòu)一個(gè)協(xié)作式編輯器中的評論系統(tǒng)，離開一段時(shí)間后回來發(fā)現(xiàn)它已經(jīng)搞定了一個(gè)接近完整的堆棧。還有人說幾乎不需要對實(shí)現(xiàn)進(jìn)行修正，對GPT-5.5的計(jì)劃比GPT-5.4更有信心。

Cursor的聯(lián)合創(chuàng)始人兼CEO邁克爾·特魯爾（Michael Truell）從產(chǎn)品角度指出，GPT-5.5明顯比GPT-5.4更聰明且更持久，能持續(xù)工作更長時(shí)間而不會(huì)提前停止，這對于用戶委托給Cursor的復(fù)雜或長期運(yùn)行的任務(wù)至關(guān)重要。而一位英偉達(dá)的工程師在提前失去訪問權(quán)限后說那感覺像被截肢了一樣。

這些反饋共同指向一個(gè)變化，即GPT-5.5不再是等待指令的被動(dòng)工具，而是開始展現(xiàn)某種職業(yè)判斷力。它能理解系統(tǒng)的全貌并弄清楚某件事為什么失敗，修復(fù)該落在哪里以及代碼庫中還有哪些部分會(huì)受到影響。公司內(nèi)部測試也印證了這一點(diǎn)，OpenAI超過85%的員工每周都在使用Codex。

不過并非所有測試者都給出了毫無保留的贊譽(yù)。一位測試者在社交平臺(tái)上表示，GPT-5.5在推理效率和知識(shí)方面確實(shí)有明顯提升，但對于他關(guān)心的東西他得等下一個(gè)版本。他直言不認(rèn)為GPT-5.5比之前有太多進(jìn)步而只是漸進(jìn)式的改進(jìn)。

另一位測試者則注意到了速度上的變化。GPT-5.5重度思考模式下2分鐘內(nèi)給出的答案，比GPT-5.4在10分鐘內(nèi)給出的更好，但他對智能水平的評價(jià)保持了克制。

04辦公室里的雜活兒，它也開始接得動(dòng)了

讓GPT-5.5擅長編程的那些能力，放到日常知識(shí)工作中同樣管用。它能更自然地完成從查找信息、分析重點(diǎn)、操作軟件到生成文檔的整個(gè)閉環(huán)。

Box的聯(lián)合創(chuàng)始人兼CEO阿隆·列維（Aaron Levie）分享了他們的內(nèi)部測試結(jié)果。在金融服務(wù)、醫(yī)療保健、公共部門和媒體娛樂等多個(gè)行業(yè)的真實(shí)任務(wù)上，GPT-5.5相比GPT-5.4有顯著提升。金融服務(wù)從64%提升至83%，醫(yī)療保健從61%提升至78%，公共部門從59%提升至72%，媒體與娛樂從57%提升至70%。他認(rèn)為GPT-5.5將為企業(yè)知識(shí)工作智能體帶來巨大飛躍。

在ChatGPT中，GPT-5.5思考模式可以為更難的問題提供更快的幫助，擅長編碼、研究、信息綜合與分析以及文檔密集型任務(wù)。GPT-5.5 Pro版本則更進(jìn)一步，早期測試者反映它的回答比GPT-5.4 Pro更全面且結(jié)構(gòu)更清晰以及更準(zhǔn)確和更有用，在商業(yè)、法律、教育和數(shù)據(jù)科學(xué)領(lǐng)域表現(xiàn)尤為突出。

OpenAI內(nèi)部的日常使用案例更能說明問題。財(cái)務(wù)團(tuán)隊(duì)用Codex審查了24771份K-1稅表，總計(jì)71637頁。工作流程排除了個(gè)人信息后，幫助團(tuán)隊(duì)比前一年提前兩周完成任務(wù)。通信團(tuán)隊(duì)用它分析了六個(gè)月的演講請求數(shù)據(jù)，構(gòu)建了評分和風(fēng)險(xiǎn)框架并驗(yàn)證了一個(gè)自動(dòng)化Slack智能體來處理低風(fēng)險(xiǎn)請求。一名市場營銷員工自動(dòng)化了每周業(yè)務(wù)報(bào)告的生成，每周省下5到10小時(shí)。

05科學(xué)家的新搭檔，從基因數(shù)據(jù)到數(shù)學(xué)證明都能搭把手

科學(xué)研究領(lǐng)域是GPT-5.5的另一個(gè)亮點(diǎn)。它的價(jià)值不在于給出一個(gè)一次性答案，而在于幫研究人員走完從問題到實(shí)驗(yàn)再到產(chǎn)出的完整過程。

沃頓商學(xué)院教授伊森·莫利克（Ethan Mollick）提前拿到了模型，他用一個(gè)拖延了十年的真實(shí)研究項(xiàng)目來做終極測試。他把數(shù)百個(gè)塵封已久的關(guān)于眾籌的匿名化數(shù)據(jù)文件丟給Codex里的GPT-5.5，文件混合了STATA、CSV、XLS和Word格式，然后只給了四個(gè)提示要求它整理數(shù)據(jù)、提出新假設(shè)、用復(fù)雜方法檢驗(yàn)并寫成學(xué)術(shù)論文。結(jié)果模型產(chǎn)出的論文包含真實(shí)的文獻(xiàn)綜述和復(fù)雜的統(tǒng)計(jì)分析。他的評價(jià)是如果這是二年級(jí)博士項(xiàng)目的成果他會(huì)非常滿意。

杰克遜基因組醫(yī)學(xué)實(shí)驗(yàn)室的免疫學(xué)教授德里亞·烏魯特馬茲（Derya Unutmaz）使用GPT-5.5 Pro分析了一個(gè)包含62個(gè)樣本和近28000個(gè)基因的表達(dá)數(shù)據(jù)集。模型在幾分鐘內(nèi)生成了詳細(xì)的研究報(bào)告，并提出了關(guān)鍵問題和見解。他說這項(xiàng)工作本來需要他的團(tuán)隊(duì)花上數(shù)月。他還說，憑借GPT-5.5 Pro，他感覺AI到了另一個(gè)拐點(diǎn)，就像之前某些關(guān)鍵版本發(fā)布時(shí)讓他感受到的那種跨越門檻的感覺。

在數(shù)學(xué)領(lǐng)域，一個(gè)更硬的成果來自組合學(xué)。一個(gè)內(nèi)部版本的GPT-5.5在配備定制工具后，幫助發(fā)現(xiàn)了關(guān)于拉姆齊數(shù)的新證明，拉姆齊數(shù)是組合學(xué)中的核心對象。這一領(lǐng)域的結(jié)果很少見且技術(shù)難度高。GPT-5.5找到了一個(gè)關(guān)于非對角拉姆齊數(shù)長期存在的漸近事實(shí)的論證，隨后在Lean中得到了驗(yàn)證。這意味著它不僅在輔助研究，而是在核心研究問題上貢獻(xiàn)了令人驚訝且有用的數(shù)學(xué)論證。

波蘭亞當(dāng)·密茨凱維奇大學(xué)的數(shù)學(xué)助理教授巴托斯·納斯克雷基（Bartosz Naskr?cki）在Codex中使用GPT-5.5，僅用一個(gè)提示在11分鐘內(nèi)構(gòu)建了一個(gè)代數(shù)幾何應(yīng)用，完成了以前需要專用工具才能實(shí)現(xiàn)的定制數(shù)學(xué)可視化。

Axiom Bio的聯(lián)合創(chuàng)始人兼CEO布蘭登·懷特（Brandon White）則從藥物發(fā)現(xiàn)的角度給出了判斷。他讓GPT-5.5推理龐大的生物化學(xué)數(shù)據(jù)集以預(yù)測人類藥物結(jié)果，然后看到它在最難的評估中帶來了顯著的準(zhǔn)確性提升。他的判斷是，如果OpenAI繼續(xù)保持這樣的勢頭，藥物發(fā)現(xiàn)的基礎(chǔ)將在年底前發(fā)生改變。

06攻防能力一起漲，這把利刃也有另一面

GPT-5.5的網(wǎng)絡(luò)安全能力比GPT-5.4又進(jìn)了一步，OpenAI將其生物和網(wǎng)絡(luò)安全能力評估為高風(fēng)險(xiǎn)。在奪旗挑戰(zhàn)任務(wù)中，GPT-5.5用約20000至40000輸出token就達(dá)到了約88%的得分，GPT-5.4用了超過100000 token才拿到約84%。這種效率提升意味著它發(fā)現(xiàn)和利用漏洞的能力變得更強(qiáng)。

OpenAI采取了一種分層應(yīng)對策略。一方面部署更嚴(yán)格的網(wǎng)絡(luò)風(fēng)險(xiǎn)分類器來攔截普通用戶的敏感請求，他們承認(rèn)一些用戶初期可能會(huì)覺得這些限制煩人。另一方面推出網(wǎng)絡(luò)可信訪問計(jì)劃，讓經(jīng)過驗(yàn)證的安全防御者能夠申請使用不受限制的模型版本用于保護(hù)關(guān)鍵基礎(chǔ)設(shè)施。OpenAI表示他們正與政府合作伙伴一起探索高級(jí)AI如何幫助保衛(wèi)納稅人數(shù)據(jù)、電網(wǎng)和供水系統(tǒng)。

GPT-5.5在發(fā)布前經(jīng)歷了完整的安全和治理流程，包括準(zhǔn)備評估、特定領(lǐng)域測試，以及與內(nèi)部和外部紅隊(duì)、近200個(gè)可信早期合作伙伴的合作。奧特曼強(qiáng)調(diào)他們相信迭代部署是安全策略的重要組成部分，通過逐步向世界發(fā)布模型大家最有能力在AI韌性的團(tuán)隊(duì)運(yùn)動(dòng)中共同應(yīng)對挑戰(zhàn)。

VentureBeat的報(bào)道指出，在人類最后的考試這類無工具純推理基準(zhǔn)上，GPT-5.5 Pro的43.1%仍落后于Anthropic未公開的Claude Mythos Preview的56.8%。這說明在不同的能力維度上，各家模型的優(yōu)勢仍在分化。

07八個(gè)月漲價(jià)八倍，但總賬單幾乎沒變

安全能力的提升也意味著更高的訓(xùn)練和部署成本，這直接反映在了GPT-5.5的定價(jià)上。

GPT-5.5的API輸入價(jià)格為每100萬token 5美元且輸出為30美元，GPT-5.5 Pro則是輸入30美元且輸出180美元。目前GPT-5.5已向ChatGPT的Plus、Pro、Business和Enterprise用戶開放，GPT-5.5 Pro從Pro層級(jí)起步。在Codex中GPT-5.5對從Plus到Go計(jì)劃的用戶均可使用，上下文窗口40萬token并提供速度快1.5倍但成本高2.5倍的快速模式。

AI產(chǎn)品專家阿卡什·古普塔（Aakash Gupta）分析了這個(gè)定價(jià)軌跡。從去年8月GPT-5的0.63美元到今年3月GPT-5.4的2.50美元，再到七周后GPT-5.5的5美元，八個(gè)月內(nèi)輸入定價(jià)漲了八倍。而英偉達(dá)表示其最新芯片將推理成本降低了高達(dá)每token 35倍。

古普塔認(rèn)為，OpenAI的成本基礎(chǔ)在急劇下降，但價(jià)格卻在攀升，這里發(fā)生的利潤率擴(kuò)張?jiān)谄髽I(yè)軟件史上前所未有。

布羅克曼此前曾說正在構(gòu)建一個(gè)整合ChatGPT、Codex和瀏覽器的超級(jí)應(yīng)用。古普塔的判斷是，每個(gè)在GPT-5.5上構(gòu)建智能體的開發(fā)者，都在為OpenAI自己的競爭產(chǎn)品提供資金。他認(rèn)為OpenAI找到的商業(yè)模式，很像那個(gè)讓微軟市值達(dá)到3萬億美元的模式。

結(jié)語：能力參差不齊，但前沿還在快速推進(jìn)

莫利克教授還設(shè)計(jì)了一個(gè)橫向?qū)Ρ葴y試。他讓從一年前發(fā)布的o3到最新的GPT-5.5 Pro等多個(gè)模型去構(gòu)建同一個(gè)程序化生成的3D模擬，展示一個(gè)港口城鎮(zhèn)從公元前3000年到公元3000年的演變。只有GPT-5.5 Pro真正模擬了一個(gè)不斷演變的小鎮(zhèn)，而不僅僅是生成新建筑替換舊的。而且它只用了20分鐘，GPT-5.4 Pro花了33分鐘。

但他也發(fā)現(xiàn)了問題。當(dāng)要求模型創(chuàng)建一個(gè)全新的角色扮演游戲規(guī)則并配圖排版時(shí)，產(chǎn)出在技術(shù)上很精巧且101頁的PDF排版專業(yè)，規(guī)則也似乎合理。然而仔細(xì)讀內(nèi)容，AI在長篇虛構(gòu)創(chuàng)作上的老毛病還在。它喜歡用神秘元素、過于復(fù)雜但未能完全兌現(xiàn)的想法、奇怪的隱喻、過多的華麗句子，以及所有角色相似的語氣。他的結(jié)論是，即便在所有驚人的技術(shù)進(jìn)步之中，那個(gè)參差不齊的前沿仍然存在，只是它比以前遠(yuǎn)得多了。

OpenAI首席科學(xué)家雅庫布·帕喬基（Jakub Pachocki）在發(fā)布之際透露，他們實(shí)際上還有空間來訓(xùn)練比這聰明得多的模型。換句話說，GPT-5.5不是終點(diǎn)。

就在今天，這個(gè)模型已經(jīng)上線。對于那些需要處理復(fù)雜編碼任務(wù)、繁瑣知識(shí)工作或推進(jìn)科學(xué)研究的用戶來說，GPT-5.5提供的不只是一個(gè)更快的回答工具，而是一個(gè)能理解意圖、接管流程、持續(xù)推動(dòng)任務(wù)往前走的系統(tǒng)。而對于開發(fā)者來說，還得再等一等API的正式開放。在人類將越來越復(fù)雜的工作交給AI的這條路上，GPT-5.5是一個(gè)值得關(guān)注的路標(biāo)。