国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易科技 > 網(wǎng)易科技 > 正文

凌晨突發(fā)!GPT-5.5正式上線:跑分更猛,價(jià)格翻倍,但這點(diǎn)不得不防

0
分享至

出品 | 網(wǎng)易智能

作者 | 小小

編輯 | 王鳳枝

GPT-5.5來了,大模型越來越像智能體了。

今天凌晨OpenAI意外發(fā)布GPT-5.5。最核心的變化不是答案寫得更漂亮,而是它更像一個(gè)能自己接活的系統(tǒng):理解復(fù)雜目標(biāo),自己拆步驟、調(diào)工具、核結(jié)果,把一件多環(huán)節(jié)的任務(wù)從頭推到尾。OpenAI這次想賣的,不只是更聰明,而是真能干活。


能力上去了,價(jià)格也跟著上去了。官方API定價(jià)GPT-5.5輸入每百萬token 5美元、輸出30美元,對比GPT-5.4的2.5美元和15美元正好翻了一倍。不過OpenAI也說了,GPT-5.5在不少復(fù)雜任務(wù)里能用更少的token把事情辦完。

目前GPT-5.5已經(jīng)開始向ChatGPT和Codex滾動(dòng)上線。ChatGPT里GPT-5.5 Thinking面向Plus、Pro、Business和Enterprise用戶,GPT-5.5 Pro面向Pro、Business和Enterprise用戶。API版本官方說很快跟上。

01一份讓對手沉默的跑分單:終端操作和數(shù)學(xué)推理甩開身位

先看數(shù)據(jù)。GPT-5.5在一系列硬核基準(zhǔn)測試中,把上一代GPT-5.4甩在了身后,也壓過了競爭對手一頭。

在最能體現(xiàn)智能體規(guī)劃和工具協(xié)調(diào)能力的Terminal-Bench 2.0測試中,GPT-5.5達(dá)到了82.7%的準(zhǔn)確率,大幅領(lǐng)先Claude Opus 4.7的69.4%和Gemini 3.1 Pro的68.5%。

在評估跨44種職業(yè)知識(shí)工作能力的GDPval測試中,GPT-5.5取得了84.9%的勝率或平局率,Claude Opus 4.7為80.3%,Gemini 3.1 Pro只有67.3%。在衡量模型自主操作真實(shí)計(jì)算機(jī)環(huán)境的OSWorld-Verified上,GPT-5.5得分78.7%,與Claude Opus 4.7的78%旗鼓相當(dāng)。

數(shù)學(xué)能力方面GPT-5.5在FrontierMath上的表現(xiàn)尤其突出。1至3級(jí)題目得分51.7%,Claude Opus 4.7為43.8%,Gemini 3.1 Pro為36.9%。到了最難的4級(jí),GPT-5.5的35.4%遠(yuǎn)遠(yuǎn)超過Claude Opus 4.7的22.9%。

網(wǎng)絡(luò)安全方面,CyberGym測試中GPT-5.5得分81.8%,Claude Opus 4.7為73.1%。在客戶服務(wù)場景的Tau2-bench Telecom測試中,GPT-5.5無需任何提示調(diào)整就達(dá)到了98.0%的準(zhǔn)確率。

OpenAI內(nèi)部還有一個(gè)叫Expert-SWE的基準(zhǔn),用來評估長周期編碼任務(wù)并預(yù)估人類專家中位完成時(shí)間為20小時(shí)。GPT-5.5在這里達(dá)到了73.1%,上一代GPT-5.4是68.5%。在公開的SWE-bench Pro上,GPT-5.5的58.6%則與Claude Opus 4.7的64.3%互有勝負(fù)。

第三方評測機(jī)構(gòu)Artificial Analysis做了全面測試。他們的結(jié)論是GPT-5.5讓OpenAI重新回到了AI領(lǐng)域的絕對第一,在他們設(shè)定的智能指數(shù)中領(lǐng)先3分,打破了此前與Anthropic和谷歌三方平局的格局。五大核心評估中,GPT-5.5在Terminal-Bench Hard、GDPval-AA和APEX-Agents-AA中均居榜首。

科學(xué)研究領(lǐng)域同樣沒落下。在專注于遺傳學(xué)和定量生物學(xué)的GeneBench上GPT-5.5得分約25%,GPT-5.4約為19%。在生物信息學(xué)基準(zhǔn)BixBench上,GPT-5.5以80.5%領(lǐng)先于GPT-5.4的74.0%。

這些數(shù)字拼在一起,畫出了一個(gè)輪廓,即GPT-5.5在需要規(guī)劃和持續(xù)執(zhí)行的智能體任務(wù)上優(yōu)勢明顯,在數(shù)學(xué)和網(wǎng)絡(luò)安全等需要深度推理的領(lǐng)域也拉開了距離,但在一些無工具的純學(xué)術(shù)推理上仍有來有回。OpenAI研究副總裁阿米莉亞·格萊斯(Amelia Glaese)說,無論是在基準(zhǔn)測試上,還是根據(jù)可信合作伙伴的反饋以及他們自己的經(jīng)驗(yàn)來看,這絕對是他們迄今為止最強(qiáng)的編碼模型。

但有一組數(shù)據(jù)不得不提前攤開。

在Artificial Analysis的私有基準(zhǔn)測試AA-Omniscience中,GPT-5.5展現(xiàn)了一個(gè)矛盾到讓人不安的特征。

GPT-5.5的準(zhǔn)確率是所有模型中最高的,達(dá)到57%,意味著它在回憶事實(shí)方面確實(shí)優(yōu)于所有競品。然而它的幻覺率高達(dá)86%。作為對比,Claude Opus 4.7的幻覺率是36%,Gemini 3.1 Pro是50%。換句話說GPT-5.5知道的東西確實(shí)更多,但當(dāng)它不確定答案時(shí)它選擇閉嘴的概率遠(yuǎn)低于對手。它更傾向于給出一個(gè)回答,哪怕這個(gè)回答可能是錯(cuò)的。

這組數(shù)據(jù)與它明白該做什么的核心敘事形成了直接的張力。一個(gè)幻覺率86%的模型,意味著它在十次不確定的情況下有將近九次會(huì)選擇硬答而不是承認(rèn)自己不知道。這種自信地做錯(cuò)事的傾向,恰恰是一個(gè)被寄望于自主規(guī)劃和執(zhí)行任務(wù)的模型最需要警惕的特質(zhì)。這意味著,GPT-5.5確實(shí)比前輩更會(huì)干活了,但它在干活過程中不知道自己不知道什么的概率,也比幾個(gè)主要競爭對手高出一大截。

這不是一個(gè)可以輕描淡寫帶過的小瑕疵。如果這個(gè)模型真的被委以獨(dú)立操作電腦、分析數(shù)據(jù)、生成報(bào)告的職責(zé),那么用它的人最好時(shí)刻記住,它干活的主動(dòng)性和它犯錯(cuò)的主動(dòng)性可能來自同一種底層機(jī)制。Artificial Analysis的測試表明,從GPT-5.4到GPT-5.5在這項(xiàng)基準(zhǔn)上的14分漲幅主要由知識(shí)增長驅(qū)動(dòng),幻覺方面僅有適度改進(jìn)。這意味著在目前的架構(gòu)下,更強(qiáng)的能力和更高的幻覺率可能是同一枚硬幣的兩面。

02更聰明,也更省token,同樣的活兒少花四成詞元

比分?jǐn)?shù)更值得注意的,是GPT-5.5達(dá)成這些分?jǐn)?shù)的方式。它用的輸出token數(shù)量大幅減少。簡單說就是它找到答案的路徑更短了。

在Terminal-Bench 2.0測試中,GPT-5.5在約3000至4000輸出token時(shí)分?jǐn)?shù)就達(dá)到了約82%,GPT-5.4在相近token數(shù)時(shí)只有約75%。

在Expert-SWE測試中差距更夸張,GPT-5.5用了約30000至35000輸出token就達(dá)到約73%的分?jǐn)?shù),GPT-5.4花了超過60000 token才達(dá)到68.5%。在Tau2-bench Telecom中,GPT-5.5用約2000至4000 token達(dá)到98%的準(zhǔn)確率,GPT-5.4用了超過10000 token才達(dá)到約92%。

這種token效率直接影響了成本。Artificial Analysis的計(jì)算顯示,雖然GPT-5.5每個(gè)token的價(jià)格比GPT-5.4翻了一倍,漲到每100萬輸入5美元且輸出30美元,但token使用量減少約40%幾乎完全吸收了漲價(jià)的影響,運(yùn)行其智能指數(shù)的凈成本僅增加了約20%。在他們的編碼智能指數(shù)圖里GPT-5.5位于右上方,以相對較少的輸出token實(shí)現(xiàn)了最高的智能分?jǐn)?shù),在成本和性能之間取得了當(dāng)前的最佳平衡。

需要說明的是,這個(gè)40%的節(jié)省幅度是在編碼和推理類基準(zhǔn)任務(wù)上測得的。如果使用場景不同,比如長篇寫作或開放式對話,token消耗的減少幅度未必相同,實(shí)際成本增幅也會(huì)隨之變化。不過在本文引用的幾項(xiàng)具體測試中,從Terminal-Bench到Expert-SWE再到Tau2-bench,token數(shù)量的下降是肉眼可見的。

他們還發(fā)現(xiàn)GPT-5.5的不同推理努力程度提供了靈活的選擇。中等努力程度的GPT-5.5在智能指數(shù)上得分與Claude Opus 4.7的最高檔位相當(dāng),但成本僅為其四分之一,約1200美元對4800美元。低努力程度則花費(fèi)約500美元就能達(dá)到類似效果。這給了用戶一個(gè)根據(jù)任務(wù)需求調(diào)節(jié)智能與成本的階梯。

而這一切并沒有以犧牲速度為代價(jià)。按OpenAI的說法,GPT-5.5在實(shí)際服務(wù)中實(shí)現(xiàn)了與GPT-5.4相當(dāng)?shù)拿縯oken延遲。背后是軟硬件協(xié)同設(shè)計(jì)的成果。GPT-5.5與英偉達(dá)GB200和GB300 NVL72系統(tǒng)共同設(shè)計(jì)、訓(xùn)練并部署。AI自己也幫了忙,Codex分析了數(shù)周的生產(chǎn)流量模式后,編寫了自定義的啟發(fā)式算法來優(yōu)化GPU之間的負(fù)載均衡,最終將token生成速度提升了超過20%。

英偉達(dá)企業(yè)AI副總裁賈斯汀·博伊塔諾(Justin Boitano)評價(jià)說,GPT-5.5提供了執(zhí)行繁重工作所需的持續(xù)性能?;谟ミ_(dá)GB200 NVL72系統(tǒng)構(gòu)建和服務(wù)的這個(gè)模型,讓團(tuán)隊(duì)能夠從自然語言提示中交付端到端的功能,將調(diào)試時(shí)間從數(shù)天縮短到數(shù)小時(shí),并將數(shù)周的實(shí)驗(yàn)轉(zhuǎn)化為在復(fù)雜代碼庫中的一夜進(jìn)展。他認(rèn)為這不僅僅是更快的編碼,而是一種全新的工作方式。


03能讀懂整個(gè)代碼庫,不是只會(huì)補(bǔ)全下一行

數(shù)據(jù)和效率說完了,來看看實(shí)際體驗(yàn)上到底有什么不同。

GPT-5.5與此前模型最核心的區(qū)別,在于它不再只是等著你一步步告訴它怎么做。用OpenAI總裁格雷格·布羅克曼(Greg Brockman)的話說,這個(gè)模型真正特別的地方,在于它能在更少的指導(dǎo)下做更多的事,可以審視一個(gè)不明確的問題,并自己弄清楚下一步該做什么。

這與早期測試者的感受高度一致。Every公司的創(chuàng)始人兼CEO丹·希珀(Dan Shipper)做了一個(gè)倒回時(shí)間的測試。

他花了幾天時(shí)間調(diào)試一個(gè)發(fā)布后的問題,然后讓他最好的工程師之一重寫了部分系統(tǒng)。為了測試GPT-5.5,他把已經(jīng)損壞的系統(tǒng)狀態(tài)交給模型看它能不能產(chǎn)出工程師最終決定的那種重寫方案。結(jié)果GPT-5.4做不到,GPT-5.5做到了。他的評價(jià)是這是他遇到的第一個(gè)具有嚴(yán)肅概念清晰度的編碼模型。

MagicPath的CEO彼得羅·斯基拉諾(Pietro Schirano)遇到了更復(fù)雜的場景。他讓GPT-5.5把一個(gè)包含數(shù)百個(gè)前端和重構(gòu)更改的分支合并到另一個(gè)也發(fā)生了巨大變化的主分支之中。模型在大約20分鐘內(nèi)一次性解決了所有沖突,最終完成了一個(gè)包含12個(gè)差異的堆棧幾乎完整。他說自己的感覺是真的在與一個(gè)更高的智能一起工作,甚至有一種尊重感。

其他提前拿到測試權(quán)限的高級(jí)工程師也報(bào)告了類似體驗(yàn)。他們說GPT-5.5在推理和自主性方面明顯強(qiáng)于GPT-5.4和Claude Opus 4.7,能提前發(fā)現(xiàn)問題,并在沒有明確提示的情況下預(yù)測測試和審查需求。有人讓模型重新架構(gòu)一個(gè)協(xié)作式編輯器中的評論系統(tǒng),離開一段時(shí)間后回來發(fā)現(xiàn)它已經(jīng)搞定了一個(gè)接近完整的堆棧。還有人說幾乎不需要對實(shí)現(xiàn)進(jìn)行修正,對GPT-5.5的計(jì)劃比GPT-5.4更有信心。

Cursor的聯(lián)合創(chuàng)始人兼CEO邁克爾·特魯爾(Michael Truell)從產(chǎn)品角度指出,GPT-5.5明顯比GPT-5.4更聰明且更持久,能持續(xù)工作更長時(shí)間而不會(huì)提前停止,這對于用戶委托給Cursor的復(fù)雜或長期運(yùn)行的任務(wù)至關(guān)重要。而一位英偉達(dá)的工程師在提前失去訪問權(quán)限后說那感覺像被截肢了一樣。

這些反饋共同指向一個(gè)變化,即GPT-5.5不再是等待指令的被動(dòng)工具,而是開始展現(xiàn)某種職業(yè)判斷力。它能理解系統(tǒng)的全貌并弄清楚某件事為什么失敗,修復(fù)該落在哪里以及代碼庫中還有哪些部分會(huì)受到影響。公司內(nèi)部測試也印證了這一點(diǎn),OpenAI超過85%的員工每周都在使用Codex。

不過并非所有測試者都給出了毫無保留的贊譽(yù)。一位測試者在社交平臺(tái)上表示,GPT-5.5在推理效率和知識(shí)方面確實(shí)有明顯提升,但對于他關(guān)心的東西他得等下一個(gè)版本。他直言不認(rèn)為GPT-5.5比之前有太多進(jìn)步而只是漸進(jìn)式的改進(jìn)。

另一位測試者則注意到了速度上的變化。GPT-5.5重度思考模式下2分鐘內(nèi)給出的答案,比GPT-5.4在10分鐘內(nèi)給出的更好,但他對智能水平的評價(jià)保持了克制。

04辦公室里的雜活兒,它也開始接得動(dòng)了

讓GPT-5.5擅長編程的那些能力,放到日常知識(shí)工作中同樣管用。它能更自然地完成從查找信息、分析重點(diǎn)、操作軟件到生成文檔的整個(gè)閉環(huán)。

Box的聯(lián)合創(chuàng)始人兼CEO阿隆·列維(Aaron Levie)分享了他們的內(nèi)部測試結(jié)果。在金融服務(wù)、醫(yī)療保健、公共部門和媒體娛樂等多個(gè)行業(yè)的真實(shí)任務(wù)上,GPT-5.5相比GPT-5.4有顯著提升。金融服務(wù)從64%提升至83%,醫(yī)療保健從61%提升至78%,公共部門從59%提升至72%,媒體與娛樂從57%提升至70%。他認(rèn)為GPT-5.5將為企業(yè)知識(shí)工作智能體帶來巨大飛躍。


在ChatGPT中,GPT-5.5思考模式可以為更難的問題提供更快的幫助,擅長編碼、研究、信息綜合與分析以及文檔密集型任務(wù)。GPT-5.5 Pro版本則更進(jìn)一步,早期測試者反映它的回答比GPT-5.4 Pro更全面且結(jié)構(gòu)更清晰以及更準(zhǔn)確和更有用,在商業(yè)、法律、教育和數(shù)據(jù)科學(xué)領(lǐng)域表現(xiàn)尤為突出。

OpenAI內(nèi)部的日常使用案例更能說明問題。財(cái)務(wù)團(tuán)隊(duì)用Codex審查了24771份K-1稅表,總計(jì)71637頁。工作流程排除了個(gè)人信息后,幫助團(tuán)隊(duì)比前一年提前兩周完成任務(wù)。通信團(tuán)隊(duì)用它分析了六個(gè)月的演講請求數(shù)據(jù),構(gòu)建了評分和風(fēng)險(xiǎn)框架并驗(yàn)證了一個(gè)自動(dòng)化Slack智能體來處理低風(fēng)險(xiǎn)請求。一名市場營銷員工自動(dòng)化了每周業(yè)務(wù)報(bào)告的生成,每周省下5到10小時(shí)。

05科學(xué)家的新搭檔,從基因數(shù)據(jù)到數(shù)學(xué)證明都能搭把手

科學(xué)研究領(lǐng)域是GPT-5.5的另一個(gè)亮點(diǎn)。它的價(jià)值不在于給出一個(gè)一次性答案,而在于幫研究人員走完從問題到實(shí)驗(yàn)再到產(chǎn)出的完整過程。

沃頓商學(xué)院教授伊森·莫利克(Ethan Mollick)提前拿到了模型,他用一個(gè)拖延了十年的真實(shí)研究項(xiàng)目來做終極測試。他把數(shù)百個(gè)塵封已久的關(guān)于眾籌的匿名化數(shù)據(jù)文件丟給Codex里的GPT-5.5,文件混合了STATA、CSV、XLS和Word格式,然后只給了四個(gè)提示要求它整理數(shù)據(jù)、提出新假設(shè)、用復(fù)雜方法檢驗(yàn)并寫成學(xué)術(shù)論文。結(jié)果模型產(chǎn)出的論文包含真實(shí)的文獻(xiàn)綜述和復(fù)雜的統(tǒng)計(jì)分析。他的評價(jià)是如果這是二年級(jí)博士項(xiàng)目的成果他會(huì)非常滿意。

杰克遜基因組醫(yī)學(xué)實(shí)驗(yàn)室的免疫學(xué)教授德里亞·烏魯特馬茲(Derya Unutmaz)使用GPT-5.5 Pro分析了一個(gè)包含62個(gè)樣本和近28000個(gè)基因的表達(dá)數(shù)據(jù)集。模型在幾分鐘內(nèi)生成了詳細(xì)的研究報(bào)告,并提出了關(guān)鍵問題和見解。他說這項(xiàng)工作本來需要他的團(tuán)隊(duì)花上數(shù)月。他還說,憑借GPT-5.5 Pro,他感覺AI到了另一個(gè)拐點(diǎn),就像之前某些關(guān)鍵版本發(fā)布時(shí)讓他感受到的那種跨越門檻的感覺。

在數(shù)學(xué)領(lǐng)域,一個(gè)更硬的成果來自組合學(xué)。一個(gè)內(nèi)部版本的GPT-5.5在配備定制工具后,幫助發(fā)現(xiàn)了關(guān)于拉姆齊數(shù)的新證明,拉姆齊數(shù)是組合學(xué)中的核心對象。這一領(lǐng)域的結(jié)果很少見且技術(shù)難度高。GPT-5.5找到了一個(gè)關(guān)于非對角拉姆齊數(shù)長期存在的漸近事實(shí)的論證,隨后在Lean中得到了驗(yàn)證。這意味著它不僅在輔助研究,而是在核心研究問題上貢獻(xiàn)了令人驚訝且有用的數(shù)學(xué)論證。

波蘭亞當(dāng)·密茨凱維奇大學(xué)的數(shù)學(xué)助理教授巴托斯·納斯克雷基(Bartosz Naskr?cki)在Codex中使用GPT-5.5,僅用一個(gè)提示在11分鐘內(nèi)構(gòu)建了一個(gè)代數(shù)幾何應(yīng)用,完成了以前需要專用工具才能實(shí)現(xiàn)的定制數(shù)學(xué)可視化。

Axiom Bio的聯(lián)合創(chuàng)始人兼CEO布蘭登·懷特(Brandon White)則從藥物發(fā)現(xiàn)的角度給出了判斷。他讓GPT-5.5推理龐大的生物化學(xué)數(shù)據(jù)集以預(yù)測人類藥物結(jié)果,然后看到它在最難的評估中帶來了顯著的準(zhǔn)確性提升。他的判斷是,如果OpenAI繼續(xù)保持這樣的勢頭,藥物發(fā)現(xiàn)的基礎(chǔ)將在年底前發(fā)生改變。

06攻防能力一起漲,這把利刃也有另一面

GPT-5.5的網(wǎng)絡(luò)安全能力比GPT-5.4又進(jìn)了一步,OpenAI將其生物和網(wǎng)絡(luò)安全能力評估為高風(fēng)險(xiǎn)。在奪旗挑戰(zhàn)任務(wù)中,GPT-5.5用約20000至40000輸出token就達(dá)到了約88%的得分,GPT-5.4用了超過100000 token才拿到約84%。這種效率提升意味著它發(fā)現(xiàn)和利用漏洞的能力變得更強(qiáng)。

OpenAI采取了一種分層應(yīng)對策略。一方面部署更嚴(yán)格的網(wǎng)絡(luò)風(fēng)險(xiǎn)分類器來攔截普通用戶的敏感請求,他們承認(rèn)一些用戶初期可能會(huì)覺得這些限制煩人。另一方面推出網(wǎng)絡(luò)可信訪問計(jì)劃,讓經(jīng)過驗(yàn)證的安全防御者能夠申請使用不受限制的模型版本用于保護(hù)關(guān)鍵基礎(chǔ)設(shè)施。OpenAI表示他們正與政府合作伙伴一起探索高級(jí)AI如何幫助保衛(wèi)納稅人數(shù)據(jù)、電網(wǎng)和供水系統(tǒng)。

GPT-5.5在發(fā)布前經(jīng)歷了完整的安全和治理流程,包括準(zhǔn)備評估、特定領(lǐng)域測試,以及與內(nèi)部和外部紅隊(duì)、近200個(gè)可信早期合作伙伴的合作。奧特曼強(qiáng)調(diào)他們相信迭代部署是安全策略的重要組成部分,通過逐步向世界發(fā)布模型大家最有能力在AI韌性的團(tuán)隊(duì)運(yùn)動(dòng)中共同應(yīng)對挑戰(zhàn)。

VentureBeat的報(bào)道指出,在人類最后的考試這類無工具純推理基準(zhǔn)上,GPT-5.5 Pro的43.1%仍落后于Anthropic未公開的Claude Mythos Preview的56.8%。這說明在不同的能力維度上,各家模型的優(yōu)勢仍在分化。

07八個(gè)月漲價(jià)八倍,但總賬單幾乎沒變

安全能力的提升也意味著更高的訓(xùn)練和部署成本,這直接反映在了GPT-5.5的定價(jià)上。

GPT-5.5的API輸入價(jià)格為每100萬token 5美元且輸出為30美元,GPT-5.5 Pro則是輸入30美元且輸出180美元。目前GPT-5.5已向ChatGPT的Plus、Pro、Business和Enterprise用戶開放,GPT-5.5 Pro從Pro層級(jí)起步。在Codex中GPT-5.5對從Plus到Go計(jì)劃的用戶均可使用,上下文窗口40萬token并提供速度快1.5倍但成本高2.5倍的快速模式。

AI產(chǎn)品專家阿卡什·古普塔(Aakash Gupta)分析了這個(gè)定價(jià)軌跡。從去年8月GPT-5的0.63美元到今年3月GPT-5.4的2.50美元,再到七周后GPT-5.5的5美元,八個(gè)月內(nèi)輸入定價(jià)漲了八倍。而英偉達(dá)表示其最新芯片將推理成本降低了高達(dá)每token 35倍。

古普塔認(rèn)為,OpenAI的成本基礎(chǔ)在急劇下降,但價(jià)格卻在攀升,這里發(fā)生的利潤率擴(kuò)張?jiān)谄髽I(yè)軟件史上前所未有。

布羅克曼此前曾說正在構(gòu)建一個(gè)整合ChatGPT、Codex和瀏覽器的超級(jí)應(yīng)用。古普塔的判斷是,每個(gè)在GPT-5.5上構(gòu)建智能體的開發(fā)者,都在為OpenAI自己的競爭產(chǎn)品提供資金。他認(rèn)為OpenAI找到的商業(yè)模式,很像那個(gè)讓微軟市值達(dá)到3萬億美元的模式。

結(jié)語:能力參差不齊,但前沿還在快速推進(jìn)

莫利克教授還設(shè)計(jì)了一個(gè)橫向?qū)Ρ葴y試。他讓從一年前發(fā)布的o3到最新的GPT-5.5 Pro等多個(gè)模型去構(gòu)建同一個(gè)程序化生成的3D模擬,展示一個(gè)港口城鎮(zhèn)從公元前3000年到公元3000年的演變。只有GPT-5.5 Pro真正模擬了一個(gè)不斷演變的小鎮(zhèn),而不僅僅是生成新建筑替換舊的。而且它只用了20分鐘,GPT-5.4 Pro花了33分鐘。

但他也發(fā)現(xiàn)了問題。當(dāng)要求模型創(chuàng)建一個(gè)全新的角色扮演游戲規(guī)則并配圖排版時(shí),產(chǎn)出在技術(shù)上很精巧且101頁的PDF排版專業(yè),規(guī)則也似乎合理。然而仔細(xì)讀內(nèi)容,AI在長篇虛構(gòu)創(chuàng)作上的老毛病還在。它喜歡用神秘元素、過于復(fù)雜但未能完全兌現(xiàn)的想法、奇怪的隱喻、過多的華麗句子,以及所有角色相似的語氣。他的結(jié)論是即便在所有驚人的技術(shù)進(jìn)步之中那個(gè)參差不齊的前沿仍然存在,只是它比以前遠(yuǎn)得多了。

OpenAI首席科學(xué)家雅庫布·帕喬基(Jakub Pachocki)在發(fā)布之際透露,他們實(shí)際上還有空間來訓(xùn)練比這聰明得多的模型。換句話說,GPT-5.5不是終點(diǎn)。

就在今天,這個(gè)模型已經(jīng)上線。對于那些需要處理復(fù)雜編碼任務(wù)、繁瑣知識(shí)工作或推進(jìn)科學(xué)研究的用戶來說,GPT-5.5提供的不只是一個(gè)更快的回答工具,而是一個(gè)能理解意圖、接管流程、持續(xù)推動(dòng)任務(wù)往前走的系統(tǒng)。而對于開發(fā)者來說,還得再等一等API的正式開放。在人類將越來越復(fù)雜的工作交給AI的這條路上,GPT-5.5是一個(gè)值得關(guān)注的路標(biāo)。

相關(guān)推薦
熱點(diǎn)推薦
新款大眾ID. Buzz官圖發(fā)布!網(wǎng)友:價(jià)格25萬起,肯定排隊(duì)

新款大眾ID. Buzz官圖發(fā)布!網(wǎng)友:價(jià)格25萬起,肯定排隊(duì)

汽車網(wǎng)評
2026-04-23 23:00:31
Shams:雄鹿將聘請?zhí)├铡ふ步鹚箵?dān)任球隊(duì)新任主帥

Shams:雄鹿將聘請?zhí)├铡ふ步鹚箵?dān)任球隊(duì)新任主帥

北青網(wǎng)-北京青年報(bào)
2026-04-24 13:52:06
山東新娘輸液昏迷92天后初現(xiàn)意識(shí),當(dāng)?shù)匾褑?dòng)鑒定程序

山東新娘輸液昏迷92天后初現(xiàn)意識(shí),當(dāng)?shù)匾褑?dòng)鑒定程序

大象新聞
2026-04-24 10:53:03
季后賽夢魘重現(xiàn)!哈登8失誤坑慘騎士,全隊(duì)無人上20慘遭吊打!

季后賽夢魘重現(xiàn)!哈登8失誤坑慘騎士,全隊(duì)無人上20慘遭吊打!

田先生籃球
2026-04-24 13:56:35
哈登總得分超越韋德!巴恩斯33+5+11,巴雷特33+5+5,拒絕0-3落后

哈登總得分超越韋德!巴恩斯33+5+11,巴雷特33+5+5,拒絕0-3落后

無術(shù)不學(xué)
2026-04-24 10:55:31
誒不是,張藝凡光個(gè)腳怎么就被全網(wǎng)憐愛了?

誒不是,張藝凡光個(gè)腳怎么就被全網(wǎng)憐愛了?

八卦三缺一
2026-04-23 11:30:17
伊朗用血淚給中國換來了教訓(xùn):最大的敵人,并不是美國和以色列

伊朗用血淚給中國換來了教訓(xùn):最大的敵人,并不是美國和以色列

墨印齋
2026-04-23 15:42:00
中國制裁有沒有用?看看今天的美國洛馬就知道了,什么叫釜底抽薪

中國制裁有沒有用?看看今天的美國洛馬就知道了,什么叫釜底抽薪

觸摸史跡
2026-04-24 04:58:08
遠(yuǎn)程正義之偽善!張平:我認(rèn)同以色列便生活于此,哈馬斯粉會(huì)嗎

遠(yuǎn)程正義之偽善!張平:我認(rèn)同以色列便生活于此,哈馬斯粉會(huì)嗎

瑜說還休
2026-04-23 12:46:24
八千里路云和月:鐵樹不是林長庚,也不是朱管家,而是不起眼的他

八千里路云和月:鐵樹不是林長庚,也不是朱管家,而是不起眼的他

匹夫來搞笑
2026-04-24 10:21:22
就差1秒!特朗普欲發(fā)射核武器,軍方強(qiáng)行攔截,拒絕為總統(tǒng)扣扳機(jī)

就差1秒!特朗普欲發(fā)射核武器,軍方強(qiáng)行攔截,拒絕為總統(tǒng)扣扳機(jī)

通鑒史智
2026-04-24 11:41:29
奧斯汀·里夫斯?fàn)顟B(tài)升級(jí)為出戰(zhàn)存疑 有望在G3復(fù)出

奧斯汀·里夫斯?fàn)顟B(tài)升級(jí)為出戰(zhàn)存疑 有望在G3復(fù)出

北青網(wǎng)-北京青年報(bào)
2026-04-24 13:56:03
秦皇島大姐逃單偷狗后續(xù):正臉曝光,被人認(rèn)出已社死,攤主不和解

秦皇島大姐逃單偷狗后續(xù):正臉曝光,被人認(rèn)出已社死,攤主不和解

奇思妙想草葉君
2026-04-24 11:33:43
行程開始,中方專機(jī)抵美,G20峰會(huì)已出變故,80歲總統(tǒng)硬剛特朗普

行程開始,中方專機(jī)抵美,G20峰會(huì)已出變故,80歲總統(tǒng)硬剛特朗普

青煙小先生
2026-04-24 11:41:43
臺(tái)灣最新民調(diào)出爐,蔣萬安、鄭麗文支持率驚人,民眾黨大將已表態(tài)

臺(tái)灣最新民調(diào)出爐,蔣萬安、鄭麗文支持率驚人,民眾黨大將已表態(tài)

孤城落葉
2026-04-23 19:53:10
體檢報(bào)告出現(xiàn)這3個(gè)“字眼”,多半是肺癌前兆!建議立刻就醫(yī)

體檢報(bào)告出現(xiàn)這3個(gè)“字眼”,多半是肺癌前兆!建議立刻就醫(yī)

垚垚分享健康
2026-04-23 16:52:07
特朗普被放鴿子,伊朗政壇地震,面對美國,穆杰塔巴比老爹還強(qiáng)硬

特朗普被放鴿子,伊朗政壇地震,面對美國,穆杰塔巴比老爹還強(qiáng)硬

浪子阿邴聊體育
2026-04-23 10:57:38
緊急通知!2026年起,銀行取錢全部換新,中老年家庭速看避坑!

緊急通知!2026年起,銀行取錢全部換新,中老年家庭速看避坑!

生活新鮮市
2026-04-24 03:54:14
剛剛宣布:加息25個(gè)基點(diǎn)

剛剛宣布:加息25個(gè)基點(diǎn)

中國基金報(bào)
2026-04-23 18:34:59
3.1億戈貝爾引熱議:完壓三屆MVP 卓越非凡被低估 未來名人堂成員

3.1億戈貝爾引熱議:完壓三屆MVP 卓越非凡被低估 未來名人堂成員

顏小白的籃球夢
2026-04-24 12:51:09
2026-04-24 14:27:00

科技要聞

剛剛,DeepSeek-V4 預(yù)覽版發(fā)布 百萬上下文

頭條要聞

華誼兄弟被申請破產(chǎn):曾坐擁百位明星 如今還不起千萬

頭條要聞

華誼兄弟被申請破產(chǎn):曾坐擁百位明星 如今還不起千萬

體育要聞

里程碑之戰(zhàn)拖后腿,哈登18分8失誤

娛樂要聞

王思聰被綠!戀愛期間女友被金主包養(yǎng)

財(cái)經(jīng)要聞

19家企業(yè)要"鋁代銅",格力偏不

汽車要聞

全景iDrive 續(xù)航近800km 新款寶馬7系/i7亮相

態(tài)度原創(chuàng)

教育
手機(jī)
數(shù)碼
時(shí)尚
軍事航空

教育要聞

告訴孩子:千萬不要被4種朋友借運(yùn),后果比早戀可怕100倍

手機(jī)要聞

國產(chǎn)上一代Ultra銷量比比看,華為還是最強(qiáng),小米第二

數(shù)碼要聞

專訪巴可王紅波:顯示行業(yè)競爭下半場,深耕八大垂直行業(yè)與構(gòu)建共贏生態(tài)

襯衫+半裙,比別人好看不止一點(diǎn)點(diǎn)

軍事要聞

美伊陷入互相封鎖僵局

無障礙瀏覽 進(jìn)入關(guān)懷版
×