国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

GPT-5.2性能爆表,但紅色警報(bào)沒(méi)有解除

0
分享至


本文來(lái)自微信公眾號(hào):直面AI,作者:苗正,頭圖來(lái)自:視覺中國(guó)

就在剛剛,ChatGPT-5.2發(fā)布了。

這是OpenAI成立以來(lái),首次發(fā)布紅色警報(bào)(Code Red)后的第一款產(chǎn)品。

雖然在時(shí)間上,GPT-5.2只跟5.1相隔了一個(gè)月。但是從公布的性能數(shù)據(jù)來(lái)看,GPT-5.2較上一代提升巨大,而且遠(yuǎn)超谷歌和Anthropic的同期產(chǎn)品。

然而OpenAI的紅色警報(bào)并未因此解除,這家公司仍處于危機(jī)之中。

究其原因,現(xiàn)在的市場(chǎng)已經(jīng)逐漸開始對(duì)OpenAI祛魅,而是更冷靜地審視每一分算力背后的投入產(chǎn)出比。在這種前所未有的環(huán)境之下,OpenAI不僅需要證明自己是最強(qiáng)的,還需要證明自己不可被替代。

首先要說(shuō)的,就是GPT-5.2的數(shù)學(xué)能力。

長(zhǎng)期以來(lái),業(yè)界普遍認(rèn)為大語(yǔ)言模型雖然能寫代碼、能聊天,但在嚴(yán)格的數(shù)學(xué)推理上總是差強(qiáng)人意。這次GPT-5.2 Thinking在AIME 2025數(shù)學(xué)競(jìng)賽中拿到了100%的滿分。


AIME是美國(guó)數(shù)學(xué)邀請(qǐng)賽,題目難度遠(yuǎn)超普通高中數(shù)學(xué),需要扎實(shí)的數(shù)學(xué)功底和靈活的解題思路。GPT-5.2能在這樣的測(cè)試中全部答對(duì),說(shuō)明它在數(shù)學(xué)推理上已經(jīng)達(dá)到了相當(dāng)高的水平。

在更高難度的FrontierMath測(cè)試中,GPT-5.2 Thinking解決了40.3%的專家級(jí)數(shù)學(xué)難題。這個(gè)測(cè)試專門針對(duì)前沿?cái)?shù)學(xué)研究設(shè)計(jì),許多題目連專業(yè)數(shù)學(xué)家都需要花費(fèi)大量時(shí)間思考。能解決其中40%的問(wèn)題,已經(jīng)展現(xiàn)出在輔助科學(xué)研究方面的潛力。

除了推理和數(shù)學(xué),GPT-5.2在專業(yè)工作領(lǐng)域也表現(xiàn)突出。

在OpenAI新推出的GDPval基準(zhǔn)測(cè)試中,GPT-5.2 Thinking在涵蓋44種職業(yè)的知識(shí)工作任務(wù)上,有70.9%的情況下?lián)魯』虼蚱搅隧敿庑袠I(yè)專家。

這些任務(wù)包括制作演示文稿、構(gòu)建復(fù)雜的財(cái)務(wù)模型、撰寫專業(yè)文檔等。OpenAI表示,它完成這些任務(wù)的速度是人類專家的11倍以上,成本卻不到1%。

在軟件工程方面,GPT-5.2 Thinking在SWE-Bench Pro上達(dá)到55.6%的準(zhǔn)確率,在SWE-bench Verified上達(dá)到80%。這些測(cè)試評(píng)估的是模型在真實(shí)代碼庫(kù)中修復(fù)bug、實(shí)現(xiàn)新功能的能力。

早期測(cè)試者反饋,它在前端開發(fā)和復(fù)雜UI實(shí)現(xiàn)上尤其出色,甚至能夠根據(jù)一條提示就生成包含3D效果和物理模擬的完整應(yīng)用。

GPT-5.2在長(zhǎng)文檔理解上也有明顯進(jìn)步。在OpenAI的MRCRv2測(cè)試中,它成為首個(gè)在256k token長(zhǎng)度下,針對(duì)4-needle變體任務(wù)達(dá)到近乎100%準(zhǔn)確率的模型。

這意味著用戶可以上傳數(shù)百頁(yè)的報(bào)告、合同或研究論文,模型仍能準(zhǔn)確理解分散在不同位置的相關(guān)信息,并進(jìn)行綜合分析。


在視覺理解方面,GPT-5.2的錯(cuò)誤率在圖表推理和軟件界面理解任務(wù)上幾乎減半。它對(duì)圖像中物體的空間位置有了更準(zhǔn)確的把握。

OpenAI展示了一個(gè)例子:即使輸入一張模糊的主板照片,GPT-5.2也能準(zhǔn)確識(shí)別出各個(gè)組件的位置并標(biāo)注邊界框,而前代模型只能識(shí)別出少數(shù)部分且位置偏差較大。


此次發(fā)布包含三個(gè)版本。GPT-5.2 Instant定位為日常工作的快速助手,適合信息查詢、技術(shù)寫作和翻譯等任務(wù)。GPT-5.2 Thinking專注于深度推理,在編程、數(shù)據(jù)分析和復(fù)雜文檔處理上表現(xiàn)最佳,是專業(yè)工作的首選。GPT-5.2 Pro則是最智能的版本,適合那些“值得等待高質(zhì)量答案”的高難度問(wèn)題。

同時(shí)這次發(fā)布最引人注目的,不僅是模型本身的能力提升,更是一個(gè)令人驚訝的效率數(shù)據(jù):在ARC-AGI-1測(cè)試中,GPT-5.2 Pro實(shí)現(xiàn)了約390倍的效率改進(jìn)。

一年前,OpenAI曾驗(yàn)證過(guò)一個(gè)未發(fā)布的o3預(yù)覽版本,在ARC-AGI-1測(cè)試中達(dá)到88%的準(zhǔn)確率,但每個(gè)任務(wù)的成本約為4500美元。如今,GPT-5.2 Pro不僅將準(zhǔn)確率提升至90.5%,還將單任務(wù)成本降至11.64美元。這種量級(jí)的效率提升,意味著原本只能在實(shí)驗(yàn)室中演示的能力,現(xiàn)在有可能真正走向?qū)嶋H應(yīng)用。


ARC-AGI測(cè)試被設(shè)計(jì)用來(lái)衡量抽象推理能力,它要求模型在面對(duì)從未見過(guò)的模式時(shí),仍能找出規(guī)律并給出答案。這種能力接近人類所謂的“舉一反三”。

GPT-5.2 Pro在ARC-AGI-1驗(yàn)證集上的表現(xiàn),使其成為首個(gè)突破90%門檻的模型。在難度更高的ARC-AGI-2上,GPT-5.2 Thinking也達(dá)到了52.9%的準(zhǔn)確率,創(chuàng)下了鏈?zhǔn)剿季S模型的新紀(jì)錄。

GPT-5.2是奧特曼啟動(dòng)Code Red后的一次強(qiáng)有力證明,但競(jìng)爭(zhēng)的結(jié)果不會(huì)由單一基準(zhǔn)測(cè)試決定。真正的較量在于誰(shuí)能更好地理解用戶需求,誰(shuí)能在保持技術(shù)領(lǐng)先的同時(shí)控制成本,誰(shuí)能在不同應(yīng)用場(chǎng)景中提供更可靠的服務(wù)。

一個(gè)來(lái)自GitHub的開源基準(zhǔn)測(cè)試給出了答案。在lechmazur維護(hù)的NYT Connections測(cè)試中,GPT-5.2的表現(xiàn)并不如預(yù)期。


NYT Connections是《紐約時(shí)報(bào)》推出的一個(gè)文字游戲,要求玩家從16個(gè)詞語(yǔ)中找出四組相關(guān)的詞匯。這個(gè)測(cè)試被設(shè)計(jì)成了一個(gè)LLM基準(zhǔn),通過(guò)加入額外的干擾詞來(lái)增加難度,目前包含759個(gè)謎題。這種測(cè)試考察的是模型對(duì)語(yǔ)言的細(xì)微理解、聯(lián)想能力和分類推理。

在這個(gè)排行榜上,Gemini 3 Pro Preview以96.8%的準(zhǔn)確率位居第一。緊隨其后的是xAI的Grok 4.1 Fast Reasoning,準(zhǔn)確率為93.5%。OpenAI的模型中,表現(xiàn)最好的是GPT-5 Pro,準(zhǔn)確率為83.9%,排在第八位。GPT-5.2在高推理模式下的準(zhǔn)確率為77.9%,排名第11位。

這個(gè)結(jié)果多少有些出人意料。GPT-5.2在數(shù)學(xué)競(jìng)賽中能拿滿分,在專業(yè)工作任務(wù)中能超越人類專家,但在這個(gè)看似簡(jiǎn)單的文字游戲上,卻落后于競(jìng)爭(zhēng)對(duì)手近20個(gè)百分點(diǎn)。

深入分析會(huì)發(fā)現(xiàn),這并不是簡(jiǎn)單的性能問(wèn)題。NYT Connections測(cè)試的是模型對(duì)語(yǔ)言文化背景的理解,對(duì)詞語(yǔ)之間隱含關(guān)聯(lián)的把握,以及在多個(gè)可能性中做出合理選擇的能力。

比如BANK、INTEREST、RATE、LOAN可能組成金融類別,也可能BANK與SHORE、BEACH、COAST組成河岸類別。

模型需要同時(shí)考慮多個(gè)維度的關(guān)聯(lián),并找到最合理的分組方式。

Gemini 3 Pro在這個(gè)測(cè)試上的領(lǐng)先,說(shuō)明谷歌在語(yǔ)言理解的某些維度上確實(shí)有獨(dú)到之處。Grok系列模型的表現(xiàn)也值得注意,xAI雖然起步較晚,但在特定任務(wù)上已經(jīng)展現(xiàn)出競(jìng)爭(zhēng)力。

有趣的是,測(cè)試數(shù)據(jù)還顯示,在最新的100個(gè)謎題中,各模型的排名基本保持一致,這說(shuō)明訓(xùn)練數(shù)據(jù)污染的可能性不大。模型之間的差距是實(shí)質(zhì)性的,而非來(lái)自對(duì)題目的記憶。

這個(gè)測(cè)試的存在,給AI社區(qū)提供了一個(gè)更全面的視角。模型能力的評(píng)估不應(yīng)該只看幾個(gè)主流基準(zhǔn)測(cè)試,也需要關(guān)注那些看似邊緣但實(shí)則反映深層能力的測(cè)試。

NYT Connections考察的聯(lián)想和分類能力,在實(shí)際應(yīng)用中同樣重要,比如在信息檢索、內(nèi)容推薦、知識(shí)圖譜構(gòu)建等場(chǎng)景中。

從這個(gè)角度看,奧特曼的Code Red警報(bào)確實(shí)還不能解除。雖然GPT-5.2在很多領(lǐng)域表現(xiàn)出色,但它并沒(méi)有在所有維度上都取得領(lǐng)先。競(jìng)爭(zhēng)對(duì)手在某些方向上依然保持著優(yōu)勢(shì),甚至在擴(kuò)大差距。

技術(shù)競(jìng)爭(zhēng)最終要落到商業(yè)層面。OpenAI在市場(chǎng)上的處境,比技術(shù)指標(biāo)的對(duì)比要復(fù)雜得多。

從定價(jià)策略來(lái)看,GPT-5.2在API層面的價(jià)格定在每百萬(wàn)輸入token 1.75美元,每百萬(wàn)輸出token 14美元,比前代GPT-5.1分別貴了40%。

GPT-5.2 Pro價(jià)格也提高了,每百萬(wàn)輸入token 21美元,每百萬(wàn)輸出token 168美元。


這個(gè)漲價(jià)幅度不小,OpenAI的解釋是新模型能力更強(qiáng),性價(jià)比實(shí)際上更高。但對(duì)于大量調(diào)用API的開發(fā)者來(lái)說(shuō),成本的增加是實(shí)實(shí)在在的。

相較之下,Gemini 3 Pro的核心型號(hào)為gemini-3-pro-preview,其token定價(jià)按上下文窗口長(zhǎng)度區(qū)分,提示詞≤20 萬(wàn) token 時(shí),輸入每百萬(wàn)token 2美元、輸出每百萬(wàn)token 12美元,提示詞>20萬(wàn)token時(shí),輸入和輸出價(jià)格分別翻倍至每百萬(wàn)token 4美元和18美元。

Claude 方面,最新的 Opus 4.5定價(jià)大幅下調(diào),輸入每百萬(wàn)token 5美元、輸出每百萬(wàn)token 25美元,相比前代降幅約2/3,上下文窗口為200K token,且無(wú)長(zhǎng)上下文加價(jià)情況。

當(dāng)競(jìng)爭(zhēng)對(duì)手們?nèi)鏕emini和Claude都在通過(guò)大幅降價(jià),試圖讓AI變成像水電一樣廉價(jià)的基礎(chǔ)設(shè)施時(shí),OpenAI 卻反其道而行之,不僅沒(méi)有參與價(jià)格戰(zhàn),反而坦然地掛出了高昂的價(jià)格標(biāo)簽。這只能說(shuō)明一件事:奧特曼正在試圖把 GPT 變成一件“奢侈品”。

在商業(yè)邏輯中,奢侈品的定義往往不在于“有用”,而在于“稀缺”和“極致”。OpenAI 正在賭,賭這個(gè)世界上存在一部分最高端的智力需求,它們對(duì)價(jià)格不敏感,但對(duì)質(zhì)量有著近乎偏執(zhí)的要求。

對(duì)于這部分用戶,只要能提供那個(gè)唯一的、最正確的答案,168美元的價(jià)格不僅不貴,反而是一種身份和能力的篩選。

這或許才是“紅色警報(bào)”在商業(yè)層面的真正回響。它不再是擔(dān)心落后,而是擔(dān)心平庸。

OpenAI正在進(jìn)行一場(chǎng)危險(xiǎn)的博弈:它試圖通過(guò)高價(jià)策略,將自己與“普通 AI”徹底區(qū)隔開來(lái),建立起類似愛馬仕或蘋果那樣的品牌護(hù)城河。

但這也意味著,它從此失去了“差不多就行”的容錯(cuò)空間??蓡?wèn)題就在于一旦這件昂貴的“奢侈品”在實(shí)際體驗(yàn)中無(wú)法提供碾壓式的優(yōu)越感,那么用戶轉(zhuǎn)身離開的速度。

況且,能挽救OpenAI的遠(yuǎn)不止一個(gè)高性能的模型那么簡(jiǎn)單,奧特曼現(xiàn)在需要的,是一個(gè)足夠動(dòng)人的新故事。

本文來(lái)自微信公眾號(hào):直面AI,作者:苗正

本內(nèi)容由作者授權(quán)發(fā)布,觀點(diǎn)僅代表作者本人,不代表虎嗅立場(chǎng)。如對(duì)本稿件有異議或投訴,請(qǐng)聯(lián)系 tougao@huxiu.com。

本文來(lái)自虎嗅,原文鏈接:https://www.huxiu.com/article/4816688.html?f=wyxwapp

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
臺(tái)最新民調(diào)出爐,賴清德大勢(shì)已去,侯友宜發(fā)聲力挺民進(jìn)黨是何意?

臺(tái)最新民調(diào)出爐,賴清德大勢(shì)已去,侯友宜發(fā)聲力挺民進(jìn)黨是何意?

科普100克克
2025-12-18 11:48:02
中國(guó)又一個(gè)伙伴倒向美國(guó)?撕毀合同,把矛頭對(duì)準(zhǔn)了中方

中國(guó)又一個(gè)伙伴倒向美國(guó)?撕毀合同,把矛頭對(duì)準(zhǔn)了中方

博覽歷史
2025-12-18 18:16:35
小學(xué)生吃早餐視頻火了,116萬(wàn)網(wǎng)友點(diǎn)贊:這就是有父母兜底的幸福

小學(xué)生吃早餐視頻火了,116萬(wàn)網(wǎng)友點(diǎn)贊:這就是有父母兜底的幸福

妍妍教育日記
2025-12-18 20:23:32
太平天國(guó)最大貢獻(xiàn):一場(chǎng)14年的“外科手術(shù)”,掏空清廷統(tǒng)治根基

太平天國(guó)最大貢獻(xiàn):一場(chǎng)14年的“外科手術(shù)”,掏空清廷統(tǒng)治根基

遠(yuǎn)方風(fēng)林
2025-12-18 23:49:15
反轉(zhuǎn)反轉(zhuǎn)再反轉(zhuǎn)!狄龍自殺式防守送勇士?jī)闪P1擲 太陽(yáng)最后罰球絕殺

反轉(zhuǎn)反轉(zhuǎn)再反轉(zhuǎn)!狄龍自殺式防守送勇士?jī)闪P1擲 太陽(yáng)最后罰球絕殺

Emily說(shuō)個(gè)球
2025-12-19 12:45:42
被認(rèn)定為贗品的《江南春》圖卷2001年以6800元價(jià)格賣出!多部門調(diào)查最新進(jìn)展

被認(rèn)定為贗品的《江南春》圖卷2001年以6800元價(jià)格賣出!多部門調(diào)查最新進(jìn)展

海峽網(wǎng)
2025-12-19 09:42:23
16歲職校女生遭多名同學(xué)毆打侮辱,家屬稱霸凌者至今未道歉和賠償,7名涉事學(xué)生因未成年均未予行政拘留

16歲職校女生遭多名同學(xué)毆打侮辱,家屬稱霸凌者至今未道歉和賠償,7名涉事學(xué)生因未成年均未予行政拘留

極目新聞
2025-12-19 13:35:52
“日入過(guò)萬(wàn)”的16歲深圳燒雞少年壓力來(lái)了!稱每天到手只有1000多

“日入過(guò)萬(wàn)”的16歲深圳燒雞少年壓力來(lái)了!稱每天到手只有1000多

火山詩(shī)話
2025-12-19 11:47:47
22歲女生大學(xué)畢業(yè)做團(tuán)播,入職后三觀震碎:維護(hù)“大哥”比跳舞重要,想離職發(fā)現(xiàn)違約金高達(dá)50萬(wàn)元

22歲女生大學(xué)畢業(yè)做團(tuán)播,入職后三觀震碎:維護(hù)“大哥”比跳舞重要,想離職發(fā)現(xiàn)違約金高達(dá)50萬(wàn)元

大風(fēng)新聞
2025-12-19 12:36:02
日本迫使蘋果調(diào)整iOS規(guī)則大幅降低蘋果稅,中國(guó)繼續(xù)人傻錢多?

日本迫使蘋果調(diào)整iOS規(guī)則大幅降低蘋果稅,中國(guó)繼續(xù)人傻錢多?

風(fēng)向觀察
2025-12-18 16:40:37
小鵬汽車法務(wù)部:已報(bào)案

小鵬汽車法務(wù)部:已報(bào)案

每日經(jīng)濟(jì)新聞
2025-12-18 14:52:26
貴州發(fā)生一起刑案:被害人簽下3年租房合同并交錢后,遭房東持刀殺害,其妻兒受傷送醫(yī)

貴州發(fā)生一起刑案:被害人簽下3年租房合同并交錢后,遭房東持刀殺害,其妻兒受傷送醫(yī)

揚(yáng)子晚報(bào)
2025-12-19 07:06:55
墜機(jī)!55歲美國(guó)冠軍車手不幸遇難,7人死亡:包括妻子+2個(gè)孩子

墜機(jī)!55歲美國(guó)冠軍車手不幸遇難,7人死亡:包括妻子+2個(gè)孩子

念洲
2025-12-19 09:19:44
關(guān)于楊蘭蘭,終于破解出幾條她的關(guān)鍵信息

關(guān)于楊蘭蘭,終于破解出幾條她的關(guān)鍵信息

詩(shī)意世界
2025-12-19 12:00:03
內(nèi)存價(jià)格暴漲,小米、榮耀等平板宣布即將漲價(jià)

內(nèi)存價(jià)格暴漲,小米、榮耀等平板宣布即將漲價(jià)

三言科技
2025-12-17 08:56:42
細(xì)思極恐!南京全城導(dǎo)航集體失靈,揭開高德、百度地圖背后的真相

細(xì)思極恐!南京全城導(dǎo)航集體失靈,揭開高德、百度地圖背后的真相

火山詩(shī)話
2025-12-19 06:18:20
日本即將引爆一顆金融核彈,美國(guó)會(huì)被炸死嗎?

日本即將引爆一顆金融核彈,美國(guó)會(huì)被炸死嗎?

天真無(wú)牙
2025-12-18 17:21:02
首都機(jī)場(chǎng)公安偵破18年命案積案,犯罪嫌疑人已被批捕

首都機(jī)場(chǎng)公安偵破18年命案積案,犯罪嫌疑人已被批捕

新京報(bào)
2025-12-19 09:39:06
社評(píng):中國(guó)科技進(jìn)步,路透社本不必焦慮

社評(píng):中國(guó)科技進(jìn)步,路透社本不必焦慮

環(huán)球網(wǎng)資訊
2025-12-19 00:45:05
“走讀中柬”系列文化活動(dòng)在柬埔寨成功舉辦

“走讀中柬”系列文化活動(dòng)在柬埔寨成功舉辦

參考消息
2025-12-18 09:41:08
2025-12-19 14:47:00
虎嗅APP incentive-icons
虎嗅APP
個(gè)性化商業(yè)資訊與觀點(diǎn)交流平臺(tái)
25456文章數(shù) 687200關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

中戲院長(zhǎng)郝戎被查 劉燁、章子怡、靳東等為其學(xué)生

頭條要聞

中戲院長(zhǎng)郝戎被查 劉燁、章子怡、靳東等為其學(xué)生

體育要聞

沒(méi)有塔圖姆,還有塔禿姆

娛樂(lè)要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無(wú)期

汽車要聞

最便宜GLS 2026款奔馳GLS經(jīng)典版售96.8萬(wàn)

態(tài)度原創(chuàng)

本地
家居
房產(chǎn)
教育
時(shí)尚

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

家居要聞

高端私宅 理想隱居圣地

房產(chǎn)要聞

猛降1.65億!大唐集團(tuán),再次出售三亞核心資產(chǎn)!

教育要聞

忘記密碼看這里!2025冬季學(xué)考(合格考)準(zhǔn)考證今起打印!打印直達(dá)入口→

實(shí)用|| 百元外套穿出萬(wàn)元既視感,這個(gè)思路太妙了!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版