国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

GPT-5.2首發(fā)評(píng)測(cè):大神深度體驗(yàn)兩周,強(qiáng)到離譜,但慢得抓狂

0
分享至


↑閱讀之前記得關(guān)注+星標(biāo)??,,每天才能第一時(shí)間接收到更新

為了緊急對(duì)抗谷歌的Gemini 3 ,OpenAI 剛剛推出了GPT-5.2,sam Altman 叫喊這是很長時(shí)間以來最大的更新


基準(zhǔn)測(cè)試分?jǐn)?shù)官方的發(fā)布博客文章都有,跑分屠榜,編程能力非常強(qiáng),但現(xiàn)在的這些分?jǐn)?shù)看看就好了,感興趣的看這里

https://openai.com/index/introducing-gpt-5-2/


GPT-5.2 的幻覺減少了大約 30-40%


價(jià)格更貴了


另外圣誕節(jié)還有發(fā)布,估計(jì)是圖像模型更新?ChatGPT 的“成人模式”目前計(jì)劃于明年第一季度推出


這里我分享一下大神OthersideAI CEO Matt Shumer 對(duì) GPT-5.2 深度評(píng)測(cè),這哥們已經(jīng)拿到內(nèi)測(cè)兩周了

核心要點(diǎn)先放在前面:

指令遵循和任務(wù)意愿:GPT-5.2 Thinking 在指令遵循和嘗試完成困難任務(wù)的意愿上,邁出了有意義的一步

代碼生成能力提升巨大:比 GPT-5.1 好得多。能力更強(qiáng)、更自主、更謹(jǐn)慎,并且愿意編寫多得多的代碼

視覺和長上下文:大幅改進(jìn),尤其是在理解圖像中的位置和處理大型代碼庫方面

速度是主要缺點(diǎn):作者體驗(yàn)中,Thinking 模式在處理大多數(shù)問題時(shí)都非常慢(盡管其他測(cè)試者反饋不一)。他幾乎從不使用 Instant 模式

GPT-5.2 Pro:在深度推理方面強(qiáng)到離譜,但速度很慢,而且偶爾會(huì)陷入長時(shí)間思考后仍然失敗的境地

Codex CLI:GPT-5.2 是作者在命令行工具中使用過的最接近 Pro 級(jí)編碼能力的模型,但實(shí)現(xiàn)這一能力的高級(jí)推理模式有時(shí)需要漫長的等待

以下是詳細(xì)評(píng)測(cè)內(nèi)容。

GPT-5.2 Thinking:直覺的提升

GPT-5.2 最引人注目的地方在于它遵循指令的方式——不是基礎(chǔ)的“我說你做”,而是“真正完成我所描述的整個(gè)任務(wù)”

作者舉了一個(gè)例子。在測(cè)試創(chuàng)意寫作時(shí),他要求模型先想出50個(gè)情節(jié)構(gòu)思,然后再選出最好的一個(gè)來寫故事。大多數(shù)模型會(huì)走捷徑,可能只給出10個(gè)想法,選一個(gè)就開始。

而 GPT-5.2 確實(shí)生成了全部50個(gè)構(gòu)思,然后才進(jìn)行選擇。這聽起來是小事,但并非如此。在進(jìn)行創(chuàng)意工作或研究時(shí),多出來的40個(gè)想法中可能就包含了那個(gè)真正有趣的火花。模型信任流程,而不是為了速度而優(yōu)化,這一點(diǎn)至關(guān)重要。

作者進(jìn)一步測(cè)試,要求它寫一本200頁的書。雖然書頁內(nèi)容本身很弱且簡短,模型還無法一次性寫出可出版的小說,但令人印象深刻的是,它確實(shí)嘗試去做了。它構(gòu)建了整本書的結(jié)構(gòu),甚至設(shè)置成了PDF格式。大多數(shù)模型會(huì)假設(shè)自己做不到,甚至不會(huì)嘗試,它們會(huì)告訴你“這太長了”,或者只給你一個(gè)大綱

GPT-5.2 則是直接上手。這種愿意嘗試宏大任務(wù)(即便不完美)的意愿,開啟了新的工作流。

代碼生成:真正的進(jìn)步

GPT-5.2 在代碼生成方面確實(shí)比以前的模型有了巨大進(jìn)步。它寫的代碼質(zhì)量更高,能處理的任務(wù)也更龐大

例如,作者用 Three.js 動(dòng)畫來壓力測(cè)試其空間推理能力。他要求模型構(gòu)建一個(gè)棒球場景,它生成的風(fēng)格比大多數(shù)模型更逼真(紋理/光照效果很棒),但空間感知和物體放置仍有很大改進(jìn)空間


此外,該模型愿意編寫比之前版本多得多的代碼,并且能持續(xù)工作更長時(shí)間不中斷。這是實(shí)實(shí)在在的能力提升。

視覺和長上下文

5.2 版本的視覺能力有顯著提升。它對(duì)圖像的理解,特別是位置和空間關(guān)系,有了很大的不同(盡管空間生成能力仍在開發(fā)中)。這對(duì)操作計(jì)算機(jī)的智能體來說是個(gè)好消息。

它的長上下文能力也很出色。在處理大型代碼庫、大量數(shù)據(jù)和長篇分析時(shí)感覺比以前更穩(wěn)定,這也是 GPT-5.2 在智能體編碼工作流中表現(xiàn)出色的原因之一。

作者在這里吐槽了一點(diǎn):模型已經(jīng)變得如此強(qiáng)大,但 OpenAI 的 ChatGPT 界面卻完全沒跟上。例如,ChatGPT 中的 Canvas 界面仍然無法處理大量代碼。他最初在 Canvas 中嘗試 Three.js 測(cè)試,但模型輸出的代碼量超出了 Canvas 的處理能力

另外,Pro 模式仍然只能在 ChatGPT 內(nèi)部使用,而不能在 Codex CLI 中使用,這讓作者持續(xù)感到沮喪。為了解決這個(gè)問題,他使用一個(gè)叫 RepoPrompt 的工具:將本地代碼庫轉(zhuǎn)成提示詞粘貼給 5.2 Pro,再把模型的回答粘貼回 RepoPrompt,由后者將變更應(yīng)用到代碼庫。雖然多了一個(gè)步驟,但這讓他能在真實(shí)代碼庫上利用 Pro 級(jí)別的推理能力。

風(fēng)格

用過 OpenAI 模型的人都知道它們對(duì)項(xiàng)目符號(hào)(bullet points)的執(zhí)著。GPT-5.2 延續(xù)了這一傳統(tǒng)。當(dāng)你讓它解釋某件事時(shí),往往會(huì)得到一個(gè)項(xiàng)目符號(hào)列表,而其實(shí)幾段清晰的文字效果會(huì)更好。通過精心設(shè)計(jì)提示詞(比如明確要求流暢的散文風(fēng)格),可以規(guī)避這個(gè)問題。

除了項(xiàng)目符號(hào),寫作風(fēng)格整體有所改善。雖然不是對(duì) GPT-5.1 的巨大飛躍,但確實(shí)更好了一些

積極的一面是,GPT-5.2 學(xué)會(huì)了在回答中保持簡潔。當(dāng)我問一些簡單問題時(shí),偶爾能得到簡單的答案。作者表示,雖然這還沒成為默認(rèn)行為,但已是進(jìn)步。

速度問題

這一點(diǎn)影響了作者的日常使用:標(biāo)準(zhǔn)的 GPT-5.2 Thinking 很慢。根據(jù)他的經(jīng)驗(yàn),即使是簡單直接的問題,速度也非常非常慢。不過,他也提到其他測(cè)試者報(bào)告了不同的速度表現(xiàn),有些任務(wù)快,有些任務(wù)慢。

在實(shí)際工作中,這意味著他很少使用 GPT-5.2 Thinking。他的工作流變成了:

  • ? 快速問題 → Claude Opus 4.5

  • ? 深度推理 → GPT-5.2 Pro

標(biāo)準(zhǔn)的 Thinking 模型處于一個(gè)尷尬的中間地帶:比 Opus 慢,又沒有 Pro 完整的推理優(yōu)勢(shì)。

各模型橫向?qū)Ρ?/p>

作者同時(shí)使用 Claude Opus 4.5、Gemini 3 Pro 和 GPT-5.2,它們?cè)谒墓ぷ髁髦行纬闪嗣鞔_分工:

用于快速提問:“X的語法是什么”或“提醒我Y如何工作”這類問題Claude Opus 4.5 勝出。它更快,更直接。

用于研究和復(fù)雜推理:GPT-5.2 Pro 明顯更勝一籌。當(dāng)任務(wù)需要從多個(gè)角度思考、需要整合大量上下文時(shí),Pro 的表現(xiàn)最優(yōu)

用于前端UI生成:GPT-5.2 Thinking 和 Pro 都比之前的 GPT 模型有進(jìn)步,但兩者都不及 Gemini 3 Pro。這里的區(qū)別很微妙:Gemini 3 Pro 有最好的審美感,其 UI 看起來很棒。但它在布局和前端工程方面的可靠性稍差。所以,如果需要功能正確、能處理邊緣情況的UI,作者還是會(huì)用 Opus 或 GPT。如果只是追求漂亮,并愿意自己修復(fù)代碼,Gemini 3 Pro 是目前最佳選擇

GPT-5.2 Pro:一個(gè)緩慢的天才

Pro 模式是真正有趣的地方。它是一個(gè)獨(dú)立的系統(tǒng),且只在 ChatGPT 中可用。

簡而言之:Pro 聰明到離譜。Thinking 和 Pro 之間的智能差距立即可見。但比原始智能更重要的是 Pro 的思考意愿。它會(huì)花費(fèi)比以往 Pro 模型長得多的時(shí)間來解決一個(gè)問題。對(duì)于研究任務(wù),如果需要,它會(huì)進(jìn)行極長時(shí)間的資料搜集。

食譜測(cè)試

作者舉了一個(gè)具體例子。他向模型尋求膳食計(jì)劃幫助,并強(qiáng)調(diào)自己“沒有時(shí)間做飯”,需要一個(gè)7天的計(jì)劃(每天三餐兩點(diǎn))。

Pro 提供了出色的食譜計(jì)劃,但最突出的是它的配料表——比其他模型建議的簡單得多。它理解了“沒時(shí)間”不僅限制了烹飪時(shí)間,也限制了購物的復(fù)雜性、準(zhǔn)備工作和心力開銷。它領(lǐng)會(huì)了作者的心態(tài),而不僅僅是字面請(qǐng)求。

作者表示,看到這種程度的理解相當(dāng)令人震驚。他把同樣的提示發(fā)給了所有其他前沿模型,沒有一個(gè)考慮到這一點(diǎn)。

提示詞編寫

GPT-5.2 非常擅長編寫提示詞,這對(duì)于充分利用 AI 模型和構(gòu)建集成 LLM 的軟件都很有幫助。它寫的提示詞考慮周到,并且能預(yù)見到作者未曾考慮的邊緣情況。在這方面,它與 Claude Opus 4.5 不相上下,并且明顯優(yōu)于 Gemini 3 Pro。

Codex CLI 實(shí)測(cè)

在 Codex CLI 中,作者對(duì) GPT-5.2 進(jìn)行了廣泛測(cè)試,結(jié)果是越用越印象深刻。這是他所見過的在命令行中最接近 Pro 級(jí)模型的體驗(yàn)。它一次性做對(duì)的頻率遠(yuǎn)超其他工具。美中不足的是,他只能使用“超高推理模式”,這個(gè)模式有時(shí)會(huì)花費(fèi)漫長的時(shí)間,甚至比 Pro 還慢。

其自主性比以前的模型有明顯提升。但真正的區(qū)別在于它收集上下文的方式。Claude Opus 4.5 傾向于在完全理解問題前就開始寫代碼,它會(huì)做出假設(shè),然后碰壁。

而 GPT-5.2 不會(huì)這樣。它會(huì)先提問、讀取文件、探索代碼庫。先收集上下文,再編寫代碼。

這改善了作者的工作流。他檢查模型工作的次數(shù)越來越少。除非任務(wù)至關(guān)重要(例如生產(chǎn)代碼),他常常讓它直接運(yùn)行而不審查每一處更改。

一些小怪癖

作者也遇到了一些 Pro 模式的奇怪行為。它似乎會(huì)卡在相互沖突的指令之間,在猶豫幾分鐘后,把一個(gè)簡單的任務(wù)退回給用戶。偶爾,它會(huì)思考很長時(shí)間,然后仍然失敗,這非常浪費(fèi)時(shí)間。據(jù)稱 OpenAI 已經(jīng)知曉并正在調(diào)查。

使用場景總結(jié)

經(jīng)過兩周測(cè)試,作者給出了他的實(shí)用分工:

  1. 1. 快速提問和日常任務(wù)Claude Opus 4.5 仍是首選。它快、準(zhǔn),不浪費(fèi)時(shí)間。

  2. 2. 深度研究、復(fù)雜推理GPT-5.2 Pro 是目前最好的選擇。在這種場景下,正確性比速度更重要。

  3. 3. 前端樣式和UI美學(xué)Gemini 3 Pro 目前能生成最好看的結(jié)果,但需要準(zhǔn)備好自己做一些工程清理工作。

  4. 4. 在 Codex CLI 中進(jìn)行嚴(yán)肅的編碼工作GPT-5.2 是首選,其上下文收集行為和可靠性使其成為智能體編碼任務(wù)的默認(rèn)選項(xiàng)。

最后總結(jié)

GPT-5.2 是一次真正的改進(jìn)。指令遵循能力明顯提高,Pro 模式的智能和可靠性令人印象深刻。對(duì)于需要審慎推理的復(fù)雜任務(wù),這是作者用過的最好的模型。

然而,標(biāo)準(zhǔn) Thinking 模型的速度問題使他日常很少使用。他最終的用法是:快速任務(wù)用 Opus 4.5,深度工作用 Pro。

但對(duì)于那些 GPT-5.2 擅長的任務(wù),它的表現(xiàn)確實(shí)非常亮眼

source:

https://shumer.dev/gpt52review

--end--

最后記得??我,每天都在更新:歡迎點(diǎn)贊轉(zhuǎn)發(fā)推薦評(píng)論,別忘了關(guān)注我

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

AI寒武紀(jì) incentive-icons
AI寒武紀(jì)
專注于人工智能,科技領(lǐng)域
1027文章數(shù) 393關(guān)注度
往期回顧 全部

專題推薦

洞天福地 花海畢節(jié) 山水饋贈(zèng)里的“詩與遠(yuǎn)方

無障礙瀏覽 進(jìn)入關(guān)懷版