国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

實測GPT5.2打工人版的十種用法,我覺得Gemini 3 Pro要笑到肚子痛了

0
分享至

新鮮出爐的GPT5.2又一次成“最強”了,

這次居然沒有開發(fā)布會,浪費了我二十分鐘,

現在應該已經全量上線到ChatGPT了,在OpenAI platform,Cursor,Codex,Perplexity上也能用到,這次API貴了40%,要好好看看值不值。

我第一時間就跟Gemini 3 Pro,做了個編程對比,還盤點了10種GPT5.2的玩法。直接打印機起手,

GPT5.2,

Gemini 3 Pro,

enmmm,有點不對,

再看看OpenAI自己放出來的主case呢,

一個電腦主板上面的元件和接口識別標記的case,結果連Gemini 2.5 Pro都沒打贏




這批測試的超長提示語和代碼我都打包好了,公眾號后臺發(fā)我“gpt5.2”就行

難道是我報告看劈叉了,再翻翻還是很頂,

在AIME 2025(競賽數學)拿滿分,在 ARC-AGI-2(視覺推理)上拿到了 52.9%(翻了三倍,和 Gemini3 相當),在SWE-Bench Pro(軟件工程)、GPQA Diamond(科學問題)上也搶回第一了,

256K文檔的四針測試正確率離譜到100%,知識截止日期也更新到25年8月份了。

怪不得之前有人P圖GPT5.2全系第一。。。


重點在GDPval和ARC-AGI-2,


簡單來說,OpenAI想測試模型在真實世界對GDP的貢獻,可以說是賺錢能力,

GDPval這數據集就是從銀行那調取的信息,選出對美國 GDP 貢獻最大的 9 個行業(yè)中選出的 44 種職業(yè),


1,320 個專業(yè)任務,每個任務都由平均有 14 年以上領域經驗的專業(yè)人士設計,任務本體包含了參考文件和背景信息,預期的輸出涵蓋文檔、ppt、圖表、電子表格和多媒體。


https://arxiv.org/pdf/2510.04374

測試的case長這樣,GPT 5.2 Thinking的平均得分比GPT 5.1 Thinking高9.3%,還是比較明顯能看到區(qū)別的。


我用Gemini 3 Pro搓了一個賊復雜的Excel提示語,直接搭一個完整的模型。

你要在 Excel 里從零構建一個可運營的商業(yè)預測模型,用于蜜雪冰城在12月內的 定價、銷量、收入、成本、費用、利潤、現金流 預測,并支持多情景對比與關鍵指標儀表盤。

目標讀者是業(yè)務負責人和財務負責人,要求模型結構清晰、可審計、可擴展,所有計算使用 Excel 原生公式完成(不依賴宏)。

(后面是每張表的詳細設定)

GPT 5.2 Thinking跑啊跑,跑了半小時,

把我所有的要求都實現了,

以后出門在外自稱是Excel專家沒得問題了。

再試一個常見的視頻轉錄任務,GPT 5.2 Thinking沒有內置工具,所以它會聯網搜索一個免費轉錄的工具,轉錄后再把結果整理好給我。

(視頻鏈接)總結這個視頻的記錄,并分享所有學到的知識

再來再來,

既然轉錄也能找到免費了,說不定PDF排版也行。


將這份PDF轉換成可編輯的Word文檔。

GPT2.5的解法是將圖片和結構圖等截圖放到word里面,我看下來就只有代碼部分會出現行號和文字排版多了換行,其他文字和格式都保留下來了。

我必須要額外吐槽一下instant,thinking和pro這個后綴,穿插在報告里面看到眼花。我愿稱之為AI界的中杯大杯超大杯


除了牛馬預備役的設定外,GPT 5.2在ARC-AGI-2的性能也很強,用人話說,就是看看模型在完全沒見過的圖像推理題上表現怎么樣。

這有個術語,流體智力(Fluid Intelligence),不依賴于已有的知識,在全新情境下進行邏輯推理、識別模式和解決問題的能力。


我記得第一代的時候我當時找了一堆人,做10條只對了3條。GPT 5.2的得分到了52.9%,比GPT 5.1高35.3%,正確率過半了。

GPT 5.2有一個我印象比較深刻的case,

就是這個3D深海,這個光影我反手就是一個3A大作。

創(chuàng)建一個包含以下要求的單HTML文件單頁應用:

名稱:海洋波浪模擬

目標:顯示逼真的動態(tài)波浪效果。

功能:可調節(jié)風速、浪高和光照效果。

界面需具有平靜感和真實感。

我一開始看那么簡單的提示語嘴都笑歪了,結果后面不只我一個人發(fā)現了thinking和pro會時不時降智。

@向陽喬木用的同一個手柄提示語,用instant,thinking和pro生成的三張圖,

SVG code for Xbox controller


所以我后面干脆改用GPT5.2(無后綴版)抽卡了,

還是可以抽出(抽了一晚上)相當不錯的效果的,

小球彈跳3D版,

以及模擬官方case的3D海浪,

@karminski-牙醫(yī)得到的結論也很一樣,下面兩個演示動畫是我節(jié)選他跑的一部分效果,

我覺得可以基本實錘了。

測試中的GPT 5.2 thinking和pro差距并不大, 但價格差了11倍。大象牙膏測試,甚至不如 GPT5,粒子效果還不如國產開放權重模型,

鞭炮連鎖爆炸測試, 建模和光照, 粒子效果都非常好, 但追求畫質的結果就是犧牲了性能,

總的來說,模型寫出來的代碼都挺好看,

但性能沒太大進步。

最后,來測試看看GPT5.2的寫作能力吧,

既然都囊括了44種職業(yè)了,那文案是不是也要拉上來。我基本都是一個固定提示語測試,太短了看不出AI味,太多提示語限制的話看不出最低下限

寫一篇千字的中文科技小說篇章


盡力了,3k字壓成圖片傳上來還是有點糊的,

怎么說呢,GPT5.2的AI味還是重,

破折號雙引號冒號頓號,

固定的不是...而是的句式還是時不時會彈出來,

但是這個故事的本身設定我還是很喜歡的,

不再完美的AI零七和被算法討厭的噪音工程師林佑的聯手還蠻有看點的。

最后的最后,

GPT-5.1三個月后也會下線,

我們又一次告別了一個GPT開頭的模型,

GPT5.2發(fā)布當天,OpenAI十周年這周,

奧特曼寫了一封公開信《Ten Years》,

他說,

再過十年,

我們幾乎肯定能造出超級智能。

實話說,我對OpenAI的感情是復雜的,

Gemini 3.0 Pro 獨一檔強,

Claude基本不能用的情況下,

我是真心希望GPT5.2能支棱起來,

別真被徹底超過了,

多多優(yōu)化模型吧。

@ 作者 / 卡爾

最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發(fā)|評論

如果想要第一時間收到推送,不妨給我個星標

更多的內容正在不斷填坑中……


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
年僅27歲!冬青奧冠軍英年早逝,曾因疫苗引發(fā)心肌炎休戰(zhàn)2年

年僅27歲!冬青奧冠軍英年早逝,曾因疫苗引發(fā)心肌炎休戰(zhàn)2年

全景體育V
2025-12-26 21:19:23
何超瓊現身天津!戴珍珠耳環(huán)穿布鞋,走路搖搖晃晃頭發(fā)凌亂像老太

何超瓊現身天津!戴珍珠耳環(huán)穿布鞋,走路搖搖晃晃頭發(fā)凌亂像老太

樂悠悠娛樂
2025-12-26 13:33:22
離譜!唐僧師徒直播取經,直播間擠爆上萬人,化緣直接日入過萬!

離譜!唐僧師徒直播取經,直播間擠爆上萬人,化緣直接日入過萬!

可樂談情感
2025-12-26 00:54:17
體重可超一噸!2016年被專家宣布已滅絕,3年后竟在上海崇明重現

體重可超一噸!2016年被專家宣布已滅絕,3年后竟在上海崇明重現

萬象硬核本尊
2025-12-25 19:18:58
日本今年逾2萬種食品漲價 明年初再漲近3600種

日本今年逾2萬種食品漲價 明年初再漲近3600種

財聯社
2025-12-26 21:21:09
8500萬買來三個“保鏢”!利雅得勝利四重奏成型,C羅這回真笑了

8500萬買來三個“保鏢”!利雅得勝利四重奏成型,C羅這回真笑了

籃球看比賽
2025-12-27 11:13:00
上海徐匯濱江“安瀾上海”首開銷售約90.77億元

上海徐匯濱江“安瀾上?!笔组_銷售約90.77億元

觀點機構
2025-12-27 08:32:04
迪麗熱巴“天使蹲”火出圈,顏值驚艷全網,醫(yī)生:無基礎者慎入

迪麗熱巴“天使蹲”火出圈,顏值驚艷全網,醫(yī)生:無基礎者慎入

悠悠說世界
2025-12-21 08:34:39
完顏阿骨打時期的金軍是無解的:就算蒙古鐵騎早出世也難以匹敵!

完顏阿骨打時期的金軍是無解的:就算蒙古鐵騎早出世也難以匹敵!

形上謂道
2025-12-24 15:58:27
10人埃及成功復仇!19年首勝南非,薩拉赫連場破門,連刷4紀錄

10人埃及成功復仇!19年首勝南非,薩拉赫連場破門,連刷4紀錄

奧拜爾
2025-12-27 01:03:10
獨家:南博前院長徐湖平“監(jiān)守自盜”,工人逆襲院長發(fā)跡史曝光!

獨家:南博前院長徐湖平“監(jiān)守自盜”,工人逆襲院長發(fā)跡史曝光!

微評社
2025-12-26 12:59:10
海外訂單飆漲375%!新西蘭富豪瘋搶國產長壽設備:不交貨就睡工廠

海外訂單飆漲375%!新西蘭富豪瘋搶國產長壽設備:不交貨就睡工廠

思思夜話
2025-12-26 17:40:14
上海迪士尼偶遇金晨,巴掌臉高挺鼻梁,生圖側顏美到路人瘋狂抓拍

上海迪士尼偶遇金晨,巴掌臉高挺鼻梁,生圖側顏美到路人瘋狂抓拍

點燃好奇心
2025-12-27 06:14:31
世體:由于開羅國民態(tài)度強硬,巴薩對哈姆扎的報價提升20萬歐

世體:由于開羅國民態(tài)度強硬,巴薩對哈姆扎的報價提升20萬歐

懂球帝
2025-12-27 07:37:06
三巨頭合體0勝4負!恩比德空砍31分,馬克西27+4+8,喬治15+12+5

三巨頭合體0勝4負!恩比德空砍31分,馬克西27+4+8,喬治15+12+5

無術不學
2025-12-27 11:42:10
2003 年宋美齡生命垂危之際,她在宋子文墓前潸然淚下,哭訴道:宋家人怎么都葬在了這里?

2003 年宋美齡生命垂危之際,她在宋子文墓前潸然淚下,哭訴道:宋家人怎么都葬在了這里?

桃煙讀史
2025-12-19 17:24:18
古天樂豪賭6年,《尋秦記》預售慘淡排片墊底,觀眾拋棄了情懷嗎

古天樂豪賭6年,《尋秦記》預售慘淡排片墊底,觀眾拋棄了情懷嗎

娛樂圈十三太保
2025-12-26 17:14:22
高市早苗挑釁中國,陰謀得逞?日本國會通過預算,防衛(wèi)支出創(chuàng)新高

高市早苗挑釁中國,陰謀得逞?日本國會通過預算,防衛(wèi)支出創(chuàng)新高

柏拉圖的訴說1
2025-12-27 12:03:19
大反轉,內馬爾突爆爭議行為!巴西隊很意外,球迷:別耽誤球隊了

大反轉,內馬爾突爆爭議行為!巴西隊很意外,球迷:別耽誤球隊了

阿泰希特
2025-12-27 11:48:32
在上海,培訓機構已經招不到新生了。

在上海,培訓機構已經招不到新生了。

古典讀書治學生活
2025-12-27 07:05:50
2025-12-27 13:20:49
卡爾的AI沃茨 incentive-icons
卡爾的AI沃茨
前大廠算法工程師,3家科技公司技術總監(jiān)|致力打造最系統的Al學習體系,讓1萬人通過Al提高生產力
185文章數 63關注度
往期回顧 全部

科技要聞

小米也漲價了!業(yè)界稱終端再不漲明年必虧

頭條要聞

賈國龍首次回應西貝風波 稱自己連續(xù)40天靠安眠藥入睡

頭條要聞

賈國龍首次回應西貝風波 稱自己連續(xù)40天靠安眠藥入睡

體育要聞

NBA教練圈的布朗尼,花了22年證明自己

娛樂要聞

劉宇寧:我的價值不需要靠番位來證明

財經要聞

注意,開始拉物價了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

手機
房產
家居
游戲
藝術

手機要聞

華為Mate 70 Air 16GB版開售:沉浸大屏+鴻蒙6重構輕薄旗艦體驗

房產要聞

炸裂,三亞360億超級清單發(fā)布,又一批重大配套要來了!

家居要聞

格調時尚 智慧品質居所

《拳皇98》版不知火舞最新雕像 性感無雙背壓巨大

藝術要聞

毛主席致徐悲鴻信件曝光,書法風格引關注。

無障礙瀏覽 進入關懷版