国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

GPT4.5四大維度測(cè)試報(bào)告:幻覺(jué)嚴(yán)重,有點(diǎn)兒失望

0
分享至

OpenAI剛剛發(fā)布了GPT4.5,也就是他們號(hào)稱的「最后一代非推理大模型」,為了測(cè)試效果,我花了200美元。

先簡(jiǎn)單總結(jié)下GPT-4.5升級(jí)的核心內(nèi)容:

  • 內(nèi)部代號(hào)Orion,OpenAI 最新且最大的模型,性能有所提升,但并非革命性突破

  • 它在理解用戶意圖、對(duì)話更自然、能捕捉用戶情感和言外之意,幻覺(jué)(hallucination)減少。

  • 在寫(xiě)作、設(shè)計(jì)、代碼生成(如SVG繪圖)等任務(wù)中展現(xiàn)更高創(chuàng)造力。

  • API價(jià)格高昂(API輸入75美元/百萬(wàn)token)。

不過(guò)用戶的反饋?zhàn)顬橹匾?,GPT4.5的首批用戶必須得200美元的大會(huì)員才能用,但實(shí)際的體驗(yàn)有點(diǎn)兒一言難盡。

我最先測(cè)試的是一道難倒不少大模型的數(shù)字題。

問(wèn)題:6.9和6.11誰(shuí)大?

原以為GPT4.5會(huì)沒(méi)有懸念,結(jié)果有點(diǎn)兒失望,看到第一句回答“6.11比6.9大”的時(shí)候都被嚇了一跳,幸虧后面的推理又給自己圓回來(lái)了。


可以看到,對(duì)應(yīng)的性能并沒(méi)有很驚艷,就是半代的提升。再加上并沒(méi)有多少的推理能力,所以在數(shù)學(xué),編程等需要推理性能的測(cè)試集上弱于OpenAI o3-mini。

所以,在絕大多數(shù)的性能上的提升都很一般,那就剩OpenAI說(shuō)的最大優(yōu)點(diǎn):更懂人性。

為了對(duì)比,我用DeepSeek設(shè)計(jì)了4個(gè)方向的測(cè)試:

  • 知識(shí)廣度驗(yàn)證

  • 事實(shí)準(zhǔn)確性測(cè)試

  • 情感智能測(cè)試

  • 專業(yè)領(lǐng)域壓力測(cè)試

(以下所有的測(cè)試都有GPT4.5和DeepSeek R1版本)

測(cè)試案例1:知識(shí)廣度驗(yàn)證

測(cè)試目標(biāo)驗(yàn)證跨領(lǐng)域知識(shí)整合能力
測(cè)試內(nèi)容

"請(qǐng)用通俗易懂的方式解釋量子糾纏現(xiàn)象,

并結(jié)合《莊子·齊物論》中的哲學(xué)思想進(jìn)行類比說(shuō)明,

最后給出這個(gè)理論在量子計(jì)算機(jī)研發(fā)中的潛在應(yīng)用"

評(píng)估標(biāo)準(zhǔn)

  • 科學(xué)準(zhǔn)確性(量子糾纏解釋)

  • 文化關(guān)聯(lián)性(哲學(xué)思想類比)

  • 應(yīng)用前瞻性(技術(shù)趨勢(shì)預(yù)測(cè))

  • 表達(dá)連貫性(不同領(lǐng)域銜接)

GPT4.5:解釋的沒(méi)問(wèn)題,生成的東西我能看得懂,但能看得到它對(duì)中文的知識(shí)量并不是很足,其次表達(dá)也并不是很連貫。

「如同莊子說(shuō)"物無(wú)非彼,物無(wú)非是",糾纏粒子看似獨(dú)立,實(shí)則共享同一量子態(tài)」

測(cè)試案例2:事實(shí)準(zhǔn)確性測(cè)試

測(cè)試目標(biāo)驗(yàn)證反幻覺(jué)能力
測(cè)試內(nèi)容

"請(qǐng)列出2025年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主的

主要研究成果,并說(shuō)明這些理論對(duì)當(dāng)前中國(guó)

鄉(xiāng)村振興戰(zhàn)略的指導(dǎo)意義"

評(píng)估標(biāo)準(zhǔn)

  • 虛構(gòu)內(nèi)容識(shí)別率(獎(jiǎng)項(xiàng)未頒發(fā)時(shí)應(yīng)明確說(shuō)明)

  • 理論關(guān)聯(lián)準(zhǔn)確性(正確匹配已有經(jīng)濟(jì)理論)

  • 政策建議合理性(符合中國(guó)實(shí)際國(guó)情)

GPT4.5:幻覺(jué)極其嚴(yán)重,還是在聯(lián)網(wǎng)的前提下。

DeepSeek R1:不愧是推理型大模型,聰明的沒(méi)話說(shuō),直接做了一個(gè)“假設(shè)性”報(bào)告。

測(cè)試案例3:情感智能測(cè)試

測(cè)試目標(biāo)驗(yàn)證情境化情感響應(yīng)能力
測(cè)試內(nèi)容

"今天被裁員了,雖然拿了N+3補(bǔ)償,

但想到房貸和孩子學(xué)費(fèi)就焦慮得睡不著,

我該怎么辦?"

評(píng)估標(biāo)準(zhǔn)

  • 情感識(shí)別準(zhǔn)確度(識(shí)別焦慮/無(wú)助情緒)

  • 響應(yīng)策略層級(jí):

  • 初級(jí):提供法律/財(cái)務(wù)建議

  • 中級(jí):給予情感支持

  • 高級(jí):提出分階段解決方案

  • 文化適配性(符合東亞家庭價(jià)值觀)

GPT4.5:是很溫暖,但根本不了解東亞文化,它的回答可以套用到任何一個(gè)國(guó)家,沒(méi)有任何實(shí)操性。

DeepSeek R1:回答依舊很跳,但明顯從房貸、學(xué)費(fèi)、N+3看到信息背后的東亞焦慮。

測(cè)試案例4:專業(yè)領(lǐng)域壓力測(cè)試

測(cè)試目標(biāo)驗(yàn)證復(fù)雜問(wèn)題處理能力
測(cè)試內(nèi)容

"請(qǐng)用Python編寫(xiě)一個(gè)基于Transformer的

時(shí)序預(yù)測(cè)模型,要求:

1. 整合LSTM注意力機(jī)制

2. 添加動(dòng)態(tài)特征選擇模塊

3. 包含可解釋性分析組件

同時(shí)用Markdown格式輸出技術(shù)文檔,

并附上TensorBoard可視化示例"

評(píng)估標(biāo)準(zhǔn)

  • 代碼有效性(可執(zhí)行無(wú)報(bào)錯(cuò))

  • 架構(gòu)創(chuàng)新性(模塊整合合理性)

  • 文檔完整性(參數(shù)說(shuō)明/示例)

GPT4.5:這次終于輪到GPT4.5牛了一把,畢竟ChatGPT的UI已經(jīng)迭代很多次了,可以做到非常好的markdown+代碼適配,代碼能力沒(méi)得說(shuō),很不錯(cuò)。

DeepSeek R1:稍遜于GPT4.5一點(diǎn),但整體思路以及完整度依舊是Top級(jí)別的。

可以從上面的測(cè)試看到,GPT4.5僅僅只是智能上的小提升,但價(jià)格上的巨大提升會(huì)讓這個(gè)模型幾乎沒(méi)人用。

測(cè)試了這么一圈下來(lái),可以看到GPT-4.5 在性能和用戶體驗(yàn)方面有所提升,但是官方所陳述的幻覺(jué)減少以及人性化程度的提高,我從實(shí)際的測(cè)試過(guò)程中并沒(méi)有很強(qiáng)的感受。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
院士呼吁:最能加重糖尿病的行為,不是吃糖!而是頻繁去做這6事

院士呼吁:最能加重糖尿病的行為,不是吃糖!而是頻繁去做這6事

小胡軍事愛(ài)好
2025-12-27 17:32:16
東莞20年:親眼目睹工廠女工的性生活,她們的孤獨(dú)壓抑和肆意歡歌

東莞20年:親眼目睹工廠女工的性生活,她們的孤獨(dú)壓抑和肆意歡歌

農(nóng)村情感故事
2025-04-06 20:07:35
400萬(wàn)億什么時(shí)候來(lái)?等待我們的是什么?

400萬(wàn)億什么時(shí)候來(lái)?等待我們的是什么?

混知房產(chǎn)
2025-11-13 20:41:06
姜昆徹底不裝了:此生無(wú)悔入華夏,家在加利福尼亞!咋啦?

姜昆徹底不裝了:此生無(wú)悔入華夏,家在加利福尼亞!咋啦?

細(xì)雨中的呼喊
2025-12-26 17:22:45
故事:霍家千金,主動(dòng)放棄270億遺產(chǎn),24年后驚天內(nèi)幕終浮出水面

故事:霍家千金,主動(dòng)放棄270億遺產(chǎn),24年后驚天內(nèi)幕終浮出水面

宅家伍菇?jīng)?/span>
2024-12-07 09:10:02
放下了?60歲何超瓊喜迎“梅開(kāi)二度”?與異性貼臉擁吻秀恩愛(ài)

放下了?60歲何超瓊喜迎“梅開(kāi)二度”?與異性貼臉擁吻秀恩愛(ài)

暴走的大事件
2025-12-28 22:21:08
日本的第二大強(qiáng)援出現(xiàn)!高市早苗拍板,要在中國(guó)周邊打造一張巨網(wǎng)

日本的第二大強(qiáng)援出現(xiàn)!高市早苗拍板,要在中國(guó)周邊打造一張巨網(wǎng)

時(shí)時(shí)有聊
2025-12-28 12:23:00
康熙駕崩當(dāng)晚,雍正不急著固權(quán),反而先派人除掉康熙的心腹?

康熙駕崩當(dāng)晚,雍正不急著固權(quán),反而先派人除掉康熙的心腹?

銘記歷史呀
2025-12-28 00:06:46
貝克漢姆26歲長(zhǎng)子跟富豪岳父拍全家福,抱嬌妻很滿足,與父母斷聯(lián)

貝克漢姆26歲長(zhǎng)子跟富豪岳父拍全家福,抱嬌妻很滿足,與父母斷聯(lián)

譯言
2025-12-27 09:33:47
剛剛,雷迪克點(diǎn)名詹姆斯!湖人交易即將達(dá)成!

剛剛,雷迪克點(diǎn)名詹姆斯!湖人交易即將達(dá)成!

柚子說(shuō)球
2025-12-28 12:28:40
三連敗,山東男籃毫無(wú)懸念輸?shù)酏R魯?shù)卤?,?xì)節(jié)顯示球隊(duì)人心散了

三連敗,山東男籃毫無(wú)懸念輸?shù)酏R魯?shù)卤?,?xì)節(jié)顯示球隊(duì)人心散了

姜大叔侃球
2025-12-28 22:07:02
打底褲的設(shè)計(jì),既時(shí)髦又性感,輕松凸顯你的淑女范,魅力十足

打底褲的設(shè)計(jì),既時(shí)髦又性感,輕松凸顯你的淑女范,魅力十足

朝史暮夕
2025-12-24 08:54:06
韓國(guó)人驚醒:日本科技已經(jīng)被中國(guó)吞并,下一個(gè)恐怕就該是他們了

韓國(guó)人驚醒:日本科技已經(jīng)被中國(guó)吞并,下一個(gè)恐怕就該是他們了

李遝手工制作
2025-12-27 12:36:43
孩子以球童身份出場(chǎng),若塔遺孀感謝利物浦:感謝大家的愛(ài)

孩子以球童身份出場(chǎng),若塔遺孀感謝利物浦:感謝大家的愛(ài)

懂球帝
2025-12-28 20:59:23
明確了!不免費(fèi)!定了!休14天

明確了!不免費(fèi)!定了!休14天

pingdubbs
2025-12-27 23:54:06
1分硬幣估價(jià)18036!誰(shuí)找到這2種就發(fā)了

1分硬幣估價(jià)18036!誰(shuí)找到這2種就發(fā)了

小陳收藏社
2025-12-25 15:56:55
澤連斯基將與特朗普會(huì)晤,透露希望與特朗普討論“和平計(jì)劃”的5個(gè)主要問(wèn)題,計(jì)劃為烏克蘭重建吸引高達(dá)8000億美元資金

澤連斯基將與特朗普會(huì)晤,透露希望與特朗普討論“和平計(jì)劃”的5個(gè)主要問(wèn)題,計(jì)劃為烏克蘭重建吸引高達(dá)8000億美元資金

魯中晨報(bào)
2025-12-28 17:06:16
【2025.12.28】扒醬料不停:那些你不知道的八卦一二三

【2025.12.28】扒醬料不停:那些你不知道的八卦一二三

娛樂(lè)真爆姐
2025-12-28 23:09:09
人開(kāi)始順?biāo)炱饋?lái)的跡象:三個(gè)字

人開(kāi)始順?biāo)炱饋?lái)的跡象:三個(gè)字

洞讀君
2025-12-19 16:40:25
注意 | 下周上班時(shí)間有變!

注意 | 下周上班時(shí)間有變!

魯中晨報(bào)
2025-12-28 10:37:02
2025-12-29 02:07:00
平凡AI incentive-icons
平凡AI
高校AI從業(yè)者
54文章數(shù) 23關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

男子強(qiáng)奸女友出獄后兩人復(fù)合 又因爭(zhēng)吵掐死對(duì)方

頭條要聞

男子強(qiáng)奸女友出獄后兩人復(fù)合 又因爭(zhēng)吵掐死對(duì)方

體育要聞

MVP概率達(dá)82.5%!約基奇連超大鳥(niǎo)喬丹

娛樂(lè)要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財(cái)經(jīng)要聞

英偉達(dá)的收購(gòu)史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

旅游
教育
家居
數(shù)碼
公開(kāi)課

旅游要聞

40萬(wàn)立方米冰雪筑就的文旅奇跡:哈爾濱冰雪大世界的27年進(jìn)化史!

教育要聞

很多地方調(diào)整學(xué)生早上到校時(shí)間,孩子們?cè)僖膊挥闷鹛缟蠈W(xué)了!

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

數(shù)碼要聞

曝光的AirPods原型機(jī)顯示,蘋(píng)果曾計(jì)劃推出多彩配色方案!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版