国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

受夠了AI總是胡說八道,OpenAI讓GPT變笨!但這才是對(duì)你負(fù)責(zé)

0
分享至


抓住風(fēng)口

本期要點(diǎn):如何讓AI值得依賴?靠更大的模型嗎?

你好,我是王煜全,這里是王煜全要聞評(píng)論。

2025年終,AI行業(yè)出現(xiàn)了一個(gè)分裂狀況,究竟是要追求“靠譜”,還是要顯得“聰明”?

前段時(shí)間,在谷歌壓力之下,OpenAI不僅亮起了所謂紅色警報(bào),還提前上線了GPT-5.2模型。


可是,第三方評(píng)測結(jié)果顯示,GPT-5.2并沒有飛躍性的進(jìn)步,甚至有的報(bào)告稱GPT-5.2仍落后于Gemini 3 Pro。

更是有不少用戶吐槽,GPT-5.2的回答變得冰冷生硬,甚至邏輯推理能力還有倒退的跡象。種種主觀感受匯成一個(gè)結(jié)論,那就是GPT-5.2好像“降智”了。

被寄予厚望的GPT-5.2 怎么反而沒那么聰明了?GPT-5.2滑鐵盧的背后,其實(shí)反映出整個(gè)AI大模型產(chǎn)業(yè)撞到了一個(gè)隱形的天花板。


2025年12月9日,谷歌DeepMind低調(diào)推出了FACTS基準(zhǔn)測試套件 (FACTS Benchmark Suite),用科學(xué)的評(píng)估數(shù)據(jù)給所有大模型潑了一盆冷水:在基于長文檔進(jìn)行問答時(shí),沒有任何模型的事實(shí)準(zhǔn)確率突破70%。

這意味著,即使你用著最昂貴的模型,還是有超過30%的概率接收到錯(cuò)誤的、或者憑空捏造的信息。

在我們看來,當(dāng)整個(gè)行業(yè)在瘋狂堆疊算力與參數(shù)后仍無法突破瓶頸時(shí),就意味著發(fā)展方式要從追求更大更強(qiáng)的模型,轉(zhuǎn)向通過系統(tǒng)工程和商業(yè)模式的創(chuàng)新來突破準(zhǔn)確率瓶頸,讓AI真正變成值得依賴的伙伴。

煉金術(shù)

首先,我們認(rèn)為,在靠譜面前,AI顯得“沒那么聰明”也無傷大雅。

現(xiàn)在的GPT-5.2,確實(shí)是問什么就回答什么,不再像以前那樣樂于延展和調(diào)侃,給人一種刻板木訥的印象。初步使用谷歌Gemini模型的人,反而會(huì)覺得谷歌的模型充滿靈氣,似乎總能領(lǐng)悟到用戶的弦外之音。

但這只是在大語言模型(LLM)架構(gòu)進(jìn)入平臺(tái)期后,OpenAI和谷歌選擇了不同的優(yōu)化方向,而產(chǎn)生了不同的表現(xiàn)。

對(duì)于大部分人而言,不僅是GPT-5.2沒有什么飛躍,GPT-5相比于OpenAI O3等之前的模型也并沒有什么顯著變化。同樣,在日常使用中,又有多少人能清晰區(qū)分Gemini 3和Gemini 2.5的差異呢?


但長期用戶一定能感到一個(gè)普遍的問題,所有大模型都時(shí)常會(huì)一本正經(jīng)的胡說八道。

其實(shí),DeepMind去年12月發(fā)布的《FACTS Grounding》基準(zhǔn)測試報(bào)告就已經(jīng)指出,沒有一個(gè)大模型的事實(shí)準(zhǔn)確率能超過70%。也就是說,一年過去了,幻覺問題沒有得到顯著改善。

歸根結(jié)底,這是LLM本身的局限使然,從底層原理上講,LLM就是下一個(gè)Token的預(yù)測器。它通過海量文本學(xué)會(huì)了在特定上下文的后面接哪個(gè)詞的概率最高,從而“猜”出看似合理的回答,但并不真正理解事實(shí)與其中的邏輯。

這就像古代的煉金術(shù)士,能憑經(jīng)驗(yàn)煉出閃亮的產(chǎn)物,卻無法保證每次產(chǎn)物的質(zhì)量。而現(xiàn)代社會(huì)需要的,是基于嚴(yán)謹(jǐn)?shù)幕瘜W(xué)原理,在嚴(yán)格的環(huán)境下,能重復(fù)生產(chǎn)出的可靠產(chǎn)品。

因此,不管給AI喂多少數(shù)據(jù)、增加多少參數(shù),它都可能被無關(guān)信息干擾,幻覺概率難以根本性地下降。哪怕GPT-6、GPT-7出來了,出錯(cuò)的問題還是會(huì)存在。

靠譜更重要

這時(shí),AI公司就必須做出選擇,究竟是要讓AI成為玩具、還是工具。

新用戶可能覺得,充滿想象力、不斷制造驚喜的AI會(huì)更好玩。

當(dāng)年GPT-4o就是妙語連珠、侃侃而談,OpenAI的o1模型也會(huì)耍小聰明,盡力滿足用戶的各種要求。

但金融、法律、醫(yī)療等領(lǐng)域的專業(yè)用戶一定更看重AI的可信賴程度。

舉個(gè)最簡單的例子,當(dāng)生病的用戶拿著一堆檢驗(yàn)報(bào)告來問AI時(shí),他們一定不希望AI在那天馬行空的推理、或充滿發(fā)散思維的抖機(jī)靈,而是要AI給他們最嚴(yán)謹(jǐn)、最可靠的答案。

對(duì)于企業(yè)而言,70%的可靠性更是難以托付重任。對(duì)內(nèi)發(fā)錯(cuò)一筆工資,對(duì)外簽錯(cuò)一個(gè)合同,都是實(shí)實(shí)在在的損失。

所以,OpenAI把模型優(yōu)化方向定位為更加嚴(yán)謹(jǐn)、減少幻覺,從而打開模型的商業(yè)化前景,也就不難理解了。但單純模型優(yōu)化并不能解決幻覺問題,看來OpenAI還是沒能理解自己的真正優(yōu)勢是AI顧問,幻覺問題是建立信任的最大障礙。

此前我們就曾指出,既然OpenAI已經(jīng)擁有了數(shù)億用戶,就應(yīng)該更進(jìn)一步培養(yǎng)用戶的“AI依賴”—— 任何拿不準(zhǔn)的問題都習(xí)慣于問一下AI,讓ChatGPT成為用戶的AI顧問。

一旦用戶建立起這種依賴,就很難被其他產(chǎn)品搶走。

閃電戰(zhàn)

那么,更關(guān)鍵的問題來了,既然更大的模型不再等于更可靠,又該怎么辦呢?

我們的答案也很明確:從“造坦克”轉(zhuǎn)到“打閃電戰(zhàn)”。

之前,領(lǐng)先的AI公司都聚焦于提升單體模型的能力,這就是典型的“造坦克”思維,看誰的鋼板厚、火力猛。

可是,當(dāng)坦克的性能提升遇到瓶頸,戰(zhàn)爭的勝負(fù)就取決于誰能打出閃電戰(zhàn)。

正如二戰(zhàn)初期,德軍的坦克并非最強(qiáng),但憑借無線電協(xié)同與空軍的配合,就能快速突破防線,從而40多天擊敗法國。


未來AI領(lǐng)域的玩家也應(yīng)該著力讓多個(gè)模型和外部工具互相配合,構(gòu)建出能產(chǎn)出可靠結(jié)果的系統(tǒng)。只有這樣,人們才敢真正把重要工作交給它。

比如,隨機(jī)出現(xiàn)的幻覺和錯(cuò)誤雖然令人頭疼,但OpenAI可以通過分級(jí)服務(wù)來解決。

對(duì)于關(guān)鍵任務(wù),如關(guān)乎生死、財(cái)務(wù)等高風(fēng)險(xiǎn)問題,OpenAI完全在生成初步答案后,自動(dòng)調(diào)用額外的驗(yàn)證Agent從多個(gè)角度對(duì)答案重新檢查和補(bǔ)充幾遍,再給出終審后的回答。這個(gè)過程確實(shí)會(huì)多耗費(fèi)一些算力和時(shí)間,但可以大幅降低錯(cuò)誤概率。

當(dāng)然,屆時(shí)OpenAI也就可以理直氣壯地對(duì)“無幻覺服務(wù)”收費(fèi),比如200美元甚至2000美元一個(gè)月,或者一天幾十美元。畢竟提供“可靠性”本身就是一種高價(jià)值的服務(wù)。

而在平時(shí),用戶只需每月支付20美元,就能滿足日常所需。

這無疑會(huì)極大地提升用戶AI依賴的程度,別忘了,對(duì)于把ChatGPT當(dāng)成專家顧問的用戶,每一次幻覺都是對(duì)OpenAI的可信度的傷害。

要打出閃電戰(zhàn),除了要轉(zhuǎn)變思想,從單純賣大模型技術(shù)變成賣可信賴的泛領(lǐng)域的專家顧問服務(wù),速度也至關(guān)重要。

目前,OpenAI為了應(yīng)對(duì)谷歌的競爭,已經(jīng)決定在未來幾周內(nèi)收縮應(yīng)用層面的投入,以求在核心技術(shù)層面實(shí)現(xiàn)突破。

可是,我們很懷疑這個(gè)決定的正確性。

在不脫離現(xiàn)有LLM架構(gòu)的前提下,OpenAI真的能在幾周內(nèi)實(shí)現(xiàn)革命性突破嗎?而且,如果多數(shù)用戶要的是可信賴的AI顧問,模型性能提升真的能解決幻覺問題、進(jìn)而解決信任問題嗎?

同時(shí),在這幾周,如果OpenAI的競爭對(duì)手,比如一向標(biāo)榜自己更真實(shí)、更可靠的Anthropic,率先推出無幻覺的專業(yè)服務(wù),提前占據(jù)了市場心智,那么OpenAI辛苦積攢的高價(jià)值用戶也就可能快速流失。要想再把這些用戶搶回來,無疑又要付出高昂代價(jià)。

以上就是今天的內(nèi)容,毫無疑問,未來是AI時(shí)代,而盡早開啟孩子AI時(shí)代的進(jìn)化之旅是掌握時(shí)代機(jī)遇的關(guān)鍵。也在此向各位家長推薦前哨AI冬令營。我們認(rèn)為,最好的學(xué)習(xí)不是學(xué)理論,而是親手實(shí)踐。我們將通過一周的集訓(xùn),讓孩子能親自上手完成一個(gè)真實(shí)的AI項(xiàng)目,從理解AI到駕馭AI,快快點(diǎn)擊鏈接了解詳情吧。

更多科技產(chǎn)業(yè)的新趨勢和底層規(guī)律,歡迎加入科技特訓(xùn)營學(xué)習(xí),和我一起,先人一步,領(lǐng)先一路!

王煜全要聞評(píng)論,我們明天見。

↓長按圖片掃碼報(bào)名,先人一步,領(lǐng)先一路

最后, 鑒于公眾 號(hào)推送機(jī)制的改變,你未來刷 到要聞評(píng)論的機(jī)會(huì)可能沒那么多了,建議你加入粉絲群,第一時(shí)間 得到我的獨(dú)家前沿分析,而且我們還會(huì)每天在粉絲群里發(fā)布獨(dú)家資料,快快掃碼加入吧!

此外,我們還為您準(zhǔn)備了一個(gè)思維導(dǎo)圖,掃描加群即可領(lǐng)取

“AI應(yīng)用的未來分析”

↓點(diǎn)擊學(xué)習(xí)王煜全老師最新大師課,掌握馬斯克的賺錢底層邏輯!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
澳門博彩巨頭攜員工赴井岡山,學(xué)習(xí)革命精神

澳門博彩巨頭攜員工赴井岡山,學(xué)習(xí)革命精神

跟著老李看世界
2025-12-25 13:02:12
笑麻了!假如我們國家強(qiáng)制服兵役,評(píng)論區(qū)快笑岔氣了

笑麻了!假如我們國家強(qiáng)制服兵役,評(píng)論區(qū)快笑岔氣了

夜深愛雜談
2025-12-24 17:59:45
重磅!首款“液體”偉哥橫空出世,宣稱對(duì)比傳統(tǒng)口服有4大優(yōu)勢

重磅!首款“液體”偉哥橫空出世,宣稱對(duì)比傳統(tǒng)口服有4大優(yōu)勢

思思夜話
2025-12-25 14:08:36
52歲大媽:旅游時(shí)偶遇大學(xué)同學(xué),兩人做了錯(cuò)事,要跟老公坦白嗎?

52歲大媽:旅游時(shí)偶遇大學(xué)同學(xué),兩人做了錯(cuò)事,要跟老公坦白嗎?

熱心柚子姐姐
2025-12-24 17:06:21
商丘一空地現(xiàn)成堆被丟棄的全新手機(jī)殼,多人驅(qū)車前往“撿漏”,有人一次撿了50個(gè)

商丘一空地現(xiàn)成堆被丟棄的全新手機(jī)殼,多人驅(qū)車前往“撿漏”,有人一次撿了50個(gè)

極目新聞
2025-12-24 21:09:37
打臉來得太快!徐湖平“裝病”不到24小時(shí),卻被扒出頻繁現(xiàn)身活動(dòng)

打臉來得太快!徐湖平“裝病”不到24小時(shí),卻被扒出頻繁現(xiàn)身活動(dòng)

奇思妙想草葉君
2025-12-22 19:56:12
賈國龍首次回應(yīng)西貝預(yù)制菜風(fēng)波:如果能重來,不和羅永浩硬剛

賈國龍首次回應(yīng)西貝預(yù)制菜風(fēng)波:如果能重來,不和羅永浩硬剛

PChome電腦之家
2025-12-25 14:20:27
南京這把火,直燒到了北京一位"通天"人物的心坎上

南京這把火,直燒到了北京一位"通天"人物的心坎上

小莜讀史
2025-12-24 02:19:53
出大事了,美國不宣而戰(zhàn),上百枚導(dǎo)彈從天而降,特朗普:復(fù)仇開始

出大事了,美國不宣而戰(zhàn),上百枚導(dǎo)彈從天而降,特朗普:復(fù)仇開始

不吃草de兔子
2025-12-23 19:38:49
我38歲被裁員,公司補(bǔ)償了我75萬,手續(xù)辦完后,財(cái)務(wù)總監(jiān)追了出來

我38歲被裁員,公司補(bǔ)償了我75萬,手續(xù)辦完后,財(cái)務(wù)總監(jiān)追了出來

五元講堂
2025-12-23 11:21:19
人民幣中間價(jià)大幅調(diào)升,續(xù)創(chuàng)2024年10月來新高

人民幣中間價(jià)大幅調(diào)升,續(xù)創(chuàng)2024年10月來新高

北京商報(bào)
2025-12-25 10:38:05
驚曝:廣東東莞知名萬人玩具大廠,本月開始停工停產(chǎn)2個(gè)月...

驚曝:廣東東莞知名萬人玩具大廠,本月開始停工停產(chǎn)2個(gè)月...

微微熱評(píng)
2025-12-25 00:37:01
塔利班終于給了中國交代,替中國討回一筆血債,現(xiàn)場只留一個(gè)活口

塔利班終于給了中國交代,替中國討回一筆血債,現(xiàn)場只留一個(gè)活口

軒逸阿II
2025-12-25 17:46:05
41歲仍處巔峰!C羅效率不降反升,千球紀(jì)錄近在眼前

41歲仍處巔峰!C羅效率不降反升,千球紀(jì)錄近在眼前

樂道足球
2025-12-25 16:39:11
去上海才發(fā)現(xiàn):包包沒人背LV、Chanel!滿街都是這3大品牌,特潮

去上海才發(fā)現(xiàn):包包沒人背LV、Chanel!滿街都是這3大品牌,特潮

白宸侃片
2025-12-22 12:15:24
主動(dòng)投案,物產(chǎn)中大融資租賃集團(tuán)有限公司黨委副書記、紀(jì)委書記蔣松海接受審查調(diào)查

主動(dòng)投案,物產(chǎn)中大融資租賃集團(tuán)有限公司黨委副書記、紀(jì)委書記蔣松海接受審查調(diào)查

界面新聞
2025-12-25 17:32:56
8人死亡,接送幼兒車輛墜入池塘

8人死亡,接送幼兒車輛墜入池塘

中國新聞周刊
2025-12-24 18:14:25
NBA西部排名大變:馬刺第2,火箭降2,開拓者前10難保

NBA西部排名大變:馬刺第2,火箭降2,開拓者前10難保

五姑娘臺(tái)球
2025-12-25 17:36:26
055遇勁敵!全能艦橫空出世,未來海戰(zhàn)要變天!

055遇勁敵!全能艦橫空出世,未來海戰(zhàn)要變天!

Ck的蜜糖
2025-12-24 12:35:23
為什么女朋友覺得年入百萬很簡單?網(wǎng)友:她一定有個(gè)做足浴的閨蜜

為什么女朋友覺得年入百萬很簡單?網(wǎng)友:她一定有個(gè)做足浴的閨蜜

帶你感受人間冷暖
2025-11-04 16:38:29
2025-12-25 19:00:49
王煜全 incentive-icons
王煜全
王煜全帶你一起看創(chuàng)新
963文章數(shù) 751關(guān)注度
往期回顧 全部

科技要聞

屠龍少年被"招安"!英偉達(dá)平安夜豪擲200億

頭條要聞

河南學(xué)?;馂?zāi)班主任兼宿管被判刑 判決書披露量刑依據(jù)

頭條要聞

河南學(xué)?;馂?zāi)班主任兼宿管被判刑 判決書披露量刑依據(jù)

體育要聞

單賽季11冠,羽壇“安洗瑩時(shí)代”真的來了

娛樂要聞

朱孝天把阿信好意當(dāng)球踢!

財(cái)經(jīng)要聞

時(shí)隔15月,人民幣升破7,三大推手曝光

汽車要聞

速來!智界在上海西岸準(zhǔn)備了年末潮流盛典

態(tài)度原創(chuàng)

藝術(shù)
時(shí)尚
房產(chǎn)
公開課
軍事航空

藝術(shù)要聞

緬懷 | 著名油畫家宮立龍逝世,享年73歲

今年冬天最火的搭配竟然是它?從現(xiàn)在美到明年

房產(chǎn)要聞

太猛了!單月新增企業(yè)4.1萬家,又一波巨頭涌向海南!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

澤連斯基版“和平計(jì)劃”透露哪些信息

無障礙瀏覽 進(jìn)入關(guān)懷版