網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

受夠了AI總是胡說(shuō)八道，OpenAI讓GPT變笨！但這才是對(duì)你負(fù)責(zé)

2025-12-17 06:33:23　來(lái)源: 王煜全

北京舉報(bào)

分享至

抓住風(fēng)口

本期要點(diǎn)：如何讓AI值得依賴？靠更大的模型嗎？

你好，我是王煜全，這里是王煜全要聞評(píng)論。

2025年終，AI行業(yè)出現(xiàn)了一個(gè)分裂狀況，究竟是要追求“靠譜”，還是要顯得“聰明”？

前段時(shí)間，在谷歌壓力之下，OpenAI不僅亮起了所謂紅色警報(bào)，還提前上線了GPT-5.2模型。

可是，第三方評(píng)測(cè)結(jié)果顯示，GPT-5.2并沒(méi)有飛躍性的進(jìn)步，甚至有的報(bào)告稱GPT-5.2仍落后于Gemini 3 Pro。

更是有不少用戶吐槽，GPT-5.2的回答變得冰冷生硬，甚至邏輯推理能力還有倒退的跡象。種種主觀感受匯成一個(gè)結(jié)論，那就是GPT-5.2好像“降智”了。

被寄予厚望的GPT-5.2 怎么反而沒(méi)那么聰明了？GPT-5.2滑鐵盧的背后，其實(shí)反映出整個(gè)AI大模型產(chǎn)業(yè)撞到了一個(gè)隱形的天花板。

2025年12月9日，谷歌DeepMind低調(diào)推出了FACTS基準(zhǔn)測(cè)試套件（FACTS Benchmark Suite），用科學(xué)的評(píng)估數(shù)據(jù)給所有大模型潑了一盆冷水：在基于長(zhǎng)文檔進(jìn)行問(wèn)答時(shí)，沒(méi)有任何模型的事實(shí)準(zhǔn)確率突破70%。

這意味著，即使你用著最昂貴的模型，還是有超過(guò)30%的概率接收到錯(cuò)誤的、或者憑空捏造的信息。

在我們看來(lái)，當(dāng)整個(gè)行業(yè)在瘋狂堆疊算力與參數(shù)后仍無(wú)法突破瓶頸時(shí)，就意味著發(fā)展方式要從追求更大更強(qiáng)的模型，轉(zhuǎn)向通過(guò)系統(tǒng)工程和商業(yè)模式的創(chuàng)新來(lái)突破準(zhǔn)確率瓶頸，讓AI真正變成值得依賴的伙伴。

煉金術(shù)

首先，我們認(rèn)為，在靠譜面前，AI顯得“沒(méi)那么聰明”也無(wú)傷大雅。

現(xiàn)在的GPT-5.2，確實(shí)是問(wèn)什么就回答什么，不再像以前那樣樂(lè)于延展和調(diào)侃，給人一種刻板木訥的印象。初步使用谷歌Gemini模型的人，反而會(huì)覺(jué)得谷歌的模型充滿靈氣，似乎總能領(lǐng)悟到用戶的弦外之音。

但這只是在大語(yǔ)言模型（LLM）架構(gòu)進(jìn)入平臺(tái)期后，OpenAI和谷歌選擇了不同的優(yōu)化方向，而產(chǎn)生了不同的表現(xiàn)。

對(duì)于大部分人而言，不僅是GPT-5.2沒(méi)有什么飛躍，GPT-5相比于OpenAI O3等之前的模型也并沒(méi)有什么顯著變化。同樣，在日常使用中，又有多少人能清晰區(qū)分Gemini 3和Gemini 2.5的差異呢？

但長(zhǎng)期用戶一定能感到一個(gè)普遍的問(wèn)題，所有大模型都時(shí)常會(huì)一本正經(jīng)的胡說(shuō)八道。

其實(shí)，DeepMind去年12月發(fā)布的《FACTS Grounding》基準(zhǔn)測(cè)試報(bào)告就已經(jīng)指出，沒(méi)有一個(gè)大模型的事實(shí)準(zhǔn)確率能超過(guò)70%。也就是說(shuō)，一年過(guò)去了，幻覺(jué)問(wèn)題沒(méi)有得到顯著改善。

歸根結(jié)底，這是LLM本身的局限使然，從底層原理上講，LLM就是下一個(gè)Token的預(yù)測(cè)器。它通過(guò)海量文本學(xué)會(huì)了在特定上下文的后面接哪個(gè)詞的概率最高，從而“猜”出看似合理的回答，但并不真正理解事實(shí)與其中的邏輯。

這就像古代的煉金術(shù)士，能憑經(jīng)驗(yàn)煉出閃亮的產(chǎn)物，卻無(wú)法保證每次產(chǎn)物的質(zhì)量。而現(xiàn)代社會(huì)需要的，是基于嚴(yán)謹(jǐn)?shù)幕瘜W(xué)原理，在嚴(yán)格的環(huán)境下，能重復(fù)生產(chǎn)出的可靠產(chǎn)品。

因此，不管給AI喂多少數(shù)據(jù)、增加多少參數(shù)，它都可能被無(wú)關(guān)信息干擾，幻覺(jué)概率難以根本性地下降。哪怕GPT-6、GPT-7出來(lái)了，出錯(cuò)的問(wèn)題還是會(huì)存在。

靠譜更重要

這時(shí)，AI公司就必須做出選擇，究竟是要讓AI成為玩具、還是工具。

新用戶可能覺(jué)得，充滿想象力、不斷制造驚喜的AI會(huì)更好玩。

當(dāng)年GPT-4o就是妙語(yǔ)連珠、侃侃而談，OpenAI的o1模型也會(huì)耍小聰明，盡力滿足用戶的各種要求。

但金融、法律、醫(yī)療等領(lǐng)域的專業(yè)用戶一定更看重AI的可信賴程度。

舉個(gè)最簡(jiǎn)單的例子，當(dāng)生病的用戶拿著一堆檢驗(yàn)報(bào)告來(lái)問(wèn)AI時(shí)，他們一定不希望AI在那天馬行空的推理、或充滿發(fā)散思維的抖機(jī)靈，而是要AI給他們最嚴(yán)謹(jǐn)、最可靠的答案。

對(duì)于企業(yè)而言，70%的可靠性更是難以托付重任。對(duì)內(nèi)發(fā)錯(cuò)一筆工資，對(duì)外簽錯(cuò)一個(gè)合同，都是實(shí)實(shí)在在的損失。

所以，OpenAI把模型優(yōu)化方向定位為更加嚴(yán)謹(jǐn)、減少幻覺(jué)，從而打開模型的商業(yè)化前景，也就不難理解了。但單純模型優(yōu)化并不能解決幻覺(jué)問(wèn)題，看來(lái)OpenAI還是沒(méi)能理解自己的真正優(yōu)勢(shì)是AI顧問(wèn)，幻覺(jué)問(wèn)題是建立信任的最大障礙。

此前我們就曾指出，既然OpenAI已經(jīng)擁有了數(shù)億用戶，就應(yīng)該更進(jìn)一步培養(yǎng)用戶的“AI依賴”—— 任何拿不準(zhǔn)的問(wèn)題都習(xí)慣于問(wèn)一下AI，讓ChatGPT成為用戶的AI顧問(wèn)。

一旦用戶建立起這種依賴，就很難被其他產(chǎn)品搶走。

閃電戰(zhàn)

那么，更關(guān)鍵的問(wèn)題來(lái)了，既然更大的模型不再等于更可靠，又該怎么辦呢？

我們的答案也很明確：從“造坦克”轉(zhuǎn)到“打閃電戰(zhàn)”。

之前，領(lǐng)先的AI公司都聚焦于提升單體模型的能力，這就是典型的“造坦克”思維，看誰(shuí)的鋼板厚、火力猛。

可是，當(dāng)坦克的性能提升遇到瓶頸，戰(zhàn)爭(zhēng)的勝負(fù)就取決于誰(shuí)能打出閃電戰(zhàn)。

正如二戰(zhàn)初期，德軍的坦克并非最強(qiáng)，但憑借無(wú)線電協(xié)同與空軍的配合，就能快速突破防線，從而40多天擊敗法國(guó)。

未來(lái)AI領(lǐng)域的玩家也應(yīng)該著力讓多個(gè)模型和外部工具互相配合，構(gòu)建出能產(chǎn)出可靠結(jié)果的系統(tǒng)。只有這樣，人們才敢真正把重要工作交給它。

比如，隨機(jī)出現(xiàn)的幻覺(jué)和錯(cuò)誤雖然令人頭疼，但OpenAI可以通過(guò)分級(jí)服務(wù)來(lái)解決。

對(duì)于關(guān)鍵任務(wù)，如關(guān)乎生死、財(cái)務(wù)等高風(fēng)險(xiǎn)問(wèn)題，OpenAI完全在生成初步答案后，自動(dòng)調(diào)用額外的驗(yàn)證Agent從多個(gè)角度對(duì)答案重新檢查和補(bǔ)充幾遍，再給出終審后的回答。這個(gè)過(guò)程確實(shí)會(huì)多耗費(fèi)一些算力和時(shí)間，但可以大幅降低錯(cuò)誤概率。

當(dāng)然，屆時(shí)OpenAI也就可以理直氣壯地對(duì)“無(wú)幻覺(jué)服務(wù)”收費(fèi)，比如200美元甚至2000美元一個(gè)月，或者一天幾十美元。畢竟提供“可靠性”本身就是一種高價(jià)值的服務(wù)。

而在平時(shí)，用戶只需每月支付20美元，就能滿足日常所需。

這無(wú)疑會(huì)極大地提升用戶AI依賴的程度，別忘了，對(duì)于把ChatGPT當(dāng)成專家顧問(wèn)的用戶，每一次幻覺(jué)都是對(duì)OpenAI的可信度的傷害。

要打出閃電戰(zhàn)，除了要轉(zhuǎn)變思想，從單純賣大模型技術(shù)變成賣可信賴的泛領(lǐng)域的專家顧問(wèn)服務(wù)，速度也至關(guān)重要。

目前，OpenAI為了應(yīng)對(duì)谷歌的競(jìng)爭(zhēng)，已經(jīng)決定在未來(lái)幾周內(nèi)收縮應(yīng)用層面的投入，以求在核心技術(shù)層面實(shí)現(xiàn)突破。

可是，我們很懷疑這個(gè)決定的正確性。

在不脫離現(xiàn)有LLM架構(gòu)的前提下，OpenAI真的能在幾周內(nèi)實(shí)現(xiàn)革命性突破嗎？而且，如果多數(shù)用戶要的是可信賴的AI顧問(wèn)，模型性能提升真的能解決幻覺(jué)問(wèn)題、進(jìn)而解決信任問(wèn)題嗎？

同時(shí)，在這幾周，如果OpenAI的競(jìng)爭(zhēng)對(duì)手，比如一向標(biāo)榜自己更真實(shí)、更可靠的Anthropic，率先推出無(wú)幻覺(jué)的專業(yè)服務(wù)，提前占據(jù)了市場(chǎng)心智，那么OpenAI辛苦積攢的高價(jià)值用戶也就可能快速流失。要想再把這些用戶搶回來(lái)，無(wú)疑又要付出高昂代價(jià)。

以上就是今天的內(nèi)容，毫無(wú)疑問(wèn)，未來(lái)是AI時(shí)代，而盡早開啟孩子AI時(shí)代的進(jìn)化之旅是掌握時(shí)代機(jī)遇的關(guān)鍵。也在此向各位家長(zhǎng)推薦前哨AI冬令營(yíng)。我們認(rèn)為，最好的學(xué)習(xí)不是學(xué)理論，而是親手實(shí)踐。我們將通過(guò)一周的集訓(xùn)，讓孩子能親自上手完成一個(gè)真實(shí)的AI項(xiàng)目，從理解AI到駕馭AI，快快點(diǎn)擊鏈接了解詳情吧。

更多科技產(chǎn)業(yè)的新趨勢(shì)和底層規(guī)律，歡迎加入科技特訓(xùn)營(yíng)學(xué)習(xí)，和我一起，先人一步，領(lǐng)先一路！

王煜全要聞評(píng)論，我們明天見(jiàn)。

↓長(zhǎng)按圖片掃碼報(bào)名，先人一步，領(lǐng)先一路

最后，鑒于公眾號(hào)推送機(jī)制的改變，你未來(lái)刷到要聞評(píng)論的機(jī)會(huì)可能沒(méi)那么多了，建議你加入粉絲群，第一時(shí)間得到我的獨(dú)家前沿分析，而且我們還會(huì)每天在粉絲群里發(fā)布獨(dú)家資料，快快掃碼加入吧！

此外，我們還為您準(zhǔn)備了一個(gè)思維導(dǎo)圖，掃描加群即可領(lǐng)取

“AI應(yīng)用的未來(lái)分析”

↓點(diǎn)擊學(xué)習(xí)王煜全老師最新大師課，掌握馬斯克的賺錢底層邏輯！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.