国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

普通人如何逃離DeepSeek幻覺陷阱

0
分享至

DeepSeek橫空出世,我們和人工智能的關(guān)系也隨之進(jìn)入新時代。但對于許多人來說,與AI的蜜月期還沒有結(jié)束,幻覺問題就不合時宜地來預(yù)警。

近期一條“80后死亡率突破5.2%”的假新聞廣為流傳,據(jù)上海網(wǎng)絡(luò)辟謠介紹,最初的信源很可能是來自AI對話。

這種甚至一眼假的數(shù)據(jù)是怎么來的呢?我最近也在嘗試用AI對話代替搜索,發(fā)現(xiàn)確實會給工作埋下一些“地雷”。

例如前幾天我們寫了京東外賣的稿件,嘗試用DeepSeek來搜集資料,“山姆每年為京東即時零售帶來多少訂單”的問題,DeepSeek語氣肯定地給出一個數(shù)據(jù),并稱京東今年將和山姆展開新合作。

我沒有查到這個數(shù)據(jù)的來源,而且我更震驚的是關(guān)于合作的預(yù)測,“山姆和京東不是去年分手了嗎”。

這就是DeepSeek的“幻覺”?;糜X,是大模型的“基因”問題,因為它本質(zhì)上是根據(jù)每個詞出現(xiàn)的概率來選擇回答,所以很容易編出一篇看起來很流暢但完全不符合事實的回答。

所有的大模型或多或少,都有這個問題。

但是,DeepSeek-R1的幻覺在領(lǐng)先的模型中尤為嚴(yán)重,在Vectara HHEM人工智能幻覺測試中達(dá)到了14.3%,是DeepSeek-V3的近4倍,也遠(yuǎn)超行業(yè)平均水平。

DeepSeek-R1的幻覺率高于同行(圖源自Semafor)

同時,DeepSeek R1是目前中國應(yīng)用范圍最廣泛的大模型之一。正因為它足夠智能,很容易被充分信任,在“掉鏈子”的時候也不會被察覺,反而有可能成為引發(fā)更大范圍的“輿論幻覺”。

01、DeepSeek怎么背刺我

球球今年讀大四,最近都在一家實驗室實習(xí)。用Kimi、豆包等AI助手來撰寫資料、找文獻(xiàn),他已經(jīng)駕輕就熟,在DeepSeek上線以后,更是感到如虎添翼。

最近剛開學(xué),他就開始忙著寫論文。不過,他這學(xué)期已經(jīng)不敢直接使用AI生成的內(nèi)容了。

網(wǎng)上最近流傳的一個貼子,DeepSeek生成的一個綜述中,參考文獻(xiàn)全是自己編的,“秉持著嚴(yán)謹(jǐn)?shù)膽B(tài)度,我去搜了這些參考文獻(xiàn),竟然!!竟然沒有一篇是真的!! ”

一位大模型業(yè)內(nèi)人士表示,這是一個很有意思的案例,“見過胡編事實的,沒看到編造論文引用的?!?/p>

類似胡編的情況還有很多,比如有網(wǎng)友問DeepSeek上海有幾家麻六記,地址都在哪里?結(jié)果DeepSeek給了他四個地址,且四個地址都是錯誤的。

最搞笑的,是一位玩具博主,讓DeepSeek幫她查國內(nèi)兒童玩具理論的文獻(xiàn)綜述,其中引用了一本名為《玩具與兒童發(fā)展》的書。

“我咋沒見過呢?就讓它詳細(xì)介紹一下”,結(jié)果,她就在思維鏈里發(fā)現(xiàn)DeepSeek說,這本書是虛構(gòu)的,而且“要避免指出這本書是虛構(gòu)的,以免讓用戶感到困惑”

音樂自媒體“亂彈山”進(jìn)一步發(fā)現(xiàn),DeepSeek特別擅長使用陌生信息和專業(yè)領(lǐng)域的詞匯來胡編亂造。

他發(fā)現(xiàn)一個小紅書筆記,名叫《我聽了這么多年五月天,還不如DeepSeek》,讓DeepSeek來提供五月天歌曲里面的彩蛋?!捌鋵嵗锩嫒浅兜薄?/p>

比如里面提到《倉頡》前奏中“需要你 需要你 需要你”,倒放會變成“宇宙爆炸的瞬間 我看見了你的臉”。大部分人試一試就會知道,這三個音節(jié)怎么來回折騰,都成不了這句話。但依然不妨礙下面有很多人都說,被感動到了!

另外,他還讓DeepSeek深度解析韓國音樂人Woodz的風(fēng)格。DeepSeek解析出的“雙聲道交替”“呼吸聲放大”“元音拉伸”等巧思,都是對應(yīng)歌曲中沒有的,很像我們剛學(xué)會了一些專業(yè)名詞就張冠李戴胡亂賣弄的樣子。

但值得指出的是,當(dāng)這些專業(yè)詞匯足夠多,這些專業(yè)足夠陌生的時候,普通人根本無法分辨這些敘述的真實性。

就像前面提到的央視新聞報道的“80后的死亡率已經(jīng)達(dá)到5.2%”的謠言,中國人民大學(xué)人口與健康學(xué)院教授李婷梳理發(fā)現(xiàn),很可能就是AI大模型導(dǎo)致的錯誤,但普通人對這些數(shù)據(jù)并沒有概念,就很容易相信。

這幾天,已經(jīng)有好幾篇被認(rèn)為由AI撰寫的謠言騙倒了不少人:梁文峰在知乎上對于DeepSeepk的首次回應(yīng),《哪吒2》員工996是因為公司在成都分房,電梯墜落再沖頂?shù)氖鹿试颉侣務(wù)鎸嵑吞摌?gòu)段落被很好地捏合到一起,常人很難分辨。

而且,就算DeepSeek沒掉鏈子,很多時候普通人連使用它的方式都不正確。AI訓(xùn)練的獎懲方式,簡單來說,就是它猜你最想要的是什么回答,而不是最正確的是什么回答。

丁香園前兩天寫過,已經(jīng)有很多人拿著DeepSeek的診斷,來向醫(yī)生咨詢。一位發(fā)熱兒童的家長,堅信醫(yī)生開的檢查沒有必要,是過度治療;醫(yī)生不開抗甲流的抗病毒藥物,就是拖延治療。醫(yī)生很疑惑,“你們怎么能確定是甲流呢?發(fā)熱的原因有很多?!奔议L說,他們問了DeepSeek。

醫(yī)生打開手機(jī)發(fā)現(xiàn),家長的提問是,“得了甲流要做什么治療?”這個問題首先就預(yù)設(shè)了孩子已經(jīng)得了甲流,大模型自然也只會作出相應(yīng)的回答,并不會綜合實際條件來進(jìn)行決策。幻覺能借此危害現(xiàn)實。

02、幻覺,是bless也是curse

幻覺本身其實并不是“劇毒”,只能算是大模型的“基因”。在研究人工智能的早期,幻覺被認(rèn)為是好事,代表AI有了產(chǎn)生智能的可能性。這也是AI業(yè)界研究非常久遠(yuǎn)的話題。

但在AI有了判斷和生成的能力后,幻覺被用來形容偏差和錯誤。而在LLM領(lǐng)域,幻覺更是每個模型與生俱來的缺陷。

用最簡單的邏輯來描述,LLM訓(xùn)練過程中,是將海量數(shù)據(jù)高度壓縮抽象,輸入的是內(nèi)容之間關(guān)系的數(shù)學(xué)表征,而不是內(nèi)容本身。就像柏拉圖的洞穴寓言,囚徒看到的全是外部世界的投影,而不是真實世界本身。

LLM在輸出時,是無法將壓縮后的規(guī)律和知識完全復(fù)原的,因此會去填補(bǔ)空白,于是產(chǎn)生幻覺。

不同研究還依據(jù)來源或領(lǐng)域不同,將幻覺分為“認(rèn)知不確定性和偶然不確定性”,或“數(shù)據(jù)源、訓(xùn)練過程和推理階段導(dǎo)致的幻覺”。

但OpenAI等團(tuán)隊的研究者們發(fā)現(xiàn),推理增強(qiáng)會明顯減少幻覺。

此前普通用戶使用 ChatGPT(GPT3)時就發(fā)現(xiàn),在模型本身不變的情況下,只需要在提示詞中加上“讓我們一步步思考(let’s think step by step)”,就能生成chain-of-thought(CoT),提高推理的準(zhǔn)確性,減少幻覺。OpenAI用o系列的模型進(jìn)一步證明了這一點。

但是DeepSeek-R1的表現(xiàn),跟這一發(fā)現(xiàn)恰好相反。

R1在數(shù)學(xué)相關(guān)的推理上極強(qiáng),而在涉及到創(chuàng)意創(chuàng)造的領(lǐng)域非常容易胡編亂造。非常極端。

一個案例能很好地說明DeepSeek的能力。相信有不少人看到過,一個博主用“strawberry里有幾個r”這個經(jīng)典問題去測試R1。

絕大多數(shù)大模型會回答“2個”。這是模型之間互相“學(xué)習(xí)”傳遞的謬誤,也說明了LLM的“黑盒子”境地,它看不到外部世界,甚至看不到單詞中的最簡單的字母。

而DeepSeek在經(jīng)歷了來回非常多輪長達(dá)100多秒的深度思考后,終于選擇堅信自己推理出來的數(shù)字“3個”,戰(zhàn)勝了它習(xí)得的思想鋼印“2個”。

圖片來自 @斯庫里

而這種強(qiáng)大的推理能力(CoT深度思考能力),是雙刃劍。在與數(shù)學(xué)、科學(xué)真理無關(guān)的任務(wù)中,它有時會生成出一套自圓其說的“真理”,且捏造出配合自己理論的論據(jù)。

據(jù)騰訊科技,出門問問大模型團(tuán)隊前工程副總裁李維認(rèn)為,R1比V3幻覺高4倍,有模型層的原因:

V3: query --〉answer

R1: query+CoT --〉answer

“對于V3已經(jīng)能很好完成的任務(wù),比如摘要或翻譯,任何思維鏈的長篇引導(dǎo)都可能帶來偏離或發(fā)揮的傾向,這就為幻覺提供了溫床。”

一個合理的推測是,R1在強(qiáng)化學(xué)習(xí)階段去掉了人工干預(yù),減少了大模型為了討好人類偏好而鉆空子,但單純的準(zhǔn)確性信號反饋,或許讓R1在文科類的任務(wù)中把“創(chuàng)造性”當(dāng)成了更高優(yōu)先級。而后續(xù)的Alignment并未對此進(jìn)行有效彌補(bǔ)。

OpenAI的前科學(xué)家翁荔在2024年曾撰寫過一篇重要blog(Extrinsic Hallucinations in LLMs),她在OpenAI任職后期專注于大模型安全問題。

她提出,如果將預(yù)訓(xùn)練數(shù)據(jù)集看作是世界知識的象征,那么本質(zhì)上是試圖確保模型輸出是事實性的,并可以通過外部世界知識進(jìn)行驗證?!爱?dāng)模型不了解某個事實時,它應(yīng)該明確表示不知道?!?/p>

如今一些大模型如今在觸碰到知識邊界時,會給出“不知道”或者“不確定”的回答。

R2或許會在減少幻覺方面有顯著成效。而眼下R1有龐大的應(yīng)用范圍,其模型的幻覺程度,需要被大家意識到,從而減少不必要的傷害和損失。

03、來,讓我們打敗幻覺

那么,在現(xiàn)實使用的過程中,我們普通人對大模型的幻覺就束手無策了嗎?

互聯(lián)網(wǎng)資深產(chǎn)品經(jīng)理Sam,最近一直在用大模型做應(yīng)用,他對ChatGPT和DeepSeek都有豐富的使用體驗。

對于Sam這樣的開發(fā)者來說,最靠譜的反幻覺手段有兩種。

第一個就是在調(diào)用API時,根據(jù)需求設(shè)置一些參數(shù),如temperature和top_p等,以控制幻覺問題。有些大模型,還支持設(shè)置信息標(biāo),如對于模糊信息,需標(biāo)注“此處為推測內(nèi)容”等。

第二種方法更專業(yè)。大模型的答案是否靠譜,很大程序依賴語料質(zhì)量,同樣一個大模型語料質(zhì)量也可能不一樣,比如說,現(xiàn)在同樣是滿血版的DeepSeek,百度版和騰訊版的語料,就來自于各自的內(nèi)容生態(tài)。此時就需要開發(fā)者選擇自己信任的生態(tài)。

對于專業(yè)的企業(yè)用戶,就可以從數(shù)據(jù)側(cè)下手規(guī)避幻覺。在這方面,現(xiàn)在RAG技術(shù)已經(jīng)在應(yīng)用開發(fā)中普遍采用。

RAG,也就是檢索增強(qiáng)生成,是先從一個數(shù)據(jù)集中檢索信息,然后指導(dǎo)內(nèi)容生成。當(dāng)然,這個集合是要根據(jù)企業(yè)自己的需求,搭建的事實性、權(quán)威性數(shù)據(jù)庫。

Sam認(rèn)為,這種方法雖好,但不適合一般的個人用戶,因為涉及到大樣本的數(shù)據(jù)標(biāo)注,成本很高。

ChatGPT為個人用戶也設(shè)置了一個調(diào)整方案來減少幻覺。在ChatGPT開發(fā)者中心的playground中,有一個調(diào)節(jié)參數(shù)功能,專門用來給普通用戶使用。但目前DeepSeek沒有提供這個功能。

ChatGPT在playground提供了參數(shù)調(diào)整功能

實際上,就算有這個功能,一般用戶可能也會嫌麻煩。Sam說,他發(fā)現(xiàn)ChatGPT的這個功能,一般的個人用戶就很少會使用。

那么個人用戶怎么辦呢?目前來看,對于大家反應(yīng)較多的DeepSeek幻覺問題,最靠譜的方法也有兩個,第一個是多方查詢,交叉驗證。

例如,我的一位養(yǎng)貓的朋友說,使用DeepSeek之前,她一般是在小紅書上學(xué)習(xí)養(yǎng)貓知識,DeepSeek雖然方便,但是她現(xiàn)在仍然會用小紅書,用兩個結(jié)果去交叉驗證,經(jīng)常會發(fā)現(xiàn)DeepSeek的結(jié)果被此前一些廣泛流行的錯誤觀念污染。

如果是想用DeepSeek做一些專業(yè)數(shù)據(jù)搜集,這個方法可能就沒那么好用。此外,還有一個更簡單的方法。

具體來說,就是你在對話中,如果發(fā)現(xiàn)DeepSeek有自己腦補(bǔ)的內(nèi)容,就可以直接告訴它,“說你知道的就好,不用胡說”,DeepSeek馬上就會修正自己的生成內(nèi)容。

chatgpt給出的建議

Sam說,對一般用戶來說,這個方法效果不錯。

實際上,正如我們前文所說,DeepSeek幻覺更嚴(yán)重,一部分原因是因它更智能。反過來說,我們要打敗幻覺,也要利用它這個特點。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
最新民調(diào):臺灣近六成民眾不認(rèn)為“民進(jìn)黨是清廉政黨”

最新民調(diào):臺灣近六成民眾不認(rèn)為“民進(jìn)黨是清廉政黨”

金牛傳音
2025-12-23 11:29:40
南京導(dǎo)航失靈原因查明!小干擾器惹大禍,北斗受影響?

南京導(dǎo)航失靈原因查明!小干擾器惹大禍,北斗受影響?

小弓長追熱點
2025-12-22 07:30:07
泰國重拳出擊,徹查柬電詐背后金主,以及人體器官交易黑窩點

泰國重拳出擊,徹查柬電詐背后金主,以及人體器官交易黑窩點

胡嚴(yán)亂語
2025-12-22 16:20:10
好消息!泰山俱樂部迎來新主教練,曾執(zhí)教國家女足,是韓鵬的恩師

好消息!泰山俱樂部迎來新主教練,曾執(zhí)教國家女足,是韓鵬的恩師

體壇鑒春秋
2025-12-23 13:56:08
解放軍已經(jīng)做好開戰(zhàn)準(zhǔn)備!一只大手伸進(jìn)臺灣,把臺軍底細(xì)摸了個遍

解放軍已經(jīng)做好開戰(zhàn)準(zhǔn)備!一只大手伸進(jìn)臺灣,把臺軍底細(xì)摸了個遍

阿鳧愛吐槽
2025-12-22 00:38:10
吳越說,因為沒選結(jié)婚這條路,現(xiàn)在她的日子基本就是圍著爸媽打轉(zhuǎn)

吳越說,因為沒選結(jié)婚這條路,現(xiàn)在她的日子基本就是圍著爸媽打轉(zhuǎn)

小光侃娛樂
2025-12-23 09:35:03
日本財務(wù)大臣片山皋月稱必要時“可以放手”就日元采取大膽行動

日本財務(wù)大臣片山皋月稱必要時“可以放手”就日元采取大膽行動

新浪財經(jīng)
2025-12-22 23:02:13
這人真不好評論,這事真不敢相信…

這人真不好評論,這事真不敢相信…

霹靂炮
2025-12-21 11:40:08
表面是演員,實際軍銜卻高到嚇人,這4位明星個個深藏不露

表面是演員,實際軍銜卻高到嚇人,這4位明星個個深藏不露

顧史
2025-12-23 15:41:09
僅3個多月,德媒對樊振東的稱呼又變了,6字之差背后:風(fēng)向再變

僅3個多月,德媒對樊振東的稱呼又變了,6字之差背后:風(fēng)向再變

諦聽骨語本尊
2025-12-23 12:42:00
“騙”了我們30年,韓紅父親原來是家喻戶曉的他,難怪不敢得罪她

“騙”了我們30年,韓紅父親原來是家喻戶曉的他,難怪不敢得罪她

小熊侃史
2025-12-23 07:35:05
科爾沒放棄格林,勇士解決兩大難題!庫里回避一事,一人辜負(fù)信任

科爾沒放棄格林,勇士解決兩大難題!庫里回避一事,一人辜負(fù)信任

魚崖大話籃球
2025-12-23 15:48:34
魏建軍臉面都不留了!在央視說要向國外學(xué)習(xí)機(jī)械素質(zhì),引發(fā)爭議…

魏建軍臉面都不留了!在央視說要向國外學(xué)習(xí)機(jī)械素質(zhì),引發(fā)爭議…

火山詩話
2025-12-21 10:07:39
被特朗普搞怕了,卡尼終于認(rèn)清現(xiàn)實,要與中國合作,但已經(jīng)晚了

被特朗普搞怕了,卡尼終于認(rèn)清現(xiàn)實,要與中國合作,但已經(jīng)晚了

一口娛樂
2025-12-23 14:29:19
大漲2%,黃金再創(chuàng)歷史新高

大漲2%,黃金再創(chuàng)歷史新高

每日經(jīng)濟(jì)新聞
2025-12-23 07:43:24
“我們要徹底告別C++”!微軟啟動代碼史上最大“拆遷”:Windows、Azure將用Rust重寫

“我們要徹底告別C++”!微軟啟動代碼史上最大“拆遷”:Windows、Azure將用Rust重寫

InfoQ
2025-12-23 12:22:16
委內(nèi)瑞拉油輪剛出海,中國軍艦緊隨其后,特朗普的算盤又打錯了?

委內(nèi)瑞拉油輪剛出海,中國軍艦緊隨其后,特朗普的算盤又打錯了?

摘史
2025-12-20 11:30:08
島內(nèi)最新民調(diào)曝光,國民黨支持率暴跌,藍(lán)白合預(yù)警,解放軍大動作

島內(nèi)最新民調(diào)曝光,國民黨支持率暴跌,藍(lán)白合預(yù)警,解放軍大動作

DS北風(fēng)
2025-12-23 15:50:32
查賬查到一個醫(yī)生頭上,沒查出貪污受賄,結(jié)果審計人員都沉默了

查賬查到一個醫(yī)生頭上,沒查出貪污受賄,結(jié)果審計人員都沉默了

扶蘇聊歷史
2025-12-15 14:00:09
你見過最清閑的事業(yè)編是啥?網(wǎng)友:還有一個供銷社,閑出病來

你見過最清閑的事業(yè)編是啥?網(wǎng)友:還有一個供銷社,閑出病來

帶你感受人間冷暖
2025-12-16 00:20:09
2025-12-23 16:39:00
20社 incentive-icons
20社
關(guān)注年輕人的錢包、工作和生活。
154文章數(shù) 67關(guān)注度
往期回顧 全部

科技要聞

慘烈90分鐘!快手驚魂:遭遇最強(qiáng)黑產(chǎn)攻擊

頭條要聞

媒體:對一度沒國際賽可踢的國足 "亞國聯(lián)"是雪中送炭

頭條要聞

媒體:對一度沒國際賽可踢的國足 "亞國聯(lián)"是雪中送炭

體育要聞

楊瀚森連續(xù)5場DNP!開拓者遭活塞雙殺

娛樂要聞

阿信發(fā)聲報平安,曬演唱會向F3索吻畫面

財經(jīng)要聞

祥源系百億產(chǎn)品爆雷 浙金中心18人被拘

汽車要聞

四款新車集中發(fā)布 星途正式走進(jìn)3.0時代

態(tài)度原創(chuàng)

本地
親子
時尚
公開課
軍事航空

本地新聞

云游安徽|宣城何以動人心,百年塔影一城徽韻

親子要聞

莎莎這孩子是真的懂事。腳扭傷之后

推廣|| 用完立馬復(fù)購!百元get大牌膚感

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

中方回應(yīng)烏克蘭或?qū)⒅撇弥袊?/h3>

無障礙瀏覽 進(jìn)入關(guān)懷版