国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

別讓“反幻覺”殺死AI創(chuàng)造力,最新實(shí)證研究來了!

0
分享至

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自學(xué)術(shù)頭條

整理:瀟瀟

大語言模型(LLM)普遍存在幻覺問題,即生成與客觀事實(shí)不符的內(nèi)容。針對這一問題,已有多種抑制幻覺的技術(shù)被提出。

在科研活動中,創(chuàng)造力是提出科學(xué)假設(shè)與構(gòu)建科學(xué)構(gòu)想的關(guān)鍵要素。隨著 LLM 日益深入科研輔助工作中,這種依賴非常規(guī)聯(lián)想的創(chuàng)造性思維在表現(xiàn)形式上往往與模型幻覺相似。

然而,抑制幻覺的技術(shù)是否會削弱模型的創(chuàng)造力,業(yè)內(nèi)仍缺乏系統(tǒng)性認(rèn)知

基于此,南洋理工大學(xué)研究團(tuán)隊運(yùn)用兩個創(chuàng)造力測評基準(zhǔn),對抑制幻覺方法與模型創(chuàng)造力之間的關(guān)系進(jìn)行了研究,為科學(xué)應(yīng)用場景中如何選擇合適的抑制幻覺技術(shù)提供了重要參考


論文鏈接:https://arxiv.org/pdf/2512.11509

他們選取了兩個創(chuàng)造力評測基準(zhǔn)。

  • NeoCoder,通過逐步增加約束條件的編程任務(wù)來評估模型的創(chuàng)造力,其高度規(guī)則化的任務(wù)環(huán)境可類比于在固定自然規(guī)律約束下開展的科學(xué)實(shí)驗(yàn)。

  • CS4,聚焦于開放式故事生成,更強(qiáng)調(diào)發(fā)散性聯(lián)想與想象能力,貼近科學(xué)假設(shè)生成所需的創(chuàng)造性思維過程。

在兩個基準(zhǔn)測試上,他們對三種抑制幻覺技術(shù)進(jìn)行系統(tǒng)評估,包括:驗(yàn)證鏈(CoVe)、對比層解碼(DoLa)檢索增強(qiáng)生成(RAG)


圖|實(shí)驗(yàn)框架示意圖

CoVe提升發(fā)散性創(chuàng)造力

實(shí)驗(yàn)結(jié)果顯示,CoVe 能顯著提升大模型的發(fā)散性創(chuàng)造力,也就是讓模型在思考問題時產(chǎn)生更多新穎、多樣的答案。

在不同模型與基準(zhǔn)上的實(shí)驗(yàn)中,CoVe 整體表現(xiàn)穩(wěn)定,尤其在某些小模型上提升更為明顯。

這說明,CoVe 通過引入“驗(yàn)證—質(zhì)詢”式的解碼過程,引導(dǎo)模型探索更多潛在推理路徑,而不是沿著單一方向快速得出結(jié)論。

CoVe 的效果不僅體現(xiàn)在性能指標(biāo)上,也體現(xiàn)出類人的發(fā)散思維訓(xùn)練的價值,通過持續(xù)發(fā)問與多方向思考,有助于打破思維定勢,刺激“頭腦風(fēng)暴式”的創(chuàng)意思考。


圖|解碼方法對發(fā)散性創(chuàng)造力的影響(NeoCoder)

RAG對發(fā)散性創(chuàng)造力影響有限

另一邊,RAG 對模型的發(fā)散性創(chuàng)造力基本沒有實(shí)質(zhì)影響。無論是在不同模型規(guī)模還是不同基準(zhǔn)上,RAG 的結(jié)果都僅呈現(xiàn)出輕微且隨機(jī)的波動,整體圍繞基線上下浮動。

但研究團(tuán)隊也解釋了潛在可能,如果檢索系統(tǒng)能提供模型訓(xùn)練之外的策略或新鮮知識,RAG 可能在創(chuàng)造性上發(fā)揮積極作用。例如,高質(zhì)量檢索內(nèi)容可幫助模型提升事實(shí)性判斷,這一能力與創(chuàng)造力趨同,同時還可能通過引入新視角來激發(fā)新思路,提高發(fā)散性創(chuàng)造力


圖|解碼方法對發(fā)散創(chuàng)造力的影響(CS4)

DoLa抑制發(fā)散性創(chuàng)造力

與上述兩種技術(shù)相反,DoLa 會系統(tǒng)性降低模型的發(fā)散性創(chuàng)造力。在兩個基準(zhǔn)上,基于 DoLa 的大多數(shù)模型的表現(xiàn)均略低于基線,這表明,創(chuàng)造力下降來自 DoLa 本身,而非模型結(jié)構(gòu)差異。

研究團(tuán)隊推測,DoLa 削弱了負(fù)責(zé)創(chuàng)造力的層級結(jié)構(gòu)。DoLa 的機(jī)制是通過將早期層預(yù)測從后期層預(yù)測中相減以提升事實(shí)性,如果早期層包含更多探索性與發(fā)散性特征,那么對其進(jìn)行對比運(yùn)算時,就可能抹除創(chuàng)造生成所需的信息。

進(jìn)一步實(shí)驗(yàn)顯示,通過在解碼時增強(qiáng)與創(chuàng)造力相關(guān)的層級、抑制負(fù)相關(guān)層級,可以在不損害趨同創(chuàng)造力的前提下提升發(fā)散性創(chuàng)造力。這說明兩類創(chuàng)造力可能是可分離的,未來可針對性地提升發(fā)散性創(chuàng)造潛力。


圖|通過增強(qiáng)與創(chuàng)造力正相關(guān)的層級并抑制與創(chuàng)造力負(fù)相關(guān)的層級來提升發(fā)散創(chuàng)造力

限性

當(dāng)然,這項研究也存在一定的局限性。

第一,創(chuàng)造力評估具有局限性。實(shí)驗(yàn)只能間接衡量科學(xué)假設(shè)生成能力,并不等同真實(shí)科研中的創(chuàng)造力表現(xiàn),所以結(jié)果的外推性有限。

第二,CoVe 機(jī)制解釋不足。雖然 CoVe 能提升發(fā)散創(chuàng)造力,但沒做消融實(shí)驗(yàn),也沒有揭示具體機(jī)制,因此無法確定其發(fā)揮作用的因果路徑。

第三,RAG 結(jié)論不夠穩(wěn)固。關(guān)于 RAG 對創(chuàng)造力影響弱的解釋,缺乏對檢索質(zhì)量和不同檢索策略的測量,因此結(jié)論需要更系統(tǒng)驗(yàn)證。

隨著 LLM 變得越來越聰明,釋放它們在科學(xué)發(fā)現(xiàn)方面的潛力變得越來越重要。展望未來,研究人員希望 LLM 不僅是被動的工具,更能成為科研工作中的積極協(xié)作者。

GPU 訓(xùn)練特惠!

H100/H200 GPU算力按秒計費(fèi),平均節(jié)省開支30%以上!

掃碼了解詳情?

點(diǎn)「贊」的人都變好看了哦!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中國第一巨人鮑喜順,不聽醫(yī)生勸拼命生子,17年過去兒子現(xiàn)狀堪憂

中國第一巨人鮑喜順,不聽醫(yī)生勸拼命生子,17年過去兒子現(xiàn)狀堪憂

地理三體說
2026-04-23 22:13:16
美國女游客在印度民宿遭老板下藥,員工趁機(jī)性侵,被限制求救3天

美國女游客在印度民宿遭老板下藥,員工趁機(jī)性侵,被限制求救3天

小魚愛魚樂
2026-04-23 22:07:16
老兵更新動態(tài),保安被辭退處境堪憂,老兵一番話讓保安無地自容

老兵更新動態(tài),保安被辭退處境堪憂,老兵一番話讓保安無地自容

離離言幾許
2026-04-23 07:41:27
張婉婷疑曾介入高云翔董璇婚姻,懷了對方的孩子,也太狗血了

張婉婷疑曾介入高云翔董璇婚姻,懷了對方的孩子,也太狗血了

話娛論影
2026-04-23 09:58:53
99年我在守水庫,遇到一個道士借宿,他走時叮囑我,最近先別下山

99年我在守水庫,遇到一個道士借宿,他走時叮囑我,最近先別下山

千秋文化
2026-04-20 19:50:05
小米連發(fā)8款新機(jī),真的太猛啊!

小米連發(fā)8款新機(jī),真的太猛啊!

科技堡壘
2026-04-22 09:06:43
2米24的意大利中鋒宣布參選,NBA在賭什么?

2米24的意大利中鋒宣布參選,NBA在賭什么?

賽場速報局
2026-04-23 05:34:13
狂勝23分!成雷霆最懼怕的對手,2換1交易大賺,你們真的要沖冠

狂勝23分!成雷霆最懼怕的對手,2換1交易大賺,你們真的要沖冠

籃球掃地僧
2026-04-24 06:53:02
扮豬吃虎?忍耐四個月,委代總統(tǒng)撕破偽裝,率幾十萬大軍硬剛美國

扮豬吃虎?忍耐四個月,委代總統(tǒng)撕破偽裝,率幾十萬大軍硬剛美國

健身狂人
2026-04-23 17:45:54
隨著弗賴堡1-2遭絕殺,德國杯決賽對陣出爐:德甲霸主PK斯圖加特

隨著弗賴堡1-2遭絕殺,德國杯決賽對陣出爐:德甲霸主PK斯圖加特

側(cè)身凌空斬
2026-04-24 05:30:17
老外剛造出巴掌帽,義烏當(dāng)天量產(chǎn)十萬單,國內(nèi)外售價相差整整10倍

老外剛造出巴掌帽,義烏當(dāng)天量產(chǎn)十萬單,國內(nèi)外售價相差整整10倍

趣味萌寵的日常
2026-04-23 18:31:49
官宣!切爾西換帥,劍指冠軍,傳奇中場剛剛奪冠,有望三度回歸

官宣!切爾西換帥,劍指冠軍,傳奇中場剛剛奪冠,有望三度回歸

嗨皮看球
2026-04-23 11:12:37
伊朗政權(quán)變天了!

伊朗政權(quán)變天了!

阿振觀點(diǎn)
2026-04-24 00:20:51
全國理發(fā)店陷入倒閉潮,并不是因?yàn)槿鳖櫩,而是自己把自己搞垮?>
    </a>
        <h3>
      <a href=江山此夜季
2026-04-24 02:12:07
蛇吞象?生產(chǎn)殲-20的中國軍工巨頭174億就被收購了,用意耐人尋味

蛇吞象?生產(chǎn)殲-20的中國軍工巨頭174億就被收購了,用意耐人尋味

趣文說娛
2026-04-23 19:52:36
大一女生泰國參加潑水節(jié)被賣到緬甸電詐園區(qū),家屬稱園區(qū)已同意放人,正協(xié)商時間地點(diǎn);與閨蜜聊天記錄曝光:和多人一起被控制,沒睡覺進(jìn)食

大一女生泰國參加潑水節(jié)被賣到緬甸電詐園區(qū),家屬稱園區(qū)已同意放人,正協(xié)商時間地點(diǎn);與閨蜜聊天記錄曝光:和多人一起被控制,沒睡覺進(jìn)食

極目新聞
2026-04-23 15:05:28
遼寧莊河回應(yīng)“8歲男童爬山發(fā)現(xiàn)金礦線索”:當(dāng)?shù)匾讶Χ?00多處礦化點(diǎn),事發(fā)地也有成金礦可能

遼寧莊河回應(yīng)“8歲男童爬山發(fā)現(xiàn)金礦線索”:當(dāng)?shù)匾讶Χ?00多處礦化點(diǎn),事發(fā)地也有成金礦可能

極目新聞
2026-04-23 10:00:21
臺當(dāng)局猛然發(fā)現(xiàn),賴清德或許再也不能離臺了,美上將給他出一主意

臺當(dāng)局猛然發(fā)現(xiàn),賴清德或許再也不能離臺了,美上將給他出一主意

今墨緣
2026-04-24 01:37:04
一家旅行社連續(xù)3年中標(biāo),研學(xué)“婆羅門”何時休?

一家旅行社連續(xù)3年中標(biāo),研學(xué)“婆羅門”何時休?

環(huán)球旅訊
2026-04-23 08:08:14
南方航空:經(jīng)核實(shí),涉事人員非我司“空姐”

南方航空:經(jīng)核實(shí),涉事人員非我司“空姐”

澎湃新聞
2026-04-23 14:53:08
2026-04-24 07:27:00
大數(shù)據(jù)文摘 incentive-icons
大數(shù)據(jù)文摘
專注大數(shù)據(jù),每日有分享!
6852文章數(shù) 94541關(guān)注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產(chǎn)品",但量產(chǎn)難預(yù)測

頭條要聞

特朗普:不急于結(jié)束與伊朗戰(zhàn)爭 可伊朗沒時間了

頭條要聞

特朗普:不急于結(jié)束與伊朗戰(zhàn)爭 可伊朗沒時間了

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經(jīng)要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

預(yù)售30.29萬起 嵐圖泰山X8配896線激光雷達(dá)

態(tài)度原創(chuàng)

旅游
教育
游戲
時尚
健康

旅游要聞

港人北上“內(nèi)地游”持續(xù)升溫,“4小時內(nèi)高鐵出游圈”受青睞

教育要聞

家長要電子試卷被說派頭大?天津這起家校誤會,沒有真正的贏家!

索尼最美主機(jī)!PS3拋光煥然一新引熱議:完爆PS5

李昀銳:林深見木

干細(xì)胞如何讓燒燙傷皮膚"再生"?

無障礙瀏覽 進(jìn)入關(guān)懷版