国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

新加坡國立大學(xué)突破:抑制AI視覺描述幻覺生成

0
分享至


人工智能的"幻覺"問題一直困擾著科學(xué)家們,特別是當(dāng)機(jī)器需要"看圖說話"時(shí)。新加坡國立大學(xué)和北京大學(xué)深圳研究生院的研究團(tuán)隊(duì)在2026年2月發(fā)表了一項(xiàng)突破性研究,論文編號(hào)為arXiv:2602.22144v1,題為"NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors"。這項(xiàng)研究徹底改變了我們對AI視覺語言模型"胡編亂造"問題的理解,并提出了一個(gè)簡單而有效的解決方案。

當(dāng)我們看到一張照片時(shí),大腦會(huì)自動(dòng)識(shí)別其中的物體,然后用語言準(zhǔn)確描述出來。但對AI來說,這個(gè)看似簡單的任務(wù)卻充滿挑戰(zhàn)。目前的大型視覺語言模型,比如能夠看圖回答問題的AI系統(tǒng),經(jīng)常會(huì)出現(xiàn)一個(gè)令人頭疼的問題——它們會(huì)"看到"圖片中根本不存在的東西,然后煞有介事地描述出來。就像一個(gè)過度想象的孩子,看到云朵就說是城堡,看到樹影就說是怪獸。

研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)驚人的事實(shí):這些AI系統(tǒng)的"胡編亂造"問題主要不是因?yàn)?眼睛不好使",而是因?yàn)?嘴巴太能說"。換句話說,問題的根源在于這些AI系統(tǒng)過分依賴語言模型中積累的知識(shí)和偏見,就像一個(gè)滿腹經(jīng)綸但不愿意仔細(xì)觀察的學(xué)者,總是用已有的知識(shí)框架來解釋新看到的事物,而忽略了眼前的真實(shí)情況。

為了驗(yàn)證這個(gè)猜測,研究團(tuán)隊(duì)設(shè)計(jì)了一系列巧妙的實(shí)驗(yàn)。他們發(fā)現(xiàn),當(dāng)AI系統(tǒng)出現(xiàn)幻覺時(shí),無論是否提供圖像信息,系統(tǒng)給出的答案幾乎一模一樣。這就像是一個(gè)學(xué)生在考試時(shí),不管題目問的是什么,都用同一套標(biāo)準(zhǔn)答案來回答。這個(gè)發(fā)現(xiàn)顛覆了之前學(xué)界的普遍認(rèn)知——大家原本以為問題出在視覺識(shí)別部分,但實(shí)際上問題出在語言生成部分。

基于這個(gè)重要發(fā)現(xiàn),研究團(tuán)隊(duì)開發(fā)了一個(gè)名為NoLan的全新框架,這個(gè)名字來自"No-Language-Hallucination Decoding"的縮寫。NoLan的工作原理就像是給AI裝了一個(gè)"現(xiàn)實(shí)檢查器"。當(dāng)AI準(zhǔn)備說出一句話時(shí),NoLan會(huì)同時(shí)詢問兩個(gè)問題:一是"你看著圖片,會(huì)說什么?",二是"如果沒有圖片,你會(huì)說什么?"然后它會(huì)比較這兩個(gè)答案,如果兩個(gè)答案太相似,就說明AI可能在依賴固有偏見而不是真正"看圖說話",這時(shí)NoLan就會(huì)調(diào)整AI的回答,讓它更多地依賴視覺信息而不是預(yù)設(shè)知識(shí)。

這個(gè)方法的巧妙之處在于它完全不需要額外的訓(xùn)練。就像給汽車安裝一個(gè)導(dǎo)航系統(tǒng),不需要重新制造發(fā)動(dòng)機(jī),只需要在現(xiàn)有系統(tǒng)上加裝一個(gè)智能模塊就行了。NoLan可以直接應(yīng)用到任何現(xiàn)有的視覺語言模型上,立即改善其表現(xiàn)。

研究團(tuán)隊(duì)還開發(fā)了NoLan的兩個(gè)版本。基礎(chǔ)版本NoLan-Base使用固定的調(diào)整幅度,就像使用固定檔位的變速箱。而升級版本NoLan-Plus則更加智能,它能根據(jù)具體情況動(dòng)態(tài)調(diào)整,就像現(xiàn)代汽車的智能變速系統(tǒng),能夠根據(jù)路況和駕駛習(xí)慣自動(dòng)選擇最合適的檔位。NoLan-Plus使用一個(gè)基于KL散度的數(shù)學(xué)公式來衡量兩個(gè)答案的相似度,當(dāng)相似度越高時(shí),調(diào)整幅度就越大。

為了測試NoLan的效果,研究團(tuán)隊(duì)在多個(gè)不同的數(shù)據(jù)集上進(jìn)行了大規(guī)模實(shí)驗(yàn)。他們使用了POPE(基于輪詢的目標(biāo)探測評估)、MME(多模態(tài)評估)、LLaVA-Bench等多個(gè)標(biāo)準(zhǔn)測試集,涵蓋了從簡單的"圖中有沒有大象"到復(fù)雜的開放式問答等各種任務(wù)。

實(shí)驗(yàn)結(jié)果令人印象深刻。在POPE測試中,NoLan將LLaVA-1.5 7B模型的準(zhǔn)確率提高了多達(dá)6.45分,將Qwen-VL 7B模型的準(zhǔn)確率提高了7.21分。在更具挑戰(zhàn)性的測試中,NoLan-Plus甚至將準(zhǔn)確率提升了8.38分,F(xiàn)1分?jǐn)?shù)提升了8.78分。這就像是一個(gè)原本經(jīng)常答錯(cuò)題的學(xué)生,突然之間答題準(zhǔn)確率大幅提升,而且這種提升是在所有類型的題目上都表現(xiàn)出來的。

更令人驚喜的是,NoLan不僅減少了AI的胡編亂造,還保持了生成內(nèi)容的豐富性和流暢性。在開放式問答任務(wù)中,使用NoLan的AI系統(tǒng)生成的答案更加準(zhǔn)確,同時(shí)依然保持著生動(dòng)有趣的表達(dá)風(fēng)格。這就像是教會(huì)了一個(gè)愛說故事的孩子既要有想象力,又要尊重事實(shí)。

研究團(tuán)隊(duì)還進(jìn)行了深入的理論分析,從數(shù)學(xué)角度證明了他們方法的合理性。他們使用條件互信息和KL散度等數(shù)學(xué)工具,嚴(yán)格證明了當(dāng)KL散度較小時(shí),確實(shí)意味著AI系統(tǒng)更可能出現(xiàn)幻覺。這為他們的方法提供了堅(jiān)實(shí)的理論基礎(chǔ),就像為一座建筑打下了牢固的地基。

在實(shí)際應(yīng)用案例中,研究團(tuán)隊(duì)展示了一些生動(dòng)的例子。比如,在描述一張Snow White和七個(gè)小矮人的圖片時(shí),原始的AI系統(tǒng)會(huì)說圖中有"手提箱"和"卡車"這些根本不存在的物體,因?yàn)檫@些物體在訓(xùn)練數(shù)據(jù)中經(jīng)常與童話故事相關(guān)聯(lián)。但使用NoLan后,AI的描述變得準(zhǔn)確多了,只會(huì)提到圖片中真實(shí)存在的物體。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:AI系統(tǒng)的幻覺問題在生成序列的后半部分更加嚴(yán)重。就像人在長時(shí)間講話時(shí)可能會(huì)逐漸偏離主題一樣,AI在生成較長文本時(shí)也容易逐漸脫離視覺輸入,更多地依賴語言模型的固有偏見。這個(gè)發(fā)現(xiàn)為未來的研究指出了新的方向。

在效率方面,NoLan也表現(xiàn)出色。相比其他需要額外計(jì)算開銷的方法,NoLan的計(jì)算負(fù)擔(dān)相對較小,推理速度也更快。在內(nèi)存使用上,NoLan幾乎不增加額外負(fù)擔(dān),這使得它可以輕松部署到實(shí)際應(yīng)用中。

這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)層面的突破。在自動(dòng)駕駛、醫(yī)療診斷、安防監(jiān)控等關(guān)鍵領(lǐng)域,AI系統(tǒng)的準(zhǔn)確性直接關(guān)系到人身安全。一個(gè)能夠準(zhǔn)確"看圖說話"的AI系統(tǒng),意味著自動(dòng)駕駛汽車能更準(zhǔn)確地識(shí)別路況,醫(yī)療AI能更精確地分析影像,安防系統(tǒng)能更可靠地識(shí)別異常情況。

研究團(tuán)隊(duì)還將NoLan與其他解決方案進(jìn)行了詳細(xì)對比。傳統(tǒng)方法大多需要重新訓(xùn)練模型或使用額外的工具,成本高昂且復(fù)雜。而NoLan就像是一個(gè)即插即用的升級包,可以立即改善任何現(xiàn)有系統(tǒng)的表現(xiàn),無需重新投資或大規(guī)模改造。

在不同模型規(guī)模的測試中,研究團(tuán)隊(duì)發(fā)現(xiàn)NoLan的效果在更大的模型上表現(xiàn)得更加突出。這意味著隨著AI技術(shù)的發(fā)展和模型規(guī)模的增長,NoLan的價(jià)值將會(huì)越來越大。這就像一個(gè)好的教育方法,對于學(xué)習(xí)能力更強(qiáng)的學(xué)生效果往往更明顯。

研究團(tuán)隊(duì)還探索了NoLan在多個(gè)不同領(lǐng)域的應(yīng)用效果。無論是處理幾何圖形、食物照片、統(tǒng)計(jì)圖表還是地圖信息,NoLan都能顯著改善AI的表現(xiàn)。這種廣泛的適用性證明了該方法的普遍價(jià)值。

在數(shù)學(xué)推理任務(wù)中,NoLan同樣展現(xiàn)出色表現(xiàn)。在MathVision數(shù)據(jù)集的測試中,使用NoLan的AI系統(tǒng)在代數(shù)、幾何、邏輯推理等多個(gè)數(shù)學(xué)領(lǐng)域都有明顯提升。這表明NoLan不僅能改善簡單的物體識(shí)別,還能提升需要復(fù)雜推理的高級認(rèn)知任務(wù)。

研究團(tuán)隊(duì)進(jìn)行的不確定性分析顯示,NoLan不僅減少了幻覺,還提高了AI系統(tǒng)的整體可信度。通過熵值分析,他們發(fā)現(xiàn)使用NoLan的系統(tǒng)在做出判斷時(shí)更加確信,減少了模棱兩可的回答。這就像是一個(gè)原本猶豫不決的人變得更加果斷和自信。

在與基于注意力機(jī)制的其他方法比較中,NoLan顯示出明顯優(yōu)勢。一些競爭方法試圖通過調(diào)整AI的注意力分布來改善表現(xiàn),但這些方法往往計(jì)算復(fù)雜且效果不穩(wěn)定。NoLan的對比解碼策略更加直接有效,就像用簡單明了的方法解決復(fù)雜問題。

研究團(tuán)隊(duì)還測試了NoLan在最新一代AI模型上的表現(xiàn)。在Qwen2-VL和Qwen2.5-VL等先進(jìn)模型上,NoLan依然能夠帶來顯著改善,證明了其強(qiáng)大的通用性和前瞻性。這意味著即使AI技術(shù)繼續(xù)快速發(fā)展,NoLan仍將保持其價(jià)值。

在資源消耗方面的詳細(xì)分析顯示,NoLan-Base平均每個(gè)詞元的處理時(shí)間為0.6075秒,內(nèi)存使用僅為13.59GB,明顯優(yōu)于其他對比方法。這種高效性使得NoLan可以在資源有限的環(huán)境中部署,擴(kuò)大了其應(yīng)用范圍。

說到底,這項(xiàng)研究解決了AI領(lǐng)域一個(gè)長期存在的關(guān)鍵問題。通過巧妙的設(shè)計(jì)和嚴(yán)格的驗(yàn)證,NoLan為我們提供了一個(gè)簡單而有效的工具,讓AI系統(tǒng)能夠更好地"實(shí)事求是",減少不必要的想象和編造。這不僅是技術(shù)上的進(jìn)步,更是向著更可靠、更值得信賴的人工智能邁出的重要一步。

對于普通用戶來說,這意味著未來我們使用的AI助手將更加準(zhǔn)確可靠。無論是讓AI描述照片內(nèi)容,還是回答關(guān)于圖像的問題,我們都能期待得到更加真實(shí)、準(zhǔn)確的答案。而對于開發(fā)者和研究者來說,NoLan提供了一個(gè)現(xiàn)成的解決方案,可以立即改善他們的系統(tǒng)表現(xiàn),無需復(fù)雜的重新設(shè)計(jì)或大量的額外投資。

這項(xiàng)研究的完整論文可以通過arXiv編號(hào)2602.22144v1查找獲取,研究代碼也將在GitHub上公開發(fā)布,讓更多的研究者和開發(fā)者能夠受益于這一創(chuàng)新成果。隨著NoLan技術(shù)的推廣應(yīng)用,我們有理由期待一個(gè)更加準(zhǔn)確、可靠的AI視覺語言模型時(shí)代的到來。

Q&A

Q1:NoLan是什么技術(shù)?

A:NoLan是新加坡國立大學(xué)開發(fā)的一種AI改進(jìn)技術(shù),專門解決視覺語言模型的"幻覺"問題。它通過對比AI看圖回答和不看圖回答的差異,來減少AI胡編亂造不存在物體的問題。就像給AI裝了個(gè)現(xiàn)實(shí)檢查器,讓它更依賴真實(shí)的視覺信息而非預(yù)設(shè)知識(shí)。

Q2:NoLan技術(shù)需要重新訓(xùn)練AI模型嗎?

A:不需要。NoLan最大的優(yōu)勢就是可以直接應(yīng)用到任何現(xiàn)有的視覺語言模型上,就像給汽車加裝導(dǎo)航系統(tǒng)一樣,不需要重新制造發(fā)動(dòng)機(jī)。這大大降低了應(yīng)用成本和技術(shù)門檻,讓現(xiàn)有的AI系統(tǒng)立即獲得改善。

Q3:NoLan技術(shù)的效果如何?

A:實(shí)驗(yàn)結(jié)果顯示,NoLan能將AI模型的準(zhǔn)確率提升6-8分,在某些測試中甚至提升超過8分。比如原本經(jīng)常說圖中有"手提箱"、"卡車"等不存在物體的AI,使用NoLan后能準(zhǔn)確描述圖片真實(shí)內(nèi)容,大幅減少了胡編亂造的問題。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場“社死”

回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場“社死”

就一點(diǎn)
2025-10-09 12:19:42
伊朗吃肉的時(shí)候,對中國防得嚴(yán)嚴(yán)實(shí)實(shí),生怕中國占一點(diǎn)便宜

伊朗吃肉的時(shí)候,對中國防得嚴(yán)嚴(yán)實(shí)實(shí),生怕中國占一點(diǎn)便宜

百態(tài)人間
2026-02-24 15:37:37
今年,北京已無離職潮

今年,北京已無離職潮

微微熱評
2026-03-01 18:45:40
挪動(dòng)一米就鎖死?國產(chǎn)五軸破局“電子手銬”,讓美日高傲變成廢鐵

挪動(dòng)一米就鎖死?國產(chǎn)五軸破局“電子手銬”,讓美日高傲變成廢鐵

通鑒史智
2026-02-02 16:14:26
把頂級外線大閘白送給了騎士,真不知道國王到底在想些什么?

把頂級外線大閘白送給了騎士,真不知道國王到底在想些什么?

稻谷與小麥
2026-03-02 22:40:20
西爾斯基官宣:烏軍挺過致命冬季,俄軍三個(gè)月折損近9.3萬

西爾斯基官宣:烏軍挺過致命冬季,俄軍三個(gè)月折損近9.3萬

老馬拉車莫少裝
2026-03-03 00:37:50
2026年春節(jié)剛過,國內(nèi)消費(fèi)4個(gè)“反常”現(xiàn)象,很多人沒注意

2026年春節(jié)剛過,國內(nèi)消費(fèi)4個(gè)“反?!爆F(xiàn)象,很多人沒注意

老特有話說
2026-03-02 14:35:48
太丟人了!米蘭這晚39歲楊冪讓全世界看到,內(nèi)娛85女頂在外零地位

太丟人了!米蘭這晚39歲楊冪讓全世界看到,內(nèi)娛85女頂在外零地位

小娛樂悠悠
2026-02-28 09:28:50
蘋果iPhone 17e看起來很像iPhone 16e 但會(huì)有多項(xiàng)升級

蘋果iPhone 17e看起來很像iPhone 16e 但會(huì)有多項(xiàng)升級

TechWeb
2026-03-02 12:50:12
拉屎拉到爽是一種什么體驗(yàn)?網(wǎng)友:直接拉了40厘米

拉屎拉到爽是一種什么體驗(yàn)?網(wǎng)友:直接拉了40厘米

華庭講美食
2026-03-02 13:25:52
“突然理解道明寺媽媽了”,高鐵上小少爺走紅,讓普通人看透現(xiàn)實(shí)

“突然理解道明寺媽媽了”,高鐵上小少爺走紅,讓普通人看透現(xiàn)實(shí)

妍妍教育日記
2026-02-28 17:41:50
特朗普同意對話,以色列卻再撂狠話,美以聯(lián)合行動(dòng)能持續(xù)多久?

特朗普同意對話,以色列卻再撂狠話,美以聯(lián)合行動(dòng)能持續(xù)多久?

新民晚報(bào)
2026-03-02 10:32:41
我見過最傻的父母,攥著大把的存款和退休金,卻等著給子女當(dāng)遺產(chǎn)

我見過最傻的父母,攥著大把的存款和退休金,卻等著給子女當(dāng)遺產(chǎn)

i書與房
2026-02-25 17:22:34
中戲新校長到任!60歲徐永勝臨危受命,從書記轉(zhuǎn)校長解鎖特殊使命

中戲新校長到任!60歲徐永勝臨危受命,從書記轉(zhuǎn)校長解鎖特殊使命

百家論大學(xué)
2026-03-02 21:50:47
“中方?jīng)]有提前得到通報(bào)”

“中方?jīng)]有提前得到通報(bào)”

澎湃新聞
2026-03-02 19:02:07
國際知名品牌宣布:關(guān)閉中國市場所有門店

國際知名品牌宣布:關(guān)閉中國市場所有門店

新快報(bào)新聞
2026-02-28 15:35:04
【2026.3.2】爆姐的飯后爆料:生命不止,爆料不息!

【2026.3.2】爆姐的飯后爆料:生命不止,爆料不息!

娛樂真爆姐
2026-03-02 23:25:47
戴旭:中美一旦發(fā)生戰(zhàn)爭,美國有實(shí)力將中國沿海城市打得稀巴爛?

戴旭:中美一旦發(fā)生戰(zhàn)爭,美國有實(shí)力將中國沿海城市打得稀巴爛?

二大爺觀世界
2026-01-16 03:04:40
CBA廣東VS新疆,崔永熙徐杰有望合體,杜鋒率豪華陣容沖開門紅

CBA廣東VS新疆,崔永熙徐杰有望合體,杜鋒率豪華陣容沖開門紅

二哥聊球
2026-03-02 14:37:54
美軍公布傷亡情況!伊朗向美航母發(fā)射4枚導(dǎo)彈,美軍:導(dǎo)彈甚至沒有接近航母,已擊沉一艘伊朗船只;朝鮮強(qiáng)烈譴責(zé)美以“流氓行徑”

美軍公布傷亡情況!伊朗向美航母發(fā)射4枚導(dǎo)彈,美軍:導(dǎo)彈甚至沒有接近航母,已擊沉一艘伊朗船只;朝鮮強(qiáng)烈譴責(zé)美以“流氓行徑”

每日經(jīng)濟(jì)新聞
2026-03-02 00:23:54
2026-03-03 02:08:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7408文章數(shù) 553關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

中國留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

頭條要聞

中國留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

藝術(shù)
家居
旅游
房產(chǎn)
健康

藝術(shù)要聞

這四位老人的花鳥畫,竟讓人欲罷不能!

家居要聞

萬物互聯(lián) 享科技福祉

旅游要聞

熱度飆升!非遺、冰雪…禹州元宵“文旅大餐”承包圓滿佳節(jié)!

房產(chǎn)要聞

方案突然曝光!??诒睅煷蟾叫?,又有書包大盤殺出!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

無障礙瀏覽 進(jìn)入關(guān)懷版