国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

J.P.Morgan研究院發(fā)現(xiàn):讓AI少出錯的秘密藏在問題的說話方式里

0
分享至


這項由J.P.Morgan人工智能研究院主導的研究發(fā)表于2026年2月的arXiv預印本平臺,論文編號為2602.20300v1。有興趣深入了解的讀者可以通過該編號查詢完整論文內(nèi)容。

當你向ChatGPT或其他AI助手提問時,是否發(fā)現(xiàn)有時它會給出看似合理但實際錯誤的答案?這種現(xiàn)象被稱為"幻覺",就像AI在做白日夢一樣編造信息。J.P.Morgan的研究團隊決定從一個全新角度解決這個問題:既然我們無法完全阻止AI犯錯,那能否通過改變提問方式來降低出錯概率呢?

研究團隊花費大量時間分析了將近37萬個真實用戶提問,這些問題涵蓋了13個不同的問答數(shù)據(jù)集。他們的發(fā)現(xiàn)顛覆了許多人的認知:原來問題本身的"說話方式"會顯著影響AI的可靠性。這就像同一道數(shù)學題,用不同方式提問可能得到截然不同的答案質(zhì)量。

傳統(tǒng)上,人們認為AI出現(xiàn)幻覺主要是模型本身的缺陷,或者解碼策略有問題。但這項研究證明,問題的表達方式同樣重要。研究團隊從經(jīng)典語言學理論中汲取靈感,提出了一個大膽的觀點:聽者(包括AI模型)的回應很大程度上會受到問題形式的影響。

研究團隊開發(fā)了一套包含17個維度的問題特征分析系統(tǒng),就像給每個問題做了一次全面的"語言體檢"。這套系統(tǒng)能夠識別問題中的各種語言特征,比如句子結構復雜程度、詞匯稀有度、是否包含代詞指代、是否使用否定句、問題的可回答性以及意圖明確程度等等。

一、問題的"風險地貌":哪些說話方式讓AI更容易犯錯

通過對海量數(shù)據(jù)的分析,研究團隊繪制出了一幅詳細的"風險地貌圖"。這張圖清晰地顯示了不同類型的問題表達方式與AI出錯概率之間的關系,就像天氣預報圖一樣直觀。

研究發(fā)現(xiàn),某些語言特征確實會顯著增加AI產(chǎn)生幻覺的風險。首先是"缺乏具體性"的問題,這類問題就像在茫茫大海中沒有燈塔指引。當你問"告訴我關于特斯拉的信息"時,AI可能不知道你指的是公司、汽車、股票還是那位發(fā)明家本人,這種模糊性會讓AI更容易編造信息。相反,如果你問"總結特斯拉公司2024年第四季度財報的五個要點",問題就變得具體明確,AI出錯的可能性會大大降低。

句子結構復雜性是另一個重要風險因素。復雜的從句嵌套就像俄羅斯套娃一樣,層層包裹讓AI難以準確理解真正的詢問重點。比如"如果試驗成功的話,根據(jù)那份泄露的備忘錄,哪些監(jiān)管機構會首先批準它"這樣的問題,包含了多個條件和修飾成分,增加了AI理解錯誤的可能性。

否定句的使用也會提高風險。人類大腦處理否定信息本身就需要額外的認知資源,AI同樣如此。當問題中包含"不是"、"沒有"、"并非"等否定詞時,AI更容易在邏輯推理中出現(xiàn)偏差。

令人意外的是,一些傳統(tǒng)上被認為會困擾人類理解的語言特征,對AI的影響卻相對較小。比如罕見詞匯、最高級表達、復雜否定等,雖然可能讓人類讀者感到困惑,但AI似乎能夠較好地處理這些情況。這表明人類和AI的"困難點"并不完全相同。

二、什么樣的問題讓AI更可靠

研究同時揭示了哪些問題特征能夠降低AI出錯的風險。意圖明確的問題就像給AI一張清晰的地圖,讓它知道確切的目標在哪里。當你在問題中明確使用"總結"、"比較"、"提取"、"分類"等動詞時,AI就能更準確地理解你的需求。

可回答性是另一個關鍵的保護因素。那些基于現(xiàn)有信息能夠給出明確答案的問題,比如"《路》這本書的作者是誰"或"17×19等于多少",AI幾乎不會出錯。相反,那些需要主觀判斷或預測未來的問題,比如"我應該搬到紐約嗎"或"X股票下個月會崩盤嗎",AI更容易產(chǎn)生不可靠的回答。

有趣的是,研究還發(fā)現(xiàn)句子長度和結構復雜性之間存在微妙的平衡關系。適度的長度和結構復雜性實際上能夠提供更多上下文信息,幫助AI更好地理解問題。這就像烹飪時的調(diào)料,太少缺乏味道,太多則會掩蓋本味,適量使用才能達到最佳效果。

三、不同任務類型的風險模式

研究團隊分析了三種不同的任務類型,發(fā)現(xiàn)它們展現(xiàn)出截然不同的風險模式。提取式任務就像從文章中找特定信息,由于有明確的參考材料,AI很少出現(xiàn)幻覺。大多數(shù)這類問題都被歸類為"安全"級別。

選擇題任務介于中等風險水平。這類任務的特點是有干擾選項的存在,AI需要在多個備選答案中做出選擇。雖然有一定的約束性,但干擾項的存在確實會增加AI犯錯的可能性。

抽象式任務的風險最高,這類任務缺乏外部參考材料,完全依賴AI的內(nèi)部知識儲備。當被要求總結、分析或創(chuàng)造性回答時,AI更容易"天馬行空",產(chǎn)生看似合理但實際錯誤的內(nèi)容。研究顯示,這類任務中有44.5%被標記為"高風險"。

更有趣的是,研究發(fā)現(xiàn)問題長度與風險之間存在依賴于任務類型的關系。在抽象式任務中,問題越長,AI出錯的概率越高,這種關系呈現(xiàn)出明顯的上升趨勢。而在提取式任務中,問題長度對風險的影響微乎其微,風險水平始終保持在較低水平。

四、語言特征的相互關系網(wǎng)絡

通過深入分析,研究團隊發(fā)現(xiàn)這17個語言特征并非獨立存在,而是形成了復雜的相互關系網(wǎng)絡。這些特征可以大致分為幾個主要群組,每個群組內(nèi)的特征往往同時出現(xiàn),共同影響AI的表現(xiàn)。

語法復雜性群組包括問題長度、依賴深度、解析樹高度和從句數(shù)量等特征。這些特征高度相關,形成了一個緊密的特征集合。有趣的是,這個群組與AI幻覺風險呈現(xiàn)負相關關系,這意味著適度的語法復雜性實際上能提供更豐富的上下文信息,幫助AI更好地理解問題。

語義基礎群組包括意圖明確性、可回答性和上下文約束等特征。這個群組與較低的幻覺風險密切相關,證實了語義清晰性對AI可靠性的重要作用。

模糊性群組包括缺乏具體性、問題場景不匹配、多義詞和語用特征等。這個群組中的特征經(jīng)常一起出現(xiàn),共同增加AI產(chǎn)生幻覺的風險。

五、實用的問題優(yōu)化策略

基于這些發(fā)現(xiàn),研究團隊提出了三個簡單但有效的問題優(yōu)化原則。第一個原則是增加消歧約束,具體來說就是在問題中明確時間、地點和實體信息。與其問"告訴我關于Java的信息",不如問"解釋Java編程語言的主要特性"。

第二個原則是明確表達意圖。在問題中使用明確的動詞,比如"總結"、"比較"、"提取"、"驗證"等,讓AI知道你期望什么樣的回答形式。這就像給廚師一份詳細的菜譜,而不是簡單說"做點好吃的"。

第三個原則是預先解決多義性問題。當問題中包含可能有多重含義的詞匯時,要提前進行澄清。比如問"比較Python和Java在Web開發(fā)中的優(yōu)劣",而不是簡單問"Python和Java哪個更好"。

這些策略的應用效果在研究中得到了驗證。通過對高風險問題進行重寫優(yōu)化,可以顯著降低AI產(chǎn)生幻覺的概率。重要的是,這些優(yōu)化策略不需要修改AI模型本身,只需要用戶在提問時稍加注意即可。

六、跨數(shù)據(jù)集的穩(wěn)定性驗證

為了確保研究結果的可靠性,研究團隊采用了"留一數(shù)據(jù)集"的交叉驗證方法。這種方法就像輪流讓每個數(shù)據(jù)集"坐冷板凳",用其余數(shù)據(jù)集訓練模型,然后測試在"坐冷板凳"的數(shù)據(jù)集上的表現(xiàn)。

驗證結果令人鼓舞:所有主要發(fā)現(xiàn)在不同數(shù)據(jù)集上都保持了一致性。缺乏具體性、句子復雜性和問題場景不匹配始終與較高的幻覺風險相關,而可回答性和意圖明確性始終起到保護作用。這種跨數(shù)據(jù)集的穩(wěn)定性表明,研究發(fā)現(xiàn)的"風險地貌"具有普遍適用性,而不僅僅是特定數(shù)據(jù)集的偶然現(xiàn)象。

特別值得注意的是,即使在不同的應用領域和問題類型中,這些語言特征與AI可靠性之間的關系依然保持穩(wěn)定。這為制定通用的問題優(yōu)化指南提供了堅實的基礎。

七、模型校準和預測能力

研究團隊還驗證了他們開發(fā)的風險預測模型的準確性。通過可靠性曲線分析,他們發(fā)現(xiàn)模型能夠很好地校準風險預測,也就是說,當模型預測某個問題有70%的風險時,實際風險確實接近70%。

這種校準能力使得風險預測系統(tǒng)具有實用價值。用戶或系統(tǒng)可以在AI回答問題之前,先評估問題的風險等級,對于高風險問題采取額外的驗證措施,或者引導用戶重新表述問題。

模型的預測能力在不同特征層次上都表現(xiàn)出色。無論是針對單個特征的影響,還是多個特征的組合效應,模型都能提供可靠的風險評估。這為開發(fā)實時的問題質(zhì)量檢測工具奠定了基礎。

八、領域特異性的有趣發(fā)現(xiàn)

研究中一個令人意外的發(fā)現(xiàn)是領域特異性特征的表現(xiàn)。傳統(tǒng)觀點認為,專業(yè)領域的問題會增加AI出錯的風險,因為這些問題需要專業(yè)知識。然而,研究結果顯示,領域特異性與幻覺風險之間的關系是混合的,很大程度上取決于AI模型對特定領域的熟悉程度。

在AI訓練數(shù)據(jù)中常見的領域,比如計算機科學和數(shù)學,專業(yè)性問題的風險相對較低。而在訓練數(shù)據(jù)中較少涉及的領域,專業(yè)性問題確實會增加風險。這一發(fā)現(xiàn)提醒我們,AI的可靠性不僅取決于問題的表達方式,也與其知識儲備的深度和廣度密切相關。

這個發(fā)現(xiàn)對實際應用具有重要意義。在使用AI處理專業(yè)領域問題時,用戶需要特別注意該領域是否在AI的"舒適區(qū)"內(nèi),并相應調(diào)整對答案可靠性的期望。

九、未來應用前景

這項研究的成果已經(jīng)為開發(fā)更智能的AI交互系統(tǒng)鋪平了道路。研究團隊設想的應用場景包括實時問題風險評估、自動問題重寫建議和智能問題路由等功能。

實時風險評估功能就像一個智能的"問題顧問",在用戶提交問題之前就能預測AI回答的可靠性。對于高風險問題,系統(tǒng)可以提醒用戶需要額外驗證,或者建議使用其他信息源進行交叉驗證。

自動問題重寫功能更進一步,它不僅能識別風險,還能主動建議更好的表達方式。比如,當用戶輸入模糊的問題時,系統(tǒng)可以建議幾種更具體、更明確的表達方式供用戶選擇。

智能問題路由功能可以根據(jù)問題的特征和風險等級,將其分配給最適合的處理方式。低風險問題可以直接交給AI處理,中等風險問題可能需要檢索增強,而高風險問題可能需要人工審核或者引導用戶提供更多上下文信息。

說到底,這項研究揭示了一個簡單而深刻的道理:與AI對話的藝術不僅僅在于擁有正確的信息,更在于用正確的方式提出問題。就像與人交流一樣,清晰、具體、有目的的表達總是能獲得更好的回應。隨著AI技術的不斷發(fā)展,掌握這種"提問的藝術"將成為每個人都需要學習的重要技能。這項研究不僅為我們理解AI的工作機制提供了新視角,更為我們在AI時代的有效溝通提供了實用指南。通過簡單地改變我們的提問方式,我們就能顯著提高AI助手的可靠性,讓人機協(xié)作變得更加高效和可信。研究團隊的工作證明,有時候解決復雜技術問題的鑰匙,竟然就藏在我們?nèi)粘UZ言使用的細節(jié)之中。

Q&A

Q1:什么語言特征會讓AI更容易產(chǎn)生錯誤回答?

A:主要有三類風險特征。首先是缺乏具體性,比如問"告訴我關于特斯拉的信息"而不明確指公司、汽車還是發(fā)明家。其次是復雜的句子結構,包含多層嵌套從句會讓AI難以理解重點。第三是使用否定句,"不是"、"沒有"等否定詞會增加AI邏輯推理出錯的可能性。

Q2:如何通過改變提問方式來提高AI回答的準確性?

A:有三個簡單有效的原則。首先是增加具體約束,明確時間、地點、實體信息,比如問"總結特斯拉公司2024年第四季度財報要點"而不是泛泛詢問。其次是明確表達意圖,使用"總結"、"比較"、"提取"等明確動詞。最后是預先解決多義性,當詞匯可能有多重含義時要提前澄清。

Q3:不同類型的AI任務哪種最容易出錯?

A:抽象式任務風險最高,有44.5%被標記為高風險,因為缺乏外部參考材料,完全依賴AI內(nèi)部知識。提取式任務風險最低,因為有明確參考材料支撐。選擇題任務介于中等風險水平,雖有約束但干擾選項會增加出錯可能。問題長度在抽象式任務中會顯著增加風險,而在提取式任務中影響很小。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
贏7分!楊毅卻批評主教練郭士強:將中國男籃的優(yōu)勢給丟了

贏7分!楊毅卻批評主教練郭士強:將中國男籃的優(yōu)勢給丟了

體育哲人
2026-03-01 22:40:43
最新戰(zhàn)況:伊朗與多支武裝協(xié)同反擊,美以遭重創(chuàng)

最新戰(zhàn)況:伊朗與多支武裝協(xié)同反擊,美以遭重創(chuàng)

兵國大事
2026-03-01 21:11:10
去年漲價3次,今年突然集體降價!多個品牌陸續(xù)宣布,網(wǎng)友:再等等,還會降

去年漲價3次,今年突然集體降價!多個品牌陸續(xù)宣布,網(wǎng)友:再等等,還會降

佛山電視臺小強熱線
2026-03-02 19:30:36
伊朗的援軍到了!以色列再征兵10萬,關鍵時刻,普京對中國做承諾

伊朗的援軍到了!以色列再征兵10萬,關鍵時刻,普京對中國做承諾

軍機Talk
2026-03-02 09:50:33
伊朗稱美軍在中東遭受重大傷亡 美中央司令部否認

伊朗稱美軍在中東遭受重大傷亡 美中央司令部否認

每日經(jīng)濟新聞
2026-03-02 09:33:24
伊朗的投降王牌:只要美國松綁,出賣中國利益絕不會有半點猶豫

伊朗的投降王牌:只要美國松綁,出賣中國利益絕不會有半點猶豫

老范談史
2026-02-28 06:45:51
誰能無悔?大羅后悔逼宮,卡卡承認選錯,連穆里尼奧都曾哭成淚人

誰能無悔?大羅后悔逼宮,卡卡承認選錯,連穆里尼奧都曾哭成淚人

足籃大世界
2026-03-01 15:34:01
伊朗反擊,不設紅線!以色列怎么也沒想到,自己才是最大冤大頭

伊朗反擊,不設紅線!以色列怎么也沒想到,自己才是最大冤大頭

肖茲探秘說
2026-03-01 23:30:08
貢獻一張上世紀90年代的美女照

貢獻一張上世紀90年代的美女照

TVB的四小花
2026-03-02 17:39:45
“生靈涂炭”,知名女主持人直播中落淚!連線時警報突然響起,網(wǎng)友紛紛祈愿……

“生靈涂炭”,知名女主持人直播中落淚!連線時警報突然響起,網(wǎng)友紛紛祈愿……

新民周刊
2026-03-02 16:00:18
唐尚珺也沒想到,他經(jīng)歷16次高考35歲才上岸,卻在直播間完成自救

唐尚珺也沒想到,他經(jīng)歷16次高考35歲才上岸,卻在直播間完成自救

法老不說教
2026-02-26 19:14:53
2026手機套餐新規(guī):老用戶多等7天,續(xù)約可省數(shù)百元

2026手機套餐新規(guī):老用戶多等7天,續(xù)約可省數(shù)百元

透視到底
2026-03-01 10:16:29
打伊朗就顧不上中國?特朗普這才意識到,這一仗美軍“打不起”

打伊朗就顧不上中國?特朗普這才意識到,這一仗美軍“打不起”

空天力量
2026-03-02 19:13:25
一年流出視頻294部的小寶到底探過多少朵花?

一年流出視頻294部的小寶到底探過多少朵花?

挪威森林
2026-01-25 17:18:42
林昀儒為何一局未贏?聽了他的總結,才明白如今王楚欽究竟有多強

林昀儒為何一局未贏?聽了他的總結,才明白如今王楚欽究竟有多強

陌識
2026-03-02 14:00:47
70%用戶表示“失去靈魂”,全新奧迪A6L:實力很強,口碑兩極分化

70%用戶表示“失去靈魂”,全新奧迪A6L:實力很強,口碑兩極分化

少數(shù)派報告Report
2026-03-02 11:43:10
趙本山近況曝光!68歲高齡現(xiàn)身美國加州,這狀態(tài)你敢信?

趙本山近況曝光!68歲高齡現(xiàn)身美國加州,這狀態(tài)你敢信?

手工制作阿殲
2026-03-01 16:51:57
武漢南三環(huán)堵到崩潰!官方終于出手:近中遠三階段治理方案來了

武漢南三環(huán)堵到崩潰!官方終于出手:近中遠三階段治理方案來了

好笑娛樂君每一天
2026-03-02 15:08:55
英媒:曼聯(lián)管理層對卡里克的轉(zhuǎn)正持謹慎態(tài)度

英媒:曼聯(lián)管理層對卡里克的轉(zhuǎn)正持謹慎態(tài)度

懂球帝
2026-03-02 18:56:06
為什么科學家說:如果宇宙中只有人類,比找到外星人更可怕?

為什么科學家說:如果宇宙中只有人類,比找到外星人更可怕?

觀察宇宙
2026-03-01 20:46:19
2026-03-02 20:16:50
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7408文章數(shù) 553關注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

美記者詢問就伊朗局勢中方會采取什么行動 外交部回應

頭條要聞

美記者詢問就伊朗局勢中方會采取什么行動 外交部回應

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財經(jīng)要聞

金銀大漲 市場仍在評估沖突會否長期化

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

健康
本地
數(shù)碼
房產(chǎn)
時尚

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

本地新聞

津南好·四時總相宜

數(shù)碼要聞

Anker安克MWC 2026推Soundcore多彩中端新品!

房產(chǎn)要聞

方案突然曝光!??诒睅煷蟾叫#钟袝蟊P殺出!

從每天只睡4小時到8小時:一個失眠者的自救指南

無障礙瀏覽 進入關懷版