J.P.Morgan研究院發(fā)現(xiàn)：讓AI少出錯的秘密藏在問題的說話方式里

2026-02-28 23:01:35　來源: 科技行者

北京舉報

分享至

這項由J.P.Morgan人工智能研究院主導的研究發(fā)表于2026年2月的arXiv預印本平臺，論文編號為2602.20300v1。有興趣深入了解的讀者可以通過該編號查詢完整論文內(nèi)容。

當你向ChatGPT或其他AI助手提問時，是否發(fā)現(xiàn)有時它會給出看似合理但實際錯誤的答案？這種現(xiàn)象被稱為"幻覺"，就像AI在做白日夢一樣編造信息。J.P.Morgan的研究團隊決定從一個全新角度解決這個問題：既然我們無法完全阻止AI犯錯，那能否通過改變提問方式來降低出錯概率呢？

研究團隊花費大量時間分析了將近37萬個真實用戶提問，這些問題涵蓋了13個不同的問答數(shù)據(jù)集。他們的發(fā)現(xiàn)顛覆了許多人的認知：原來問題本身的"說話方式"會顯著影響AI的可靠性。這就像同一道數(shù)學題，用不同方式提問可能得到截然不同的答案質(zhì)量。

傳統(tǒng)上，人們認為AI出現(xiàn)幻覺主要是模型本身的缺陷，或者解碼策略有問題。但這項研究證明，問題的表達方式同樣重要。研究團隊從經(jīng)典語言學理論中汲取靈感，提出了一個大膽的觀點：聽者（包括AI模型）的回應很大程度上會受到問題形式的影響。

研究團隊開發(fā)了一套包含17個維度的問題特征分析系統(tǒng)，就像給每個問題做了一次全面的"語言體檢"。這套系統(tǒng)能夠識別問題中的各種語言特征，比如句子結構復雜程度、詞匯稀有度、是否包含代詞指代、是否使用否定句、問題的可回答性以及意圖明確程度等等。

一、問題的"風險地貌"：哪些說話方式讓AI更容易犯錯

通過對海量數(shù)據(jù)的分析，研究團隊繪制出了一幅詳細的"風險地貌圖"。這張圖清晰地顯示了不同類型的問題表達方式與AI出錯概率之間的關系，就像天氣預報圖一樣直觀。

研究發(fā)現(xiàn)，某些語言特征確實會顯著增加AI產(chǎn)生幻覺的風險。首先是"缺乏具體性"的問題，這類問題就像在茫茫大海中沒有燈塔指引。當你問"告訴我關于特斯拉的信息"時，AI可能不知道你指的是公司、汽車、股票還是那位發(fā)明家本人，這種模糊性會讓AI更容易編造信息。相反，如果你問"總結特斯拉公司2024年第四季度財報的五個要點"，問題就變得具體明確，AI出錯的可能性會大大降低。

句子結構復雜性是另一個重要風險因素。復雜的從句嵌套就像俄羅斯套娃一樣，層層包裹讓AI難以準確理解真正的詢問重點。比如"如果試驗成功的話，根據(jù)那份泄露的備忘錄，哪些監(jiān)管機構會首先批準它"這樣的問題，包含了多個條件和修飾成分，增加了AI理解錯誤的可能性。

否定句的使用也會提高風險。人類大腦處理否定信息本身就需要額外的認知資源，AI同樣如此。當問題中包含"不是"、"沒有"、"并非"等否定詞時，AI更容易在邏輯推理中出現(xiàn)偏差。

令人意外的是，一些傳統(tǒng)上被認為會困擾人類理解的語言特征，對AI的影響卻相對較小。比如罕見詞匯、最高級表達、復雜否定等，雖然可能讓人類讀者感到困惑，但AI似乎能夠較好地處理這些情況。這表明人類和AI的"困難點"并不完全相同。

二、什么樣的問題讓AI更可靠

研究同時揭示了哪些問題特征能夠降低AI出錯的風險。意圖明確的問題就像給AI一張清晰的地圖，讓它知道確切的目標在哪里。當你在問題中明確使用"總結"、"比較"、"提取"、"分類"等動詞時，AI就能更準確地理解你的需求。

可回答性是另一個關鍵的保護因素。那些基于現(xiàn)有信息能夠給出明確答案的問題，比如"《路》這本書的作者是誰"或"17×19等于多少"，AI幾乎不會出錯。相反，那些需要主觀判斷或預測未來的問題，比如"我應該搬到紐約嗎"或"X股票下個月會崩盤嗎"，AI更容易產(chǎn)生不可靠的回答。

有趣的是，研究還發(fā)現(xiàn)句子長度和結構復雜性之間存在微妙的平衡關系。適度的長度和結構復雜性實際上能夠提供更多上下文信息，幫助AI更好地理解問題。這就像烹飪時的調(diào)料，太少缺乏味道，太多則會掩蓋本味，適量使用才能達到最佳效果。

三、不同任務類型的風險模式

研究團隊分析了三種不同的任務類型，發(fā)現(xiàn)它們展現(xiàn)出截然不同的風險模式。提取式任務就像從文章中找特定信息，由于有明確的參考材料，AI很少出現(xiàn)幻覺。大多數(shù)這類問題都被歸類為"安全"級別。

選擇題任務介于中等風險水平。這類任務的特點是有干擾選項的存在，AI需要在多個備選答案中做出選擇。雖然有一定的約束性，但干擾項的存在確實會增加AI犯錯的可能性。

抽象式任務的風險最高，這類任務缺乏外部參考材料，完全依賴AI的內(nèi)部知識儲備。當被要求總結、分析或創(chuàng)造性回答時，AI更容易"天馬行空"，產(chǎn)生看似合理但實際錯誤的內(nèi)容。研究顯示，這類任務中有44.5%被標記為"高風險"。

更有趣的是，研究發(fā)現(xiàn)問題長度與風險之間存在依賴于任務類型的關系。在抽象式任務中，問題越長，AI出錯的概率越高，這種關系呈現(xiàn)出明顯的上升趨勢。而在提取式任務中，問題長度對風險的影響微乎其微，風險水平始終保持在較低水平。

四、語言特征的相互關系網(wǎng)絡

通過深入分析，研究團隊發(fā)現(xiàn)這17個語言特征并非獨立存在，而是形成了復雜的相互關系網(wǎng)絡。這些特征可以大致分為幾個主要群組，每個群組內(nèi)的特征往往同時出現(xiàn)，共同影響AI的表現(xiàn)。

語法復雜性群組包括問題長度、依賴深度、解析樹高度和從句數(shù)量等特征。這些特征高度相關，形成了一個緊密的特征集合。有趣的是，這個群組與AI幻覺風險呈現(xiàn)負相關關系，這意味著適度的語法復雜性實際上能提供更豐富的上下文信息，幫助AI更好地理解問題。

語義基礎群組包括意圖明確性、可回答性和上下文約束等特征。這個群組與較低的幻覺風險密切相關，證實了語義清晰性對AI可靠性的重要作用。

模糊性群組包括缺乏具體性、問題場景不匹配、多義詞和語用特征等。這個群組中的特征經(jīng)常一起出現(xiàn)，共同增加AI產(chǎn)生幻覺的風險。

五、實用的問題優(yōu)化策略

基于這些發(fā)現(xiàn)，研究團隊提出了三個簡單但有效的問題優(yōu)化原則。第一個原則是增加消歧約束，具體來說就是在問題中明確時間、地點和實體信息。與其問"告訴我關于Java的信息"，不如問"解釋Java編程語言的主要特性"。

第二個原則是明確表達意圖。在問題中使用明確的動詞，比如"總結"、"比較"、"提取"、"驗證"等，讓AI知道你期望什么樣的回答形式。這就像給廚師一份詳細的菜譜，而不是簡單說"做點好吃的"。

第三個原則是預先解決多義性問題。當問題中包含可能有多重含義的詞匯時，要提前進行澄清。比如問"比較Python和Java在Web開發(fā)中的優(yōu)劣"，而不是簡單問"Python和Java哪個更好"。

這些策略的應用效果在研究中得到了驗證。通過對高風險問題進行重寫優(yōu)化，可以顯著降低AI產(chǎn)生幻覺的概率。重要的是，這些優(yōu)化策略不需要修改AI模型本身，只需要用戶在提問時稍加注意即可。

六、跨數(shù)據(jù)集的穩(wěn)定性驗證

為了確保研究結果的可靠性，研究團隊采用了"留一數(shù)據(jù)集"的交叉驗證方法。這種方法就像輪流讓每個數(shù)據(jù)集"坐冷板凳"，用其余數(shù)據(jù)集訓練模型，然后測試在"坐冷板凳"的數(shù)據(jù)集上的表現(xiàn)。

驗證結果令人鼓舞：所有主要發(fā)現(xiàn)在不同數(shù)據(jù)集上都保持了一致性。缺乏具體性、句子復雜性和問題場景不匹配始終與較高的幻覺風險相關，而可回答性和意圖明確性始終起到保護作用。這種跨數(shù)據(jù)集的穩(wěn)定性表明，研究發(fā)現(xiàn)的"風險地貌"具有普遍適用性，而不僅僅是特定數(shù)據(jù)集的偶然現(xiàn)象。

特別值得注意的是，即使在不同的應用領域和問題類型中，這些語言特征與AI可靠性之間的關系依然保持穩(wěn)定。這為制定通用的問題優(yōu)化指南提供了堅實的基礎。

七、模型校準和預測能力

研究團隊還驗證了他們開發(fā)的風險預測模型的準確性。通過可靠性曲線分析，他們發(fā)現(xiàn)模型能夠很好地校準風險預測，也就是說，當模型預測某個問題有70%的風險時，實際風險確實接近70%。

這種校準能力使得風險預測系統(tǒng)具有實用價值。用戶或系統(tǒng)可以在AI回答問題之前，先評估問題的風險等級，對于高風險問題采取額外的驗證措施，或者引導用戶重新表述問題。

模型的預測能力在不同特征層次上都表現(xiàn)出色。無論是針對單個特征的影響，還是多個特征的組合效應，模型都能提供可靠的風險評估。這為開發(fā)實時的問題質(zhì)量檢測工具奠定了基礎。

八、領域特異性的有趣發(fā)現(xiàn)

研究中一個令人意外的發(fā)現(xiàn)是領域特異性特征的表現(xiàn)。傳統(tǒng)觀點認為，專業(yè)領域的問題會增加AI出錯的風險，因為這些問題需要專業(yè)知識。然而，研究結果顯示，領域特異性與幻覺風險之間的關系是混合的，很大程度上取決于AI模型對特定領域的熟悉程度。

在AI訓練數(shù)據(jù)中常見的領域，比如計算機科學和數(shù)學，專業(yè)性問題的風險相對較低。而在訓練數(shù)據(jù)中較少涉及的領域，專業(yè)性問題確實會增加風險。這一發(fā)現(xiàn)提醒我們，AI的可靠性不僅取決于問題的表達方式，也與其知識儲備的深度和廣度密切相關。

這個發(fā)現(xiàn)對實際應用具有重要意義。在使用AI處理專業(yè)領域問題時，用戶需要特別注意該領域是否在AI的"舒適區(qū)"內(nèi)，并相應調(diào)整對答案可靠性的期望。

九、未來應用前景

這項研究的成果已經(jīng)為開發(fā)更智能的AI交互系統(tǒng)鋪平了道路。研究團隊設想的應用場景包括實時問題風險評估、自動問題重寫建議和智能問題路由等功能。

實時風險評估功能就像一個智能的"問題顧問"，在用戶提交問題之前就能預測AI回答的可靠性。對于高風險問題，系統(tǒng)可以提醒用戶需要額外驗證，或者建議使用其他信息源進行交叉驗證。

自動問題重寫功能更進一步，它不僅能識別風險，還能主動建議更好的表達方式。比如，當用戶輸入模糊的問題時，系統(tǒng)可以建議幾種更具體、更明確的表達方式供用戶選擇。

智能問題路由功能可以根據(jù)問題的特征和風險等級，將其分配給最適合的處理方式。低風險問題可以直接交給AI處理，中等風險問題可能需要檢索增強，而高風險問題可能需要人工審核或者引導用戶提供更多上下文信息。

說到底，這項研究揭示了一個簡單而深刻的道理：與AI對話的藝術不僅僅在于擁有正確的信息，更在于用正確的方式提出問題。就像與人交流一樣，清晰、具體、有目的的表達總是能獲得更好的回應。隨著AI技術的不斷發(fā)展，掌握這種"提問的藝術"將成為每個人都需要學習的重要技能。這項研究不僅為我們理解AI的工作機制提供了新視角，更為我們在AI時代的有效溝通提供了實用指南。通過簡單地改變我們的提問方式，我們就能顯著提高AI助手的可靠性，讓人機協(xié)作變得更加高效和可信。研究團隊的工作證明，有時候解決復雜技術問題的鑰匙，竟然就藏在我們?nèi)粘ＵZ言使用的細節(jié)之中。

Q&A

Q1：什么語言特征會讓AI更容易產(chǎn)生錯誤回答？

A：主要有三類風險特征。首先是缺乏具體性，比如問"告訴我關于特斯拉的信息"而不明確指公司、汽車還是發(fā)明家。其次是復雜的句子結構，包含多層嵌套從句會讓AI難以理解重點。第三是使用否定句，"不是"、"沒有"等否定詞會增加AI邏輯推理出錯的可能性。

Q2：如何通過改變提問方式來提高AI回答的準確性？

A：有三個簡單有效的原則。首先是增加具體約束，明確時間、地點、實體信息，比如問"總結特斯拉公司2024年第四季度財報要點"而不是泛泛詢問。其次是明確表達意圖，使用"總結"、"比較"、"提取"等明確動詞。最后是預先解決多義性，當詞匯可能有多重含義時要提前澄清。

Q3：不同類型的AI任務哪種最容易出錯？

A：抽象式任務風險最高，有44.5%被標記為高風險，因為缺乏外部參考材料，完全依賴AI內(nèi)部知識。提取式任務風險最低，因為有明確參考材料支撐。選擇題任務介于中等風險水平，雖有約束但干擾選項會增加出錯可能。問題長度在抽象式任務中會顯著增加風險，而在提取式任務中影響很小。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.