網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

開放數(shù)據(jù)研究所發(fā)現(xiàn)大語言模型在公共服務信息上不可靠

2026-02-13 23:06:06　來源: 至頂頭條

北京舉報

分享至

開放數(shù)據(jù)研究所（ODI）的一項研究發(fā)現(xiàn)，主流大語言模型無法為醫(yī)療、稅務和福利等關(guān)鍵公共服務提供可靠信息。

研究基于超過22000個大語言模型提示進行，這些提示旨在反映人們向生成式AI聊天機器人可能提出的問題類型，例如"我如何申請全民信貸？"。研究結(jié)果引發(fā)了對聊天機器人能否被信任提供準確政府服務信息的擔憂。

該研究發(fā)布時正值英國政府宣布與Meta和Anthropic建立合作關(guān)系，開發(fā)用于導航公共服務的AI智能體。

ODI研究主任埃琳娜·辛珀爾表示："如果大語言模型要在面向公民的服務中安全使用，我們需要了解這項技術(shù)在哪些方面可以信任，在哪些方面不能信任。"

研究將包括Anthropic的Claude-4.5-Haiku、Google的Gemini-3-Flash和OpenAI的ChatGPT-4o等模型的回答與官方政府來源直接比較。

結(jié)果顯示許多回答正確，但質(zhì)量存在顯著差異，特別是對于專業(yè)或不常見的查詢。研究還顯示，聊天機器人很少承認不知道問題答案，即使回答不完整或錯誤，也會嘗試回答每個查詢。

掩埋關(guān)鍵事實

聊天機器人還經(jīng)常提供冗長的回答，掩埋關(guān)鍵事實或超出政府網(wǎng)站提供的信息范圍，增加了不準確的風險。

Meta的Llama 3.1 8B聲稱，在孩子的出生證明上添加前伴侶姓名需要法院命令。如果遵循這一建議，將導致不必要的壓力和經(jīng)濟成本。

ChatGPT-OSS-20B錯誤地建議，照顧父母已故兒童的人只有在成為已故兒童的監(jiān)護人時才有資格獲得監(jiān)護人津貼。它還錯誤地聲明，如果申請人為該兒童接受其他福利，則不符合條件。

辛珀爾表示，對于公民而言，研究強調(diào)了AI素養(yǎng)的重要性，而對于設計公共服務的人員來說，"考慮到技術(shù)發(fā)展速度，建議在匆忙采用大型或昂貴模型時保持謹慎，這些模型強調(diào)供應商鎖定的必要性。我們還需要更多獨立基準、更多公共測試，以及更多關(guān)于如何使這些系統(tǒng)產(chǎn)生精確可靠答案的研究。"

2月3日發(fā)布的第二份國際AI安全報告對AI智能體系統(tǒng)可靠性得出了類似結(jié)論。報告指出，雖然自2025年安全報告以來，在回憶事實信息方面有所改進，"但即使是領(lǐng)先模型仍以顯著比例給出自信但錯誤的答案"。

遵循錯誤建議

報告還發(fā)現(xiàn)用戶普遍傾向于遵循自動化系統(tǒng)（包括聊天機器人）的錯誤建議，"因為他們忽略了錯誤信號，或者認為自動化系統(tǒng)比自己的判斷更優(yōu)秀"。

ODI的研究還挑戰(zhàn)了更大、更資源密集的模型總是更適合公共部門的觀念，在許多情況下，較小模型以比ChatGPT等大型閉源模型更低的成本提供了相當?shù)慕Y(jié)果。

辛珀爾警告政府應避免在模型在價格或基準測試中暫時超越彼此時鎖定長期合同。

在ODI研究發(fā)布活動上，F(xiàn)ull Fact AI負責人安德魯·達德菲爾德評論說，由于政府立場是支持創(chuàng)新的，監(jiān)管目前圍繞原則而非詳細規(guī)則制定。

"英國采用AI的速度可能比學會如何使用它的速度更快，特別是在問責制方面，"他說。

可信度

達德菲爾德指出，這項工作引人注目的原因在于它關(guān)注真實用戶需求，但可信度需要從依賴信息的人的角度評估，而不是從展示技術(shù)能力的角度。

"真正的風險不僅是幻覺，還有人們對聽起來合理的回答的信任程度，"她說。

在同一活動中被問及政府應該構(gòu)建自己的系統(tǒng)還是依賴商業(yè)工具時，貝內(nèi)特公共政策學院研究員理查德·波普說，政府需要"對依賴性和主權(quán)保持謹慎"。

"AI項目應該從小規(guī)模開始，逐步發(fā)展并分享他們學到的東西，"他說，并補充說公共部門項目應該優(yōu)先考慮學習和開放性，而不是快速擴張。

辛珀爾強調(diào)，AI創(chuàng)造了為不同語言或理解水平定制信息的潛力，但這些機會"需要被塑造，而不是任其自然發(fā)展"。

隨著每周都有新的AI模型發(fā)布，2026年1月的Gartner研究發(fā)現(xiàn)，AI系統(tǒng)產(chǎn)生的大量未驗證和低質(zhì)量數(shù)據(jù)對大語言模型的可靠性構(gòu)成了明顯且現(xiàn)實的威脅。

大語言模型使用從網(wǎng)絡、書籍、研究論文和代碼庫抓取的數(shù)據(jù)進行訓練。雖然許多這些來源已經(jīng)包含AI生成的數(shù)據(jù)，但按照目前的擴張速度，它們可能都會被AI生成的內(nèi)容填充。

Gartner強調(diào)，隨著AI生成數(shù)據(jù)量的增長，未來的大語言模型將越來越多地使用當前模型的輸出進行訓練，存在模型在自身幻覺和不準確現(xiàn)實累積重壓下完全崩潰的風險。

管理副總裁萬慧嬋表示，組織不能再隱含地信任數(shù)據(jù)，或假設數(shù)據(jù)甚至是人類生成的。

萬慧嬋補充說，隨著AI生成數(shù)據(jù)變得更加普遍，許多地區(qū)對驗證"AI無關(guān)"數(shù)據(jù)的監(jiān)管要求將會加強。

Q&A

Q1：大語言模型在提供公共服務信息方面存在什么問題？

A：開放數(shù)據(jù)研究所研究發(fā)現(xiàn)，主流大語言模型無法為醫(yī)療、稅務和福利等關(guān)鍵公共服務提供可靠信息。模型回答質(zhì)量存在顯著差異，特別是對專業(yè)或不常見查詢，且很少承認不知道答案，即使回答錯誤也會嘗試回答每個問題。

Q2：聊天機器人提供政府服務信息時會出現(xiàn)哪些具體錯誤？

A：研究顯示聊天機器人經(jīng)常提供冗長回答掩埋關(guān)鍵事實，或超出政府網(wǎng)站信息范圍。例如Meta的Llama模型錯誤聲稱添加前伴侶姓名到出生證明需要法院命令，ChatGPT模型對監(jiān)護人津貼申請條件給出錯誤建議。

Q3：如何應對大語言模型在公共服務中的可靠性問題？

A：專家建議政府在采用AI技術(shù)時保持謹慎，避免鎖定長期合同，需要更多獨立基準和公共測試。AI項目應從小規(guī)模開始逐步發(fā)展，優(yōu)先考慮學習和開放性。同時強調(diào)AI素養(yǎng)的重要性，用戶需要從依賴信息者角度評估可信度。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.