国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

開放數(shù)據(jù)研究所發(fā)現(xiàn)大語言模型在公共服務信息上不可靠

0
分享至


開放數(shù)據(jù)研究所(ODI)的一項研究發(fā)現(xiàn),主流大語言模型無法為醫(yī)療、稅務和福利等關(guān)鍵公共服務提供可靠信息。

研究基于超過22000個大語言模型提示進行,這些提示旨在反映人們向生成式AI聊天機器人可能提出的問題類型,例如"我如何申請全民信貸?"。研究結(jié)果引發(fā)了對聊天機器人能否被信任提供準確政府服務信息的擔憂。

該研究發(fā)布時正值英國政府宣布與Meta和Anthropic建立合作關(guān)系,開發(fā)用于導航公共服務的AI智能體。

ODI研究主任埃琳娜·辛珀爾表示:"如果大語言模型要在面向公民的服務中安全使用,我們需要了解這項技術(shù)在哪些方面可以信任,在哪些方面不能信任。"

研究將包括Anthropic的Claude-4.5-Haiku、Google的Gemini-3-Flash和OpenAI的ChatGPT-4o等模型的回答與官方政府來源直接比較。

結(jié)果顯示許多回答正確,但質(zhì)量存在顯著差異,特別是對于專業(yè)或不常見的查詢。研究還顯示,聊天機器人很少承認不知道問題答案,即使回答不完整或錯誤,也會嘗試回答每個查詢。

掩埋關(guān)鍵事實

聊天機器人還經(jīng)常提供冗長的回答,掩埋關(guān)鍵事實或超出政府網(wǎng)站提供的信息范圍,增加了不準確的風險。

Meta的Llama 3.1 8B聲稱,在孩子的出生證明上添加前伴侶姓名需要法院命令。如果遵循這一建議,將導致不必要的壓力和經(jīng)濟成本。

ChatGPT-OSS-20B錯誤地建議,照顧父母已故兒童的人只有在成為已故兒童的監(jiān)護人時才有資格獲得監(jiān)護人津貼。它還錯誤地聲明,如果申請人為該兒童接受其他福利,則不符合條件。

辛珀爾表示,對于公民而言,研究強調(diào)了AI素養(yǎng)的重要性,而對于設計公共服務的人員來說,"考慮到技術(shù)發(fā)展速度,建議在匆忙采用大型或昂貴模型時保持謹慎,這些模型強調(diào)供應商鎖定的必要性。我們還需要更多獨立基準、更多公共測試,以及更多關(guān)于如何使這些系統(tǒng)產(chǎn)生精確可靠答案的研究。"

2月3日發(fā)布的第二份國際AI安全報告對AI智能體系統(tǒng)可靠性得出了類似結(jié)論。報告指出,雖然自2025年安全報告以來,在回憶事實信息方面有所改進,"但即使是領(lǐng)先模型仍以顯著比例給出自信但錯誤的答案"。

遵循錯誤建議

報告還發(fā)現(xiàn)用戶普遍傾向于遵循自動化系統(tǒng)(包括聊天機器人)的錯誤建議,"因為他們忽略了錯誤信號,或者認為自動化系統(tǒng)比自己的判斷更優(yōu)秀"。

ODI的研究還挑戰(zhàn)了更大、更資源密集的模型總是更適合公共部門的觀念,在許多情況下,較小模型以比ChatGPT等大型閉源模型更低的成本提供了相當?shù)慕Y(jié)果。

辛珀爾警告政府應避免在模型在價格或基準測試中暫時超越彼此時鎖定長期合同。

在ODI研究發(fā)布活動上,F(xiàn)ull Fact AI負責人安德魯·達德菲爾德評論說,由于政府立場是支持創(chuàng)新的,監(jiān)管目前圍繞原則而非詳細規(guī)則制定。

"英國采用AI的速度可能比學會如何使用它的速度更快,特別是在問責制方面,"他說。

可信度

達德菲爾德指出,這項工作引人注目的原因在于它關(guān)注真實用戶需求,但可信度需要從依賴信息的人的角度評估,而不是從展示技術(shù)能力的角度。

"真正的風險不僅是幻覺,還有人們對聽起來合理的回答的信任程度,"她說。

在同一活動中被問及政府應該構(gòu)建自己的系統(tǒng)還是依賴商業(yè)工具時,貝內(nèi)特公共政策學院研究員理查德·波普說,政府需要"對依賴性和主權(quán)保持謹慎"。

"AI項目應該從小規(guī)模開始,逐步發(fā)展并分享他們學到的東西,"他說,并補充說公共部門項目應該優(yōu)先考慮學習和開放性,而不是快速擴張。

辛珀爾強調(diào),AI創(chuàng)造了為不同語言或理解水平定制信息的潛力,但這些機會"需要被塑造,而不是任其自然發(fā)展"。

隨著每周都有新的AI模型發(fā)布,2026年1月的Gartner研究發(fā)現(xiàn),AI系統(tǒng)產(chǎn)生的大量未驗證和低質(zhì)量數(shù)據(jù)對大語言模型的可靠性構(gòu)成了明顯且現(xiàn)實的威脅。

大語言模型使用從網(wǎng)絡、書籍、研究論文和代碼庫抓取的數(shù)據(jù)進行訓練。雖然許多這些來源已經(jīng)包含AI生成的數(shù)據(jù),但按照目前的擴張速度,它們可能都會被AI生成的內(nèi)容填充。

Gartner強調(diào),隨著AI生成數(shù)據(jù)量的增長,未來的大語言模型將越來越多地使用當前模型的輸出進行訓練,存在模型在自身幻覺和不準確現(xiàn)實累積重壓下完全崩潰的風險。

管理副總裁萬慧嬋表示,組織不能再隱含地信任數(shù)據(jù),或假設數(shù)據(jù)甚至是人類生成的。

萬慧嬋補充說,隨著AI生成數(shù)據(jù)變得更加普遍,許多地區(qū)對驗證"AI無關(guān)"數(shù)據(jù)的監(jiān)管要求將會加強。

Q&A

Q1:大語言模型在提供公共服務信息方面存在什么問題?

A:開放數(shù)據(jù)研究所研究發(fā)現(xiàn),主流大語言模型無法為醫(yī)療、稅務和福利等關(guān)鍵公共服務提供可靠信息。模型回答質(zhì)量存在顯著差異,特別是對專業(yè)或不常見查詢,且很少承認不知道答案,即使回答錯誤也會嘗試回答每個問題。

Q2:聊天機器人提供政府服務信息時會出現(xiàn)哪些具體錯誤?

A:研究顯示聊天機器人經(jīng)常提供冗長回答掩埋關(guān)鍵事實,或超出政府網(wǎng)站信息范圍。例如Meta的Llama模型錯誤聲稱添加前伴侶姓名到出生證明需要法院命令,ChatGPT模型對監(jiān)護人津貼申請條件給出錯誤建議。

Q3:如何應對大語言模型在公共服務中的可靠性問題?

A:專家建議政府在采用AI技術(shù)時保持謹慎,避免鎖定長期合同,需要更多獨立基準和公共測試。AI項目應從小規(guī)模開始逐步發(fā)展,優(yōu)先考慮學習和開放性。同時強調(diào)AI素養(yǎng)的重要性,用戶需要從依賴信息者角度評估可信度。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
陳幸同遭遇1比4慘敗,被對手完全壓制,中國女單主力壓力倍增

陳幸同遭遇1比4慘敗,被對手完全壓制,中國女單主力壓力倍增

卿子書
2026-02-25 08:41:09
頭號怨種出現(xiàn)了!僅僅晚5秒過出口,一浙C牌車繳納1384.9元高速費

頭號怨種出現(xiàn)了!僅僅晚5秒過出口,一浙C牌車繳納1384.9元高速費

火山詩話
2026-02-25 10:53:39
重慶女游客在河南中靈山失聯(lián)10日后遺體被找到,家屬發(fā)聲

重慶女游客在河南中靈山失聯(lián)10日后遺體被找到,家屬發(fā)聲

極目新聞
2026-02-25 11:27:08
AI會增加人類智商!清華大學專家:未來10年一周只需工作2天 工資還會變高

AI會增加人類智商!清華大學專家:未來10年一周只需工作2天 工資還會變高

快科技
2026-02-25 09:51:29
中紀委怒批:公務員也是人,正常生活不應問責處理!

中紀委怒批:公務員也是人,正常生活不應問責處理!

霹靂炮
2026-02-24 22:17:54
詹姆斯:東契奇最后機會不錯沒找好節(jié)奏 我接球后也有點失去平衡

詹姆斯:東契奇最后機會不錯沒找好節(jié)奏 我接球后也有點失去平衡

羅說NBA
2026-02-25 14:53:00
華為確實是出現(xiàn)了嚴重的問題,只是至今官方還沒有公開承認

華為確實是出現(xiàn)了嚴重的問題,只是至今官方還沒有公開承認

雪中風車
2026-02-22 20:18:26
鬧麻了,過年親戚送的禮不忍直視!網(wǎng)友:無良商家,你是真敢賣

鬧麻了,過年親戚送的禮不忍直視!網(wǎng)友:無良商家,你是真敢賣

夜深愛雜談
2026-02-24 20:53:23
難以置信!一深圳牌邁巴赫登熱搜,車尾箱堆滿土特產(chǎn),掛一籠土雞

難以置信!一深圳牌邁巴赫登熱搜,車尾箱堆滿土特產(chǎn),掛一籠土雞

火山詩話
2026-02-24 21:56:12
李嘉誠被踢出局!巴方強行接管港口,長和重磅發(fā)聲,釋放什么信號

李嘉誠被踢出局!巴方強行接管港口,長和重磅發(fā)聲,釋放什么信號

青橘罐頭
2026-02-25 07:19:36
女子高速堵車走國道偶遇10年沒見過面的初戀,一眼認出對方車牌,確認后互相打招呼

女子高速堵車走國道偶遇10年沒見過面的初戀,一眼認出對方車牌,確認后互相打招呼

大象新聞
2026-02-24 18:44:05
107票贊成,12票反對,聯(lián)大通過決議呼吁俄烏立即?;?!俄方反對,中美投棄權(quán)票!俄軍全線進攻,澤連斯基發(fā)聲,烏方公布對俄作戰(zhàn)3大目標

107票贊成,12票反對,聯(lián)大通過決議呼吁俄烏立即?;?!俄方反對,中美投棄權(quán)票!俄軍全線進攻,澤連斯基發(fā)聲,烏方公布對俄作戰(zhàn)3大目標

每日經(jīng)濟新聞
2026-02-25 13:01:16
上海富人家保姆狂偷戶主奢侈品,監(jiān)控流出評論區(qū)嚇傻了

上海富人家保姆狂偷戶主奢侈品,監(jiān)控流出評論區(qū)嚇傻了

不二表姐
2026-02-24 22:17:15
美參議員稱未來6個月這三國政府或被親美政權(quán)取代,外交部回應

美參議員稱未來6個月這三國政府或被親美政權(quán)取代,外交部回應

澎湃新聞
2026-02-25 15:24:28
全國統(tǒng)一執(zhí)行!3月1日起,公職人員戴上緊箍咒,老百姓迎來大便利

全國統(tǒng)一執(zhí)行!3月1日起,公職人員戴上緊箍咒,老百姓迎來大便利

墨蘭史書
2026-02-24 22:41:18
央視發(fā)聲!重慶烤全羊瘋狂宰客,官方曝光作案手段,老板麻煩大了

央視發(fā)聲!重慶烤全羊瘋狂宰客,官方曝光作案手段,老板麻煩大了

天天熱點見聞
2026-02-25 05:42:55
省委批準:開除焦衛(wèi)星黨籍!升正廳不到5個月落馬

省委批準:開除焦衛(wèi)星黨籍!升正廳不到5個月落馬

上觀新聞
2026-02-25 14:54:04
全國統(tǒng)一執(zhí)行!3月1日起,公職人員戴上緊箍咒,老百姓迎來大便利

全國統(tǒng)一執(zhí)行!3月1日起,公職人員戴上緊箍咒,老百姓迎來大便利

福建平子
2026-02-25 10:54:52
開油車的笑了,開電車的慌了?2026油電新政實錘,稅費規(guī)則全變了

開油車的笑了,開電車的慌了?2026油電新政實錘,稅費規(guī)則全變了

蜉蝣說
2026-02-25 09:20:25
紫牛頭條 | 全家出游老人服務區(qū)內(nèi)被狗撲咬骨折,犬主付千元后駕車離開,警方已立案

紫牛頭條 | 全家出游老人服務區(qū)內(nèi)被狗撲咬骨折,犬主付千元后駕車離開,警方已立案

揚子晚報
2026-02-24 23:56:16
2026-02-25 16:32:49
至頂頭條 incentive-icons
至頂頭條
記錄和推動數(shù)字化創(chuàng)新
16259文章數(shù) 49691關(guān)注度
往期回顧 全部

科技要聞

“機器人只跳舞,沒什么用”

頭條要聞

中方就涉烏克蘭問題的決議草案投棄權(quán)票 中國代表發(fā)聲

頭條要聞

中方就涉烏克蘭問題的決議草案投棄權(quán)票 中國代表發(fā)聲

體育要聞

曝雄鹿計劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

娛樂要聞

撒貝寧到沈陽跑親戚 老婆李白模特身材

財經(jīng)要聞

GEO亂象:誰為AI營銷的泡沫買單?

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

時尚
旅游
教育
親子
公開課

普通人穿衣別太老氣橫秋!這些穿搭給你靈感,保暖耐看兩不誤

旅游要聞

櫻桃花開了!來烏當赴一場春暖花開之約

教育要聞

【調(diào)劑專區(qū)】26考研調(diào)劑信息第二彈

親子要聞

拇指發(fā)育不良是懷孕吃了雞爪?無理取鬧,無中生有,無稽之談

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版