国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

AI聊天機器人越聊越“笨”?可能真不是錯覺

0
分享至

不知道大家有沒有這種感覺:和AI機器人短時間聊天的話還行,時間一長,就感覺對話開始變的前言不搭后語、邏輯不通。

其實這種感覺并不是錯覺。

最近,微軟發(fā)表的一項研究證實,即使是目前最先進的大語言模型,在多輪對話中的可靠性也會急劇下降。


研究人員對包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 和 Llama 4 在內的 15 款頂尖模型進行了超過 20 萬次模擬對話分析,揭示出一個被稱為“迷失會話”的系統(tǒng)性缺陷。


數(shù)據顯示,這些模型在單次提示任務中的成功率可達 90%,但當同樣的任務被拆解成多輪自然對話后,成功率驟降至約 65%。

研究指出,模型的核心能力僅降低約 15%,但“不可靠性”卻飆升 112%。

也就是說,AI 大模型仍然具備解決問題的能力,但在多輪對話中變得高度不穩(wěn)定,難以持續(xù)跟蹤上下文。


研究人員進一步分析了造成性能下降的行為機制。

首先是“過早生成”。模型在用戶尚未完整說明需求前就嘗試給出最終答案。一旦在早期回合中形成錯誤假設,模型后續(xù)便會在該錯誤的基礎上繼續(xù)推理,而不是隨著新信息的加入進行修正,從而導致錯誤逐步放大。

其次是“答案膨脹”。在多輪對話中,模型的回復長度比單輪對話增加了 20% 至 300%。更長的回答往往包含更多假設與“幻覺”,這些內容隨后被納入對話的持續(xù)上下文,從而進一步影響后續(xù)推理的準確性。


令人意外的是,即使是配備了額外“思考詞元”(thinking tokens)的新一代推理模型,如 OpenAI o3 和 DeepSeek R1,也未能顯著改善在多輪對話中的表現(xiàn)。

研究人員指出,現(xiàn)有的基準測試主要基于理想的單輪場景,忽略了模型在真實世界中的行為。

因此,對于那些依賴 AI 構建復雜對話流程或智能體的開發(fā)者而言,這一結論意味著未來將要接受嚴峻挑戰(zhàn)。


再來看看其他消息。

微軟日前測試 Windows 11 新版“畫圖”(Paint)應用,重點引入“自由旋轉”功能。

根據微軟官方描述,用戶現(xiàn)在可以全方位角度調整形狀、文本框以及任何活動的圖像選區(qū)。用戶選中對象后,其上方會出現(xiàn)一個“旋轉手柄”,用戶只需拖動該手柄即可向任意方向自由旋轉對象,從而實現(xiàn)更自然的構圖和布局。


除了直觀的手動拖拽,微軟還為需要高精度編輯的用戶提供了解決方案。在“旋轉”菜單下新增了“自定義旋轉”選項,用戶可以在此輸入具體的角度數(shù)值,實現(xiàn)精確到 1 度的微調。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
春節(jié)旅行,看完三亞賬單我沉默了:一家三口10天,燒掉一年血汗錢

春節(jié)旅行,看完三亞賬單我沉默了:一家三口10天,燒掉一年血汗錢

夜深愛雜談
2026-02-24 22:41:54
一如既往看空中國?高盛報告警示:經濟增長不等于老百姓普遍幸福

一如既往看空中國?高盛報告警示:經濟增長不等于老百姓普遍幸福

每日一段歷史
2026-02-25 12:59:28
“現(xiàn)在至少要10萬”,有人剛花11萬買進:這是剛需,不等了

“現(xiàn)在至少要10萬”,有人剛花11萬買進:這是剛需,不等了

最江陰
2026-02-24 19:15:01
緊急預警!81款耳機全淪陷,你戴的不是耳機,是“慢性毒藥”?

緊急預警!81款耳機全淪陷,你戴的不是耳機,是“慢性毒藥”?

戧詞奪理
2026-02-23 15:20:41
江蘇這么多年來一直沒意識到一個問題:蘇南根本輻射不了其他地方

江蘇這么多年來一直沒意識到一個問題:蘇南根本輻射不了其他地方

林子說事
2026-02-25 11:51:07
別再吹天生混血臉了,谷愛凌那一頭標志性的金發(fā)藏不住天然的黑發(fā)

別再吹天生混血臉了,谷愛凌那一頭標志性的金發(fā)藏不住天然的黑發(fā)

西樓知趣雜談
2026-02-24 16:14:33
外國人對中國國土面積有啥誤解?網友:梵蒂岡,就故宮一半大點

外國人對中國國土面積有啥誤解?網友:梵蒂岡,就故宮一半大點

帶你感受人間冷暖
2026-02-25 00:10:12
全網好奇,谷愛凌嘴里咬的東西是啥?

全網好奇,谷愛凌嘴里咬的東西是啥?

有意思報告
2026-02-25 12:25:30
快觀察|商務部出手,切斷日本軍工巨頭供應鏈,釋放什么信號?

快觀察|商務部出手,切斷日本軍工巨頭供應鏈,釋放什么信號?

上觀新聞
2026-02-25 18:19:28
平頂山打人事件的二次通報,看完讓人后背發(fā)涼

平頂山打人事件的二次通報,看完讓人后背發(fā)涼

清書先生
2026-02-25 17:01:07
韓“蛇蝎美人”在汽車旅館誘殺男子致2死1傷,首個受害者系男友,曾詢問AI如何殺人;案發(fā)后漲粉50倍,評論區(qū)被“顏值即正義”刷屏

韓“蛇蝎美人”在汽車旅館誘殺男子致2死1傷,首個受害者系男友,曾詢問AI如何殺人;案發(fā)后漲粉50倍,評論區(qū)被“顏值即正義”刷屏

大風新聞
2026-02-25 16:49:05
女子高速堵車走國道偶遇10年沒見過面的初戀,一眼認出對方車牌,確認后互相打招呼

女子高速堵車走國道偶遇10年沒見過面的初戀,一眼認出對方車牌,確認后互相打招呼

大象新聞
2026-02-24 18:44:05
2月24日起,中國出口美國關稅將從20%降至10%

2月24日起,中國出口美國關稅將從20%降至10%

壹航運
2026-02-25 09:45:06
2450元降至118元!春節(jié)假期過后,有潮汕酒店價格大降95%

2450元降至118元!春節(jié)假期過后,有潮汕酒店價格大降95%

第一財經資訊
2026-02-24 20:41:17
女子返鄉(xiāng)返程把狗裝桶固定車頂走紅,主人稱“狗狗不愿意長時間坐在車內,想去外面透氣”

女子返鄉(xiāng)返程把狗裝桶固定車頂走紅,主人稱“狗狗不愿意長時間坐在車內,想去外面透氣”

觀威海
2026-02-24 16:50:04
AI除夕夜辱罵用戶,騰訊元寶回應

AI除夕夜辱罵用戶,騰訊元寶回應

IT之家
2026-02-25 14:57:08
美參議員稱未來6個月這三國政府或被親美政權取代,外交部回應

美參議員稱未來6個月這三國政府或被親美政權取代,外交部回應

澎湃新聞
2026-02-25 15:24:28
華為確實是出現(xiàn)了嚴重的問題,只是至今官方還沒有公開承認

華為確實是出現(xiàn)了嚴重的問題,只是至今官方還沒有公開承認

雪中風車
2026-02-22 20:18:26
在創(chuàng)業(yè)40周年的十字路口,吉利要做有“價值”的“偉大”少數(shù)

在創(chuàng)業(yè)40周年的十字路口,吉利要做有“價值”的“偉大”少數(shù)

汽車預言家
2026-02-25 17:43:43
比爾·蓋茨道歉!承認與兩俄女子有婚外關系,“從未前往愛潑斯坦的私人島嶼”

比爾·蓋茨道歉!承認與兩俄女子有婚外關系,“從未前往愛潑斯坦的私人島嶼”

上觀新聞
2026-02-25 15:37:09
2026-02-25 18:40:49
科技美學
科技美學
科技美學
17399文章數(shù) 68235關注度
往期回顧 全部

科技要聞

“機器人只跳舞,沒什么用”

頭條要聞

美官員稱6個月內三國政府或被親美政權取代 中方回應

頭條要聞

美官員稱6個月內三國政府或被親美政權取代 中方回應

體育要聞

曝雄鹿計劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

娛樂要聞

撒貝寧到沈陽跑親戚 老婆李白模特身材

財經要聞

上海樓市放大招,地產預期別太大

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

游戲
時尚
家居
旅游
公開課

外網神人自制健身環(huán)接入眾多游戲!走路都得大出汗

普通人穿衣別太老氣橫秋!這些穿搭給你靈感,保暖耐看兩不誤

家居要聞

藝居辦公 溫度與效率

旅游要聞

人文齊魯|一位晚清書畫收藏家的大明湖游記

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版