国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

中科院軟件所等揭示:大模型模擬人類(lèi)存在完美主義幻覺(jué)偏差突破

0
分享至


這項(xiàng)由中國(guó)科學(xué)院軟件研究所、中國(guó)科學(xué)院大學(xué)與快手科技聯(lián)合開(kāi)展的研究,于2026年4月以預(yù)印本形式發(fā)布在arXiv平臺(tái),論文編號(hào)為arXiv:2604.08362。研究圍繞一個(gè)核心問(wèn)題展開(kāi):當(dāng)今最強(qiáng)大的AI大語(yǔ)言模型,究竟能不能像真實(shí)人類(lèi)一樣行動(dòng)?

每個(gè)人每天都在數(shù)字世界里留下無(wú)數(shù)痕跡。早上醒來(lái)刷短視頻,中午在直播間搶購(gòu)商品,傍晚搜索一條感興趣的新聞,晚上在電商平臺(tái)咨詢(xún)客服。這些行為零散卻又緊密相連,共同構(gòu)成了一個(gè)人真實(shí)的數(shù)字畫(huà)像?,F(xiàn)在,研究人員想知道,如果把這些行為序列交給大型AI模型,它能預(yù)測(cè)出下一步你會(huì)做什么嗎?它能模擬出一個(gè)"像你一樣"的人嗎?

這個(gè)問(wèn)題的意義遠(yuǎn)不止于技術(shù)好奇心。推薦系統(tǒng)需要預(yù)測(cè)用戶(hù)下一秒想看什么;企業(yè)需要模擬用戶(hù)行為來(lái)測(cè)試新產(chǎn)品;社會(huì)科學(xué)家希望用AI代替真人參與實(shí)驗(yàn)。如果AI真能扮演好"人類(lèi)替身",這將極大降低研究成本,加速各行各業(yè)的創(chuàng)新。

然而,研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的測(cè)試基準(zhǔn)(也就是用來(lái)評(píng)估AI能力的"考卷")都存在一個(gè)嚴(yán)重缺陷:它們只測(cè)試AI在單一場(chǎng)景下的表現(xiàn),比如只測(cè)購(gòu)物行為,或者只測(cè)視頻瀏覽,而且大量使用人工合成的假數(shù)據(jù)。這就像只通過(guò)一道數(shù)學(xué)題來(lái)判斷一個(gè)學(xué)生的綜合素質(zhì)——考卷本身就是錯(cuò)的。

正因如此,研究團(tuán)隊(duì)構(gòu)建了一個(gè)名為OmniBehavior的全新測(cè)試基準(zhǔn),這是目前第一個(gè)完全基于真實(shí)用戶(hù)數(shù)據(jù)、同時(shí)覆蓋多場(chǎng)景、長(zhǎng)時(shí)間跨度的人類(lèi)行為模擬評(píng)估體系。數(shù)據(jù)來(lái)源于擁有超過(guò)4億日活用戶(hù)的快手平臺(tái),囊括了200名真實(shí)用戶(hù)長(zhǎng)達(dá)三個(gè)月的完整行為軌跡,涵蓋短視頻瀏覽、直播間互動(dòng)、電商購(gòu)物、廣告點(diǎn)擊和搜索行為五大場(chǎng)景,共記錄了22種不同類(lèi)型的用戶(hù)動(dòng)作。

研究團(tuán)隊(duì)用這張"真實(shí)世界考卷"對(duì)包括Claude-4.5-Opus、GPT-5.2、Gemini-3-Flash、DeepSeek-V3、Qwen3-235B在內(nèi)的一系列頂尖AI模型進(jìn)行了全面評(píng)測(cè),結(jié)果令人深思:即便是表現(xiàn)最好的模型,整體得分也只有44.55分(滿(mǎn)分100分)。更關(guān)鍵的是,研究團(tuán)隊(duì)發(fā)現(xiàn)AI模型在模擬人類(lèi)時(shí)存在一種系統(tǒng)性的結(jié)構(gòu)偏差——它們傾向于把所有人都模擬成一個(gè)"積極友善的普通人",而真實(shí)的人類(lèi)世界遠(yuǎn)比這復(fù)雜和混亂。

一、為什么單一場(chǎng)景的數(shù)據(jù)是一張"殘缺的地圖"

假設(shè)你要為一位從未見(jiàn)過(guò)面的朋友挑選一件生日禮物。你只有兩種信息可以參考:第一種,你知道這位朋友最近三個(gè)月在所有場(chǎng)合的消費(fèi)記錄、瀏覽歷史、搜索關(guān)鍵詞和聊天內(nèi)容;第二種,你只知道他上個(gè)月在一個(gè)電商平臺(tái)買(mǎi)過(guò)幾件商品。顯然,第一種信息讓你能夠勾勒出一個(gè)立體的人,而第二種只是一個(gè)模糊的輪廓。

這正是OmniBehavior研究團(tuán)隊(duì)最先想驗(yàn)證的問(wèn)題:?jiǎn)我粓?chǎng)景的數(shù)據(jù)究竟有多"殘缺"?

為了回答這個(gè)問(wèn)題,研究團(tuán)隊(duì)從用戶(hù)歷史中提取了他們真實(shí)點(diǎn)贊、收藏過(guò)的內(nèi)容,并用AI分析每個(gè)內(nèi)容背后對(duì)應(yīng)的興趣類(lèi)別和關(guān)鍵詞,最終為每位用戶(hù)繪制出興趣畫(huà)像。當(dāng)只使用視頻瀏覽數(shù)據(jù)時(shí),用戶(hù)畫(huà)像會(huì)呈現(xiàn)出某一種面貌;當(dāng)只使用搜索數(shù)據(jù)時(shí),又是另一種面貌。這些單場(chǎng)景畫(huà)像往往片面而失真,就像盲人摸象,每個(gè)人摸到的只是大象的一部分,沒(méi)有人能描述出完整的大象。

定量數(shù)據(jù)更加直白。研究人員發(fā)現(xiàn),如果只看搜索行為,用戶(hù)的興趣類(lèi)別覆蓋率僅為2.4%,興趣關(guān)鍵詞覆蓋率也只有0.4%。加入電商數(shù)據(jù)后,興趣類(lèi)別覆蓋率跳升至14.4%,關(guān)鍵詞覆蓋率達(dá)到8.3%。再疊加廣告數(shù)據(jù),分別達(dá)到23.6%和14.1%。加入直播數(shù)據(jù)后,覆蓋率繼續(xù)攀升至57.6%和26.2%。當(dāng)五個(gè)場(chǎng)景的數(shù)據(jù)全部匯聚在一起,才能達(dá)到100%的完整覆蓋。換句話說(shuō),每引入一個(gè)新的場(chǎng)景,都會(huì)讓我們對(duì)一個(gè)用戶(hù)的了解增加約20%到30%。單獨(dú)使用任何一個(gè)場(chǎng)景,都只是在管中窺豹。

這一發(fā)現(xiàn)為后續(xù)的所有研究奠定了基礎(chǔ):要真正理解和模擬一個(gè)人,你必須同時(shí)觀察他在多個(gè)生活場(chǎng)景中的行為,不能只盯著某一個(gè)角落。

二、一次購(gòu)買(mǎi)背后,隱藏著長(zhǎng)達(dá)數(shù)周的"因果鏈條"

買(mǎi)一部手機(jī),真的只是"看到一款手機(jī)然后下單"這么簡(jiǎn)單嗎?

研究團(tuán)隊(duì)從數(shù)據(jù)中隨機(jī)抽取了180個(gè)高價(jià)值購(gòu)買(mǎi)行為(比如用戶(hù)完成了一筆商品交易),然后像偵探一樣往前追溯——這筆交易背后,究竟發(fā)生了什么?

數(shù)據(jù)給出了一個(gè)令人深思的答案。超過(guò)60%的購(gòu)買(mǎi)決策,依賴(lài)于三天以前乃至更早時(shí)候發(fā)生的行為作為觸發(fā)線索。這打破了傳統(tǒng)分析中"用戶(hù)在當(dāng)次會(huì)話里做決定"的假設(shè),就像你以為消費(fèi)沖動(dòng)是一時(shí)的念頭,實(shí)際上它已經(jīng)在腦海中積累了好幾天。

更關(guān)鍵的是,81.8%的購(gòu)買(mǎi)路徑跨越了不止一個(gè)場(chǎng)景。也就是說(shuō),大部分重要的消費(fèi)決策,不是在單一場(chǎng)景內(nèi)醞釀完成的,而是在多個(gè)場(chǎng)景之間反復(fù)穿行后才最終落地。

研究團(tuán)隊(duì)在論文中呈現(xiàn)了一個(gè)生動(dòng)的真實(shí)案例。一位用戶(hù)在9月25日通過(guò)搜索"小米發(fā)布會(huì)"開(kāi)始對(duì)某款手機(jī)產(chǎn)生興趣。兩天后,他在直播間看到了小米17 Pro Max的新品預(yù)售,隨后又在視頻里比較了小米17 Pro與Pro Max的差價(jià)是否值得。9月30日,他又看了一個(gè)對(duì)比三款旗艦手機(jī)的視頻。10月3日,他瀏覽了手機(jī)鋼化膜評(píng)測(cè)。10月8日,他在廣告中再次看到了小米官方旗艦店,并在直播間看到了預(yù)售信息,最終在當(dāng)天晚上通過(guò)電商下單購(gòu)買(mǎi)。

這條從"搜索"到"下單"的路徑整整跨越了12天,穿越了搜索、直播、視頻、廣告、電商五個(gè)場(chǎng)景。如果任何一個(gè)中間步驟被切斷,都可能改變最終的購(gòu)買(mǎi)決定。那些只記錄單一場(chǎng)景的數(shù)據(jù)集,相當(dāng)于把這條因果鏈條攔腰斬?cái)?,讓AI看不到完整的故事,自然也就無(wú)法做出準(zhǔn)確的預(yù)測(cè)。

三、人工合成的"假用戶(hù)",和真實(shí)用戶(hù)差了多遠(yuǎn)

除了跨場(chǎng)景和長(zhǎng)時(shí)序這兩個(gè)維度,OmniBehavior的研究團(tuán)隊(duì)還想弄清楚另一件事:用AI生成的模擬用戶(hù)數(shù)據(jù),和真實(shí)用戶(hù)數(shù)據(jù)之間,到底差在哪里?

研究團(tuán)隊(duì)將OmniBehavior中的真實(shí)用戶(hù)數(shù)據(jù),與LoCoMo這個(gè)知名的長(zhǎng)期記憶模擬數(shù)據(jù)集進(jìn)行了對(duì)比。LoCoMo的數(shù)據(jù)是通過(guò)AI生成的,模擬了用戶(hù)在長(zhǎng)期對(duì)話中的興趣變化。

研究者用同樣的方法,追蹤了兩組用戶(hù)在80天內(nèi)的興趣主題分布,看看它們是如何隨時(shí)間演變的。真實(shí)用戶(hù)的興趣變化就像一條蜿蜒的河流——不同的興趣主題此起彼伏,相互交織,緩慢而自然地流動(dòng),某天對(duì)動(dòng)漫感興趣多一些,某周對(duì)服裝話題更關(guān)注,整體呈現(xiàn)出一種有機(jī)的、多維度交融的動(dòng)態(tài)。

而合成用戶(hù)的興趣變化,則更像是一幅機(jī)械的折線圖。興趣會(huì)突然飆升,然后立刻斷崖式歸零,再突然出現(xiàn)另一個(gè)不同主題的高峰,整個(gè)模式生硬、程序化,缺乏真實(shí)人類(lèi)行為中那種自然的慣性和惰性。

研究團(tuán)隊(duì)用一個(gè)叫做"1減Jaccard相似度"的指標(biāo)來(lái)量化這種差異——這個(gè)數(shù)字越高,說(shuō)明相鄰兩天的興趣變化越大。真實(shí)用戶(hù)的平均值是0.6311,而合成用戶(hù)只有0.1698,差距接近四倍。這說(shuō)明合成數(shù)據(jù)嚴(yán)重低估了真實(shí)用戶(hù)興趣的動(dòng)態(tài)性和復(fù)雜性,無(wú)法反映人類(lèi)那種"今天對(duì)這個(gè)著迷,明天又被另一件事吸引"的真實(shí)節(jié)奏。

四、拿最強(qiáng)AI來(lái)"扮演"真實(shí)用戶(hù),成績(jī)究竟如何

有了這張基于真實(shí)數(shù)據(jù)的全面考卷,研究團(tuán)隊(duì)接下來(lái)做了一件讓人期待又略感忐忑的事:讓目前最頂尖的AI模型來(lái)參加考試。

測(cè)試的設(shè)定是這樣的:給AI一份用戶(hù)檔案、一段完整的歷史行為序列,再加上當(dāng)前場(chǎng)景的具體信息(比如正在直播的內(nèi)容、正在展示的商品),然后要求AI預(yù)測(cè)這個(gè)真實(shí)用戶(hù)接下來(lái)會(huì)做什么。比如,這個(gè)用戶(hù)會(huì)點(diǎn)贊這條視頻嗎?會(huì)把這件商品加入購(gòu)物車(chē)嗎?會(huì)在客服對(duì)話中說(shuō)些什么?

研究一共設(shè)計(jì)了6000個(gè)這樣的預(yù)測(cè)任務(wù),分布在視頻、直播、廣告、電商四大場(chǎng)景中,評(píng)測(cè)了11個(gè)頂尖模型,包括Claude-Opus-4.5、Claude-Sonnet-4.5、Claude-Haiku-4.5、Claude-Sonnet-4、Gemini-3-Flash、GPT-5.2、GPT-4o,以及開(kāi)源的GLM-4.7、DeepSeek-V3、Kimi-K2-Instruct和Qwen3-235B。

結(jié)果怎么樣?表現(xiàn)最好的Claude-Opus-4.5拿到了44.55的綜合得分,大多數(shù)模型集中在32到41分之間。對(duì)于一項(xiàng)"扮演真實(shí)用戶(hù)"的任務(wù)來(lái)說(shuō),這個(gè)成績(jī)相當(dāng)于不及格。

從具體數(shù)字來(lái)看,問(wèn)題尤為突出。對(duì)于"點(diǎn)贊"這類(lèi)最基礎(chǔ)的二元行為預(yù)測(cè)(用F1分?jǐn)?shù)衡量,滿(mǎn)分100),大多數(shù)模型得分都不超過(guò)40%。在廣告場(chǎng)景的購(gòu)買(mǎi)預(yù)測(cè)中,Claude-Opus-4.5的F1分?jǐn)?shù)為29.98,GPT-5.2為29.32,Qwen3-235B僅有19.22。這意味著AI在預(yù)測(cè)"這個(gè)人會(huì)不會(huì)買(mǎi)這件商品"這件事上,正確率相當(dāng)有限。

有意思的是,排名第二的并非某個(gè)知名閉源模型,而是開(kāi)源模型GLM-4.7,得分41.46,超過(guò)了Claude-Sonnet-4.5的40.49和GPT-5.2的39.07。同時(shí),DeepSeek-V3在電商場(chǎng)景的購(gòu)買(mǎi)行為預(yù)測(cè)中(33.31),甚至超過(guò)了Claude-Opus-4.5(29.98)。這說(shuō)明在特定細(xì)分任務(wù)上,開(kāi)源模型完全有能力與頂級(jí)閉源模型一較高下。

五、更長(zhǎng)的記憶反而幫不上忙——AI的長(zhǎng)上下文困境

既然用戶(hù)的行為序列那么長(zhǎng),那么給AI提供更多歷史信息,是不是就能幫助它做出更準(zhǔn)確的預(yù)測(cè)?

研究團(tuán)隊(duì)專(zhuān)門(mén)針對(duì)這個(gè)問(wèn)題做了實(shí)驗(yàn)。他們篩選出66位歷史行為記錄超過(guò)12.8萬(wàn)個(gè)token(大約是一本中等厚度小說(shuō)的篇幅)的用戶(hù),然后把提供給AI的上下文長(zhǎng)度從16K token逐步擴(kuò)展到128K token,觀察預(yù)測(cè)準(zhǔn)確率的變化。

結(jié)果出乎意料地令人沮喪:增加上下文長(zhǎng)度并不能穩(wěn)定地提升預(yù)測(cè)準(zhǔn)確率。在多個(gè)模型上,從16K擴(kuò)展到32K會(huì)有一定提升,但繼續(xù)擴(kuò)展到48K、64K甚至128K時(shí),性能曲線開(kāi)始震蕩甚至下降,并沒(méi)有隨著信息量的增加而持續(xù)改善。

這一發(fā)現(xiàn)和學(xué)術(shù)界此前觀察到的"迷失在中間"現(xiàn)象高度吻合——AI在處理超長(zhǎng)文本時(shí),往往會(huì)遺忘或忽視位于文本中段的信息,只有頭尾的內(nèi)容能被較好地記住。換句話說(shuō),盡管現(xiàn)代AI模型已經(jīng)能夠"閱讀"幾十萬(wàn)字的文本,但它們并不真正"理解"和"記住"這些內(nèi)容。

研究團(tuán)隊(duì)還測(cè)試了三種常見(jiàn)的記憶管理策略,看能否解決這個(gè)問(wèn)題。第一種是"截?cái)喾?,只保留最近的一段歷史;第二種是"檢索增強(qiáng)法"(RAG),根據(jù)當(dāng)前場(chǎng)景的相似性從歷史中檢索最相關(guān)的100條行為;第三種是"摘要法",每當(dāng)歷史積累到4000個(gè)token就壓縮總結(jié)一次。

三種方法都在Qwen3-235B上進(jìn)行了測(cè)試。結(jié)果發(fā)現(xiàn),摘要法的平均表現(xiàn)最好(24.27分),相比截?cái)喾ǎ?1.13分)提升了約14.9%,在直播場(chǎng)景下的提升尤為明顯(從23.84分跳升至31.06分)。而檢索增強(qiáng)法的表現(xiàn)反而不如截?cái)喾ǎ?0.38分,下降3.6%),在電商場(chǎng)景中甚至出現(xiàn)了明顯退步。

原因在于,檢索增強(qiáng)法依賴(lài)"語(yǔ)義相似性"來(lái)匹配歷史行為,但用戶(hù)行為之間的關(guān)聯(lián)往往是因果性的,而非字面上相似的。比如,一個(gè)月前看了一個(gè)手機(jī)評(píng)測(cè)視頻,和今天在直播間購(gòu)買(mǎi)手機(jī),語(yǔ)義相似度很低,但因果關(guān)聯(lián)很強(qiáng),檢索算法無(wú)法識(shí)別這種隱性聯(lián)系。摘要法雖然能保留全局趨勢(shì),但在壓縮過(guò)程中不可避免地會(huì)丟失細(xì)節(jié)。總體而言,這三種方法都只是權(quán)宜之計(jì),都無(wú)法真正解決AI面對(duì)長(zhǎng)期、復(fù)雜用戶(hù)歷史時(shí)的理解瓶頸。

六、AI眼中的"理想用戶(hù)":一個(gè)永遠(yuǎn)積極、禮貌、沒(méi)有個(gè)性的人

如果前面的發(fā)現(xiàn)還只是"AI的能力不夠強(qiáng)",那么接下來(lái)的發(fā)現(xiàn)則觸及了一個(gè)更根本的問(wèn)題:AI在模擬人類(lèi)時(shí)存在一種系統(tǒng)性的認(rèn)知扭曲。研究團(tuán)隊(duì)把這種扭曲稱(chēng)為"正向平均人偏差",具體表現(xiàn)為三種相互關(guān)聯(lián)的現(xiàn)象。

第一種現(xiàn)象叫做"超活躍偏差"。在真實(shí)世界中,用戶(hù)對(duì)內(nèi)容做出積極互動(dòng)(比如點(diǎn)贊、收藏、加入購(gòu)物車(chē))的頻率其實(shí)非常低,通常不超過(guò)所有瀏覽行為的10%。這是人類(lèi)行為的自然稀疏性——大多數(shù)時(shí)候我們只是漫無(wú)目的地刷刷刷,并不會(huì)對(duì)每條內(nèi)容都點(diǎn)贊。

然而,所有被測(cè)試的AI模型都傾向于大幅高估用戶(hù)點(diǎn)贊和互動(dòng)的頻率。Qwen3-235B和Gemini-3-Flash的預(yù)測(cè)結(jié)果中,積極互動(dòng)率比真實(shí)人類(lèi)高出40%到60%,相當(dāng)于把一個(gè)"偶爾點(diǎn)贊"的普通用戶(hù),錯(cuò)誤地模擬成了一個(gè)"幾乎每條都點(diǎn)贊"的熱情粉絲。

這個(gè)問(wèn)題的危害不止于數(shù)字失準(zhǔn)。如果AI把用戶(hù)模擬得過(guò)于活躍,企業(yè)就無(wú)法從中學(xué)習(xí)到"用戶(hù)什么時(shí)候會(huì)停止互動(dòng)"、"什么樣的內(nèi)容會(huì)讓用戶(hù)流失"這類(lèi)關(guān)鍵信號(hào),用戶(hù)流失預(yù)警系統(tǒng)將完全失靈。

第二種現(xiàn)象叫做"烏托邦偏差",集中體現(xiàn)在電商客服對(duì)話中。這個(gè)場(chǎng)景特別有代表性,因?yàn)橛脩?hù)在尋求售后幫助時(shí)往往處于不滿(mǎn)甚至憤怒的情緒狀態(tài),這正是測(cè)試AI能否模擬"負(fù)面情緒"的絕佳場(chǎng)合。

研究團(tuán)隊(duì)讓Claude-Sonnet-4.5對(duì)真實(shí)用戶(hù)和AI模擬用戶(hù)的客服對(duì)話進(jìn)行情感評(píng)分,評(píng)分從-1(極度負(fù)面)到+1(極度正面)。結(jié)果發(fā)現(xiàn),真實(shí)用戶(hù)的情感分布廣泛,有相當(dāng)比例的表達(dá)集中在-0.5到-1的負(fù)面區(qū)間。而所有AI模型生成的對(duì)話內(nèi)容,情感分布都明顯向0和正值方向集中,極少出現(xiàn)強(qiáng)烈的負(fù)面情緒。

研究團(tuán)隊(duì)進(jìn)一步從五個(gè)語(yǔ)言風(fēng)格維度對(duì)比了真實(shí)用戶(hù)和AI模擬用戶(hù)的措辭:禮貌用語(yǔ)的使用頻率、緩和語(yǔ)氣的程度、責(zé)任歸咎傾向、情緒控制程度,以及顧全對(duì)方面子的程度。AI生成的用戶(hù)發(fā)言在每一個(gè)維度上都比真實(shí)用戶(hù)更"禮貌"——它們使用更多"請(qǐng)問(wèn)"、"麻煩"、"謝謝"這類(lèi)詞匯,措辭更委婉,幾乎不會(huì)出現(xiàn)"騙子"、"催死我了"、"趕緊給我退款"這類(lèi)真實(shí)用戶(hù)在遭遇售后問(wèn)題時(shí)常見(jiàn)的直接、激烈表達(dá)。

這不是AI"不知道"人類(lèi)有時(shí)會(huì)發(fā)脾氣,而是它被訓(xùn)練成了"永遠(yuǎn)友善"的狀態(tài)。AI的對(duì)齊訓(xùn)練讓它本能地回避沖突、回避負(fù)面情緒,即便在扮演一個(gè)憤怒的消費(fèi)者時(shí),它也會(huì)不自覺(jué)地把措辭軟化成一個(gè)"理性維權(quán)者"。

第三種現(xiàn)象叫做"人格同質(zhì)化"。這是最深層的問(wèn)題。研究團(tuán)隊(duì)用17個(gè)維度的行為特征(比如點(diǎn)贊率、分享率、購(gòu)買(mǎi)率等)來(lái)給每位用戶(hù)畫(huà)一幅"行為畫(huà)像",然后計(jì)算兩類(lèi)距離:同一用戶(hù)前后兩段時(shí)間內(nèi)行為的相似程度(內(nèi)部距離),以及不同用戶(hù)之間行為畫(huà)像的差異程度(外部距離)。

對(duì)于真實(shí)用戶(hù),內(nèi)部距離遠(yuǎn)小于外部距離,比例約為0.29。這意味著真實(shí)用戶(hù)的行為在時(shí)間上相當(dāng)穩(wěn)定(同一個(gè)人的行為前后差不多),但不同用戶(hù)之間的差異非常顯著(每個(gè)人都有自己獨(dú)特的行為風(fēng)格)。

而AI模擬出來(lái)的不同用戶(hù),內(nèi)部距離和外部距離之間的比例普遍在0.7到0.87之間。換句話說(shuō),AI模擬的不同"用戶(hù)"之間,行為差異極小,幾乎像是同一個(gè)人在不同時(shí)間點(diǎn)的重復(fù)。無(wú)論AI被要求扮演一個(gè)20歲的男學(xué)生還是一個(gè)45歲的家庭主婦,它最終生成的行為特征都高度相似,都趨向于某種"平均用戶(hù)"的模板。

這種同質(zhì)化的根源,可能在于AI的預(yù)訓(xùn)練數(shù)據(jù)中高頻出現(xiàn)的是"普通用戶(hù)的普通行為",而那些小眾的、非典型的、長(zhǎng)尾的行為模式,在訓(xùn)練中被系統(tǒng)性地壓制和淡化了。結(jié)果就是,無(wú)論輸入什么樣的用戶(hù)描述,AI輸出的都是一個(gè)經(jīng)過(guò)平均化處理的"理想用戶(hù)形象",而不是那個(gè)真實(shí)的、有自己怪癖和個(gè)性的具體的人。

七、OmniBehavior是怎么被造出來(lái)的

理解這項(xiàng)研究的發(fā)現(xiàn)之后,或許有人會(huì)好奇:這張測(cè)試AI的"真實(shí)世界考卷"究竟是如何制作出來(lái)的?

整個(gè)數(shù)據(jù)集的構(gòu)建分為四個(gè)環(huán)節(jié)。第一步是數(shù)據(jù)收集。研究團(tuán)隊(duì)從快手平臺(tái)收集了2025年9月1日到11月30日這三個(gè)月期間的真實(shí)用戶(hù)交互日志。所有原始日志按照時(shí)間戳排列,形成跨越多個(gè)場(chǎng)景的統(tǒng)一時(shí)間線。每個(gè)用戶(hù)行為都附帶豐富的內(nèi)容元數(shù)據(jù),包括視頻字幕、OCR識(shí)別出的圖面文字、ASR轉(zhuǎn)寫(xiě)的音頻內(nèi)容、商品描述,以及播放量、點(diǎn)贊數(shù)等互動(dòng)統(tǒng)計(jì)。

第二步是數(shù)據(jù)清洗,分為行為層面和文本層面兩個(gè)維度。行為層面的清洗旨在去除"噪音"行為——比如用戶(hù)不小心觸碰屏幕導(dǎo)致的誤操作,或者把手機(jī)放在一邊導(dǎo)致的無(wú)意義播放。研究團(tuán)隊(duì)通過(guò)統(tǒng)計(jì)方法確定了閾值:視頻觀看時(shí)長(zhǎng)超過(guò)879秒(約14.6分鐘)的記錄被視為異常,直播停留超過(guò)9601秒(約2.7小時(shí))的也被剔除,最終每位用戶(hù)平均去除了91條噪音記錄。文本層面的清洗則用正則表達(dá)式去掉了亂碼和口吃詞,并用Qwen2.5-72B模型進(jìn)行語(yǔ)義校正,OCR文本壓縮了85.9%,ASR文本壓縮了5.2%,大幅提升了文本質(zhì)量。

第三步是代表性用戶(hù)采樣。從數(shù)億用戶(hù)中最終只保留200名,這200人需要盡可能代表整個(gè)用戶(hù)群體的多樣性。研究團(tuán)隊(duì)給每位用戶(hù)構(gòu)建了一個(gè)多維特征向量,涵蓋年齡、性別等人口統(tǒng)計(jì)信息,交互頻率和活躍天數(shù)等活躍度指標(biāo),對(duì)不同內(nèi)容類(lèi)別的偏好分布,以及在五個(gè)場(chǎng)景中的使用頻率。隨后用K均值聚類(lèi)算法把用戶(hù)分成若干個(gè)行為相近的群體,從每個(gè)群體中選出最具代表性的那一位,最終匯聚成這200人的樣本。

第四步是數(shù)據(jù)匿名化。研究團(tuán)隊(duì)在本地部署了Qwen3-235B模型,識(shí)別并替換掉所有可能泄露個(gè)人身份的信息,比如姓名、電話號(hào)碼、地址等,一律用占位符代替。涉及仇恨言論、暴力等有害內(nèi)容的記錄也被自動(dòng)標(biāo)記并剔除,最后經(jīng)過(guò)人工核驗(yàn)確保合規(guī)。

最終形成的數(shù)據(jù)集包含了200名用戶(hù)三個(gè)月的完整行為軌跡,平均每位用戶(hù)有8143條行為記錄,折合約3.2萬(wàn)個(gè)token,序列最長(zhǎng)的用戶(hù)超過(guò)10萬(wàn)步,充分體現(xiàn)了真實(shí)用戶(hù)行為的長(zhǎng)時(shí)間跨度特性。

說(shuō)到底,這項(xiàng)研究想傳遞的核心信息其實(shí)很直白:當(dāng)AI被要求扮演人類(lèi)的時(shí)候,它扮演的并不是真實(shí)的人,而是它心目中人類(lèi)"應(yīng)該"是什么樣子。它會(huì)把每個(gè)人都塑造得更熱情、更禮貌、更像教科書(shū)里描述的理想消費(fèi)者,而現(xiàn)實(shí)中那個(gè)會(huì)發(fā)脾氣、會(huì)無(wú)聊地刷手機(jī)、會(huì)因?yàn)楦鞣N奇怪原因買(mǎi)東西或不買(mǎi)東西的真實(shí)的人,在AI的模擬中幾乎消失不見(jiàn)了。

這個(gè)發(fā)現(xiàn)對(duì)許多依賴(lài)AI用戶(hù)模擬的應(yīng)用場(chǎng)景有深遠(yuǎn)影響。如果推薦系統(tǒng)用AI模擬的"用戶(hù)"來(lái)測(cè)試算法,它可能會(huì)發(fā)現(xiàn)算法效果很好,但在真實(shí)用戶(hù)身上卻表現(xiàn)平平,因?yàn)槟切┍缓鲆暤呢?fù)面反饋和非典型行為才是最有價(jià)值的信號(hào)。如果社會(huì)科學(xué)家用AI模擬的參與者來(lái)做實(shí)驗(yàn),結(jié)論可能充滿(mǎn)了"人人向善"的樂(lè)觀偏差。

研究團(tuán)隊(duì)為這個(gè)領(lǐng)域提供了一張清晰的路線圖:未來(lái)的AI用戶(hù)模擬需要更好地處理跨場(chǎng)景的因果依賴(lài),需要真正能理解超長(zhǎng)行為歷史的記憶機(jī)制,更重要的是,需要一種能夠抑制"正向偏差"、主動(dòng)學(xué)習(xí)長(zhǎng)尾和負(fù)面行為的訓(xùn)練方法。

這項(xiàng)研究本身的數(shù)據(jù)和代碼承諾在完成數(shù)據(jù)審查后公開(kāi)發(fā)布,感興趣的讀者可以通過(guò)論文編號(hào)arXiv:2604.08362在arXiv平臺(tái)上找到完整原文,深入了解所有實(shí)驗(yàn)細(xì)節(jié)和技術(shù)方法。

Q&A

Q1:OmniBehavior測(cè)試基準(zhǔn)和之前的AI行為測(cè)試有什么根本區(qū)別?

A:此前的測(cè)試基準(zhǔn)大多只覆蓋單一場(chǎng)景(比如只測(cè)電商購(gòu)物或只測(cè)視頻瀏覽),而且很多使用人工合成的假數(shù)據(jù)。OmniBehavior是第一個(gè)完全基于真實(shí)用戶(hù)數(shù)據(jù)、同時(shí)跨越五個(gè)場(chǎng)景(視頻、直播、電商、廣告、搜索)、記錄三個(gè)月完整行為軌跡的評(píng)測(cè)體系。研究發(fā)現(xiàn),單一場(chǎng)景數(shù)據(jù)會(huì)遺漏約20%到30%的用戶(hù)真實(shí)興趣,而超過(guò)80%的重要決策(比如購(gòu)買(mǎi)行為)都跨越了多個(gè)場(chǎng)景。

Q2:AI模擬用戶(hù)時(shí)的"正向平均人偏差"具體會(huì)導(dǎo)致什么實(shí)際問(wèn)題?

A:這種偏差會(huì)導(dǎo)致三方面的實(shí)際危害。第一,AI模擬的用戶(hù)互動(dòng)率比真實(shí)用戶(hù)高40%到60%,意味著依賴(lài)AI模擬來(lái)測(cè)試推薦算法的企業(yè)會(huì)看到虛假的高互動(dòng)率,無(wú)法識(shí)別用戶(hù)流失信號(hào)。第二,AI無(wú)法模擬出憤怒、抱怨的用戶(hù),導(dǎo)致客服系統(tǒng)訓(xùn)練數(shù)據(jù)失真。第三,AI把所有不同類(lèi)型的用戶(hù)都模擬成相似的"平均人",無(wú)法反映真實(shí)用戶(hù)群體中存在的個(gè)體差異,研究結(jié)論缺乏代表性。

Q3:給AI提供更長(zhǎng)的歷史記錄,為什么反而不能幫它更好地預(yù)測(cè)用戶(hù)行為?

A:研究發(fā)現(xiàn),將上下文從16K token擴(kuò)展到128K token并不能穩(wěn)定提升預(yù)測(cè)準(zhǔn)確率,有時(shí)甚至?xí)尡憩F(xiàn)變差。這是因?yàn)楝F(xiàn)有AI在處理超長(zhǎng)文本時(shí)會(huì)"迷失在中間"——只有開(kāi)頭和結(jié)尾的內(nèi)容能被較好記住,中段信息容易被忽視。同時(shí),用戶(hù)行為之間的關(guān)聯(lián)往往是因果性的而非語(yǔ)義上相似的,簡(jiǎn)單增加信息量并不能幫助AI理解這些隱性的因果關(guān)系,需要專(zhuān)門(mén)設(shè)計(jì)的記憶管理機(jī)制才能解決。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
看到如今的伊朗,才懂左宗棠當(dāng)年多偉大!沒(méi)有他,西北或無(wú)險(xiǎn)可守

看到如今的伊朗,才懂左宗棠當(dāng)年多偉大!沒(méi)有他,西北或無(wú)險(xiǎn)可守

賤議你讀史
2026-04-17 01:48:21
降壓藥飯前吃還是飯后吃?再三提醒:牢記3個(gè)原則,否則等于白吃

降壓藥飯前吃還是飯后吃?再三提醒:牢記3個(gè)原則,否則等于白吃

DrX說(shuō)
2026-04-22 14:55:06
乘聯(lián)分會(huì):4月1-19日全國(guó)乘用車(chē)市場(chǎng)零售62.7萬(wàn)輛 同比下降26%

乘聯(lián)分會(huì):4月1-19日全國(guó)乘用車(chē)市場(chǎng)零售62.7萬(wàn)輛 同比下降26%

財(cái)聯(lián)社
2026-04-22 16:38:09
中國(guó)鐵礦石談判大獲全勝!“鎖喉”必和必拓:不降價(jià)?那就別賣(mài)了

中國(guó)鐵礦石談判大獲全勝!“鎖喉”必和必拓:不降價(jià)?那就別賣(mài)了

動(dòng)漫里的童話
2026-04-22 05:35:55
4月22日俄烏:兩個(gè)意義非凡的軍事行動(dòng)

4月22日俄烏:兩個(gè)意義非凡的軍事行動(dòng)

山河路口
2026-04-22 18:15:08
安徽省交通控股集團(tuán)有限公司黨委委員盛明宏接受審查調(diào)查

安徽省交通控股集團(tuán)有限公司黨委委員盛明宏接受審查調(diào)查

界面新聞
2026-04-22 17:07:51
4月21日俄烏最新:俄羅斯創(chuàng)造的神話

4月21日俄烏最新:俄羅斯創(chuàng)造的神話

西樓飲月
2026-04-21 20:24:18
五連敗切爾西徹底崩盤(pán)!主帥放豪言:6年合同在手,絕不下課!

五連敗切爾西徹底崩盤(pán)!主帥放豪言:6年合同在手,絕不下課!

田先生籃球
2026-04-22 06:57:15
連虧5年,越虧越多!知名超市學(xué)胖東來(lái)效果不佳,去年關(guān)店414家,巨虧9.57億元,最新市值僅35億元

連虧5年,越虧越多!知名超市學(xué)胖東來(lái)效果不佳,去年關(guān)店414家,巨虧9.57億元,最新市值僅35億元

每日經(jīng)濟(jì)新聞
2026-04-22 18:31:06
36億罰單背后,30名被開(kāi)除員工的代價(jià)

36億罰單背后,30名被開(kāi)除員工的代價(jià)

慕容律師
2026-04-21 22:31:56
穆鐵柱的最后一天:在家中蹬自行車(chē)健身,突然兩眼一黑癱倒在地

穆鐵柱的最后一天:在家中蹬自行車(chē)健身,突然兩眼一黑癱倒在地

大運(yùn)河時(shí)空
2026-04-21 16:30:03
曾經(jīng)那些真實(shí)的特供,超出普通人的想象…

曾經(jīng)那些真實(shí)的特供,超出普通人的想象…

深度報(bào)
2026-04-21 22:56:47
火箭丟了G2后,烏度卡全方位甩鍋,杜蘭特主動(dòng)攬責(zé),申京自我反思

火箭丟了G2后,烏度卡全方位甩鍋,杜蘭特主動(dòng)攬責(zé),申京自我反思

萌蘭聊個(gè)球
2026-04-22 17:47:03
2032奧運(yùn)主辦地確定,結(jié)果吃驚全球,奧運(yùn)格局將重塑

2032奧運(yùn)主辦地確定,結(jié)果吃驚全球,奧運(yùn)格局將重塑

天馬幸福的人生
2026-04-22 06:41:59
NBA官方:亞歷山大當(dāng)選年度最佳關(guān)鍵球員 多項(xiàng)關(guān)鍵數(shù)據(jù)聯(lián)盟第一

NBA官方:亞歷山大當(dāng)選年度最佳關(guān)鍵球員 多項(xiàng)關(guān)鍵數(shù)據(jù)聯(lián)盟第一

羅說(shuō)NBA
2026-04-22 06:18:26
炸翻全球軍界!沙特怒砸120億買(mǎi)斷中國(guó)神裝,美軍徹底被踢出局

炸翻全球軍界!沙特怒砸120億買(mǎi)斷中國(guó)神裝,美軍徹底被踢出局

風(fēng)信子的花
2026-04-21 14:31:44
男子買(mǎi)彩票中了5340萬(wàn) 偷偷轉(zhuǎn)給別的女人2100萬(wàn) 前妻起訴返還 法院判了

男子買(mǎi)彩票中了5340萬(wàn) 偷偷轉(zhuǎn)給別的女人2100萬(wàn) 前妻起訴返還 法院判了

閃電新聞
2026-04-21 10:35:14
當(dāng)年張柏芝抱著lucas后面居然是大s,到現(xiàn)在才發(fā)現(xiàn),真美呀

當(dāng)年張柏芝抱著lucas后面居然是大s,到現(xiàn)在才發(fā)現(xiàn),真美呀

可樂(lè)談情感
2026-04-22 00:14:41
解決掉提問(wèn)的人,問(wèn)題就解決了?北師大“神操作”火了

解決掉提問(wèn)的人,問(wèn)題就解決了?北師大“神操作”火了

虔青
2026-04-20 14:07:53
有錢(qián)真能改變?nèi)说纳顔峥淳W(wǎng)友講述父親有錢(qián)沒(méi)錢(qián)真實(shí)現(xiàn)狀,驚呆了

有錢(qián)真能改變?nèi)说纳顔峥淳W(wǎng)友講述父親有錢(qián)沒(méi)錢(qián)真實(shí)現(xiàn)狀,驚呆了

侃神評(píng)故事
2026-04-22 11:15:03
2026-04-22 19:40:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8088文章數(shù) 562關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒(méi)有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國(guó)道歉

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國(guó)道歉

體育要聞

網(wǎng)易傳媒再度簽約法國(guó)隊(duì)和阿根廷隊(duì)

娛樂(lè)要聞

復(fù)婚無(wú)望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長(zhǎng)?;鹌谙?/h3>

汽車(chē)要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬(wàn)起

態(tài)度原創(chuàng)

手機(jī)
房產(chǎn)
游戲
健康
軍事航空

手機(jī)要聞

續(xù)航滅霸降臨!vivo Y600 Pro 全配置曝光,10200mAh 電池沖擊中端機(jī)

房產(chǎn)要聞

官宣!今年9月起,廣州中小學(xué)“重點(diǎn)班”將成歷史!

《黑旗RE》官宣直播!B站抖音中文預(yù)告片首發(fā)!

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

軍事要聞

特朗普宣布延長(zhǎng)?;?伊朗表態(tài)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版