網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

通研院&北大：智能體如何提升社交能力？

2026-02-13 15:09:49　來(lái)源: 集智俱樂(lè)部

北京舉報(bào)

分享至

導(dǎo)語(yǔ)

為什么許多社交智能體“寫得通順，卻一眼假”？問(wèn)題往往不在語(yǔ)言能力，而在它們既不像某個(gè)穩(wěn)定的個(gè)體，也未真正嵌入社會(huì)關(guān)系網(wǎng)絡(luò)。北京通用人工智能研究院聯(lián)合北京大學(xué)研究提出自演化社交智能體 EvoBot，通過(guò)生成器與檢測(cè)器的對(duì)抗博弈，讓模型在社會(huì)反饋中持續(xù)升級(jí)，逐步學(xué)會(huì)更真實(shí)的個(gè)性化表達(dá)與社會(huì)化互動(dòng)。

關(guān)鍵詞：社交智能體、擬人化生成、個(gè)性化、社會(huì)化、對(duì)抗學(xué)習(xí)、自演化

孔繁奇、封雪丨作者

論文題目：Enhancing LLM-Based Social Bot via an Adversarial Learning Framework 論文鏈接：https://aclanthology.org/2025.emnlp-main.1185/ 發(fā)表時(shí)間：2025年11月4日論文來(lái)源： EMNLP 2025

社交平臺(tái)上，一條“像人”的動(dòng)態(tài)不只取決于語(yǔ)法和知識(shí)，更取決于兩個(gè)更隱蔽的因素：它是否貼合某個(gè)具體個(gè)體的穩(wěn)定風(fēng)格（個(gè)性化），以及它是否會(huì)被周圍社交鄰居持續(xù)塑造（社會(huì)化）。不少大模型“寫得對(duì)”，卻仍然“一眼假”，問(wèn)題往往不在句子通不通順，而在它不像某個(gè)具體的人在某個(gè)具體的圈子里說(shuō)話。

北京通用人工智能研究院聯(lián)合北京大學(xué)提出了自演化社交智能體 EvoBot，在“生成器-檢測(cè)器”的對(duì)抗博弈框架下，把擬人化生成變成一個(gè)能自動(dòng)升級(jí)難度的訓(xùn)練任務(wù)，使模型在社交網(wǎng)絡(luò)中持續(xù)迭代。相關(guān)成果已被自然語(yǔ)言處理頂會(huì) EMNLP 2025 接收并作 Oral 展示。

問(wèn)題：社交智能體為什么常常“一眼假”？

當(dāng)前社交智能體的一個(gè)核心瓶頸是“既個(gè)性化又社會(huì)化”。個(gè)性化關(guān)乎個(gè)體差異，同樣是表達(dá)贊同，有人簡(jiǎn)短直接，有人愛(ài)用反問(wèn)，有人習(xí)慣加表情或話題標(biāo)簽。社會(huì)化關(guān)乎鄰域影響，好友關(guān)系、社區(qū)氛圍與熱點(diǎn)事件會(huì)持續(xù)改變一個(gè)人的發(fā)言內(nèi)容與立場(chǎng)走向。只學(xué)到“通用寫作能力”的大模型，往往會(huì)留下兩類穩(wěn)定的可識(shí)別痕跡。其一是風(fēng)格過(guò)于平均，不像某個(gè)穩(wěn)定個(gè)體的長(zhǎng)期表達(dá)分布；其二是生成內(nèi)容缺少社會(huì)語(yǔ)境，看起來(lái)像“單機(jī)寫作”，而不是在關(guān)系網(wǎng)絡(luò)里互動(dòng)。針對(duì)這兩個(gè)問(wèn)題，本文提出了一個(gè)兩階段訓(xùn)練框架優(yōu)化模型，先讓模型更像某個(gè)具體的人，再讓模型在“社會(huì)反饋”的壓力下持續(xù)修正自己的表達(dá)策略。

方法：把擬人化訓(xùn)練變成“矛與盾”的持續(xù)博弈

EvoBot的關(guān)鍵設(shè)計(jì)，是把“像人”變成一場(chǎng)持續(xù)升級(jí)的對(duì)抗?？蚣芾?，生成器（EvoBot）負(fù)責(zé)模仿人類發(fā)布社交動(dòng)態(tài)，檢測(cè)器（Detector）負(fù)責(zé)區(qū)分“真實(shí)人類內(nèi)容”和“AI生成內(nèi)容”。具體而言，EvoBot的學(xué)習(xí)分為兩個(gè)階段：

第一階段：監(jiān)督微調(diào)（SFT），注入個(gè)體“人格”。在此階段，本文利用真實(shí)人類用戶數(shù)據(jù)對(duì)基礎(chǔ)大模型（Llama2-7B）進(jìn)行監(jiān)督微調(diào)。訓(xùn)練任務(wù)是讓模型初步學(xué)習(xí)該社區(qū)的表達(dá)方式、語(yǔ)言習(xí)慣等。通過(guò)這一過(guò)程，EvoBot初步具備了模仿不同個(gè)體、生成個(gè)性化內(nèi)容的能力，這構(gòu)成了每個(gè)智能體的“初始人格”。

第二階段：對(duì)抗性學(xué)習(xí)，驅(qū)動(dòng)動(dòng)態(tài)“演化”。本文設(shè)計(jì)了一個(gè)由EvoBot（生成器）和基于關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)（R-GCN）[2] 的Detector（檢測(cè)器）構(gòu)成的對(duì)抗性學(xué)習(xí)閉環(huán)。與傳統(tǒng)方法不同，本文的生成器和檢測(cè)器是相互適應(yīng)、協(xié)同演化的。在每一輪迭代中，EvoBot生成一批新的“擬人”內(nèi)容，而檢測(cè)器的任務(wù)就是從這些內(nèi)容和真實(shí)人類內(nèi)容中，把AI的“仿冒品”揪出來(lái)。如果EvoBot生成的內(nèi)容成功“騙過(guò)”了檢測(cè)器，就會(huì)被標(biāo)記為“更優(yōu)”樣本，指導(dǎo)模型朝這個(gè)方向優(yōu)化；反之，則被標(biāo)記為“較差”樣本，從而構(gòu)造出偏好數(shù)據(jù)對(duì)，通過(guò)直接偏好優(yōu)化（DPO）[3] 技術(shù)驅(qū)動(dòng)EvoBot學(xué)習(xí)。最關(guān)鍵的是，檢測(cè)器自身也在不斷升級(jí)。每一輪博弈后，檢測(cè)器會(huì)將EvoBot的“更優(yōu)”樣本集加入自己的錯(cuò)題集進(jìn)行再訓(xùn)練，提升識(shí)別能力。這就為EvoBot創(chuàng)造了一個(gè)任務(wù)難度持續(xù)提升的學(xué)習(xí)環(huán)境，迫使其不斷學(xué)習(xí)和模仿更高級(jí)、更難以分辨的人類行為模式，最終形成一個(gè)能力持續(xù)增強(qiáng)的良性循環(huán)。

圖1: EvoBot框架概覽

實(shí)驗(yàn)：個(gè)體層更像人，群體層更像社會(huì)

EvoBot不是在“干凈、單一”的文本集合里訓(xùn)練，而是直接從真實(shí)社交網(wǎng)絡(luò)中抽取結(jié)構(gòu)與語(yǔ)境。研究使用 TwiBot-22 數(shù)據(jù)集 [4]，包含約100萬(wàn)用戶、近1億條推文以及好友關(guān)系等圖結(jié)構(gòu)信息。為了在可控成本下保留網(wǎng)絡(luò)結(jié)構(gòu)差異，研究采用 Louvain 社區(qū)發(fā)現(xiàn)方法切分出12個(gè)高度連接且具有代表性的社區(qū)，這些社區(qū)在拓?fù)湫螒B(tài)（星形、網(wǎng)狀等）、語(yǔ)言（英語(yǔ)、阿拉伯語(yǔ)、日語(yǔ)、土耳其語(yǔ)等）與話題上都呈現(xiàn)明顯差異。這種異質(zhì)性為本文訓(xùn)練和評(píng)估EvoBot在復(fù)雜、多元環(huán)境下的適應(yīng)性和類人程度供了堅(jiān)實(shí)的基礎(chǔ)。

圖2: 12個(gè)社區(qū)中用戶連接關(guān)系的可視化

表1: 社區(qū)數(shù)據(jù)統(tǒng)計(jì)，包括用戶與機(jī)器人的數(shù)量、邊的數(shù)量、推文數(shù)量和代表語(yǔ)言

具體地，本文在這12個(gè)社區(qū)上，從個(gè)性化和社會(huì)化兩個(gè)角度系統(tǒng)地評(píng)估了EvoBot。

個(gè)性化評(píng)估

首先，本文分析了EvoBot與檢測(cè)器在4輪對(duì)抗訓(xùn)練中的“共同成長(zhǎng)”過(guò)程。結(jié)果清晰地展示了兩者間的協(xié)同進(jìn)化。隨著迭代的進(jìn)行，EvoBot規(guī)避檢測(cè)的能力越來(lái)越強(qiáng)，意味著它生成的內(nèi)容越來(lái)越類人（如圖3中各行所示）。與此同時(shí)，檢測(cè)器的識(shí)別性能也在不斷提升（如圖3中各列所示）。

圖3：Detector分類性能。左:F1-score;右:Accuracy。行表示檢測(cè)器的版本；列表示EvoBot的版本。色塊上數(shù)值越大表示EvoBot被識(shí)別出來(lái)的概率越高。

本文對(duì)比了最終版的EvoBot與六種基線模型（包括原始Bot、傳統(tǒng)GAN、Llama2-7b、GPT-4o-mini，以及兩個(gè)消融版本）。在兩種不同架構(gòu)（RGCN和GAT）的檢測(cè)器下，EvoBot均取得了最低的被識(shí)別率，展示了其最強(qiáng)的擬人化生成能力。消融實(shí)驗(yàn)也證明，監(jiān)督微調(diào)（SFT）和對(duì)抗學(xué)習(xí)（ADV）兩個(gè)階段對(duì)于最終的優(yōu)異性能缺一不可。同時(shí)，進(jìn)一步分析表明EvoBot在生成內(nèi)容多樣性和表達(dá)風(fēng)格上都達(dá)到了很高的類人水平，這說(shuō)明EvoBot不僅能生成類人的社交文字而且對(duì)人類社交方式有更深層次的理解。

表2: RGCN和GAT檢測(cè)器下不同生成器的Accuracy和F1-Score。數(shù)值越小，說(shuō)明生成器逃避檢測(cè)的能力越強(qiáng)。

社會(huì)化評(píng)估1:群體觀點(diǎn)模擬

實(shí)驗(yàn)將EvoBot置于多智能體模擬環(huán)境中，復(fù)現(xiàn)了真實(shí)世界中關(guān)于“COVID-19”和“俄烏沖突”兩大事件的觀點(diǎn)演變過(guò)程。實(shí)驗(yàn)結(jié)果表明，相比于傳統(tǒng)的基于規(guī)則的智能體模型（如BC和Lorenz模型）以及其他LLM基線，無(wú)論是在群體平均觀點(diǎn)還是觀點(diǎn)多樣性上，EvoBot都最接近真實(shí)數(shù)據(jù)，成功捕捉到了現(xiàn)實(shí)群體中復(fù)雜動(dòng)態(tài)的觀點(diǎn)變化。這些對(duì)比指標(biāo)均是在事件發(fā)生的一段時(shí)間內(nèi)的統(tǒng)計(jì)結(jié)果，充分證明了EvoBot的優(yōu)勢(shì)在于精準(zhǔn)捕捉了觀點(diǎn)的動(dòng)態(tài)演變過(guò)程，而不僅是擬合某個(gè)靜態(tài)的結(jié)果。

表3: 群體觀點(diǎn)的模擬結(jié)果

社會(huì)化評(píng)估2:信息傳播模擬

本文還模擬了關(guān)于“超級(jí)碗賽事”這一熱點(diǎn)新聞在社交網(wǎng)絡(luò)中的傳播過(guò)程。結(jié)果顯示，相比于基線模型，EvoBot驅(qū)動(dòng)的信息傳播曲線更貼近真實(shí)世界的傳播模式，即“初期快速爆發(fā)，隨后逐漸放緩”的典型規(guī)律。這些群體層面的涌現(xiàn)現(xiàn)象，強(qiáng)有力地證明了EvoBot框架在模擬復(fù)雜社會(huì)動(dòng)態(tài)方面的有效性和先進(jìn)性。

圖4: 隨著時(shí)間的推移，討論洛杉磯公羊隊(duì)超級(jí)碗奪冠的累積用戶數(shù)量變化曲線

總結(jié)展望：為什么“自演化”很重要？

在“生成器-檢測(cè)器”的對(duì)抗學(xué)習(xí)框架下，基于大模型的社交智能體EvoBot持續(xù)提升能力，在個(gè)性化內(nèi)容生成和宏觀社會(huì)現(xiàn)象模擬方面均表現(xiàn)出色，驗(yàn)證了該框架的有效性。

EvoBot所展示的這種自動(dòng)化的、無(wú)需持續(xù)外部干預(yù)的“自演化”學(xué)習(xí)框架，為各行業(yè)構(gòu)建更智能、更具適應(yīng)性的AI智能體提供了一種新的思路和啟發(fā)。這種通過(guò)對(duì)抗博弈創(chuàng)造動(dòng)態(tài)學(xué)習(xí)環(huán)境、驅(qū)動(dòng)智能體持續(xù)迭代的方法，為解決“如何讓智能體在部署后仍能自主學(xué)習(xí)和進(jìn)化”這一核心難題提供了寶貴的探索，對(duì)未來(lái)開(kāi)發(fā)更穩(wěn)健、更自主的人工智能系統(tǒng)具有一定的借鑒意義。

參考文獻(xiàn)

[1] Kong, F., Zhang, X., Chen, X., Yang, Y., Zhu, S. C., & Feng, X. (2025, November). Enhancing llm-based social bot via an adversarial learning framework. In Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing (pp. 23246-23271).

[2] Schlichtkrull, Michael, et al. "Modeling relational data with graph convolutional networks." European semantic web conference. Cham: Springer International Publishing, 2018.

[3] Rafailov, Rafael, et al. "Direct preference optimization: Your language model is secretly a reward model." Advances in neural information processing systems 36 (2023): 53728-53741. Feng, Shangbin, et al. "Twibot-22: Towards graph-based twitter bot detection." Advances in Neural Information Processing Systems 35 (2022): 35254-35269.

[4] Feng, Shangbin, et al. "Twibot-22: Towards graph-based twitter bot detection." Advances in Neural Information Processing Systems 35 (2022): 35254-35269.

群體智能讀書(shū)會(huì)

如果你對(duì)這些反直覺(jué)但極有用的現(xiàn)象感興趣——從蟻群搭橋、魚(yú)群同步、到無(wú)人機(jī)集群表演、集群機(jī)器人協(xié)作、群智優(yōu)化與多智能體系統(tǒng)、網(wǎng)絡(luò)輿論建模研究等——?dú)g迎加入「群體智能」讀書(shū)會(huì)：我們用動(dòng)物—人類—機(jī)器三條線，希望把群體智能的涌現(xiàn)這件事講清楚、講透徹；用物理學(xué)、數(shù)理邏輯、多主體建模、計(jì)算傳播等多學(xué)科視角，去追問(wèn)同一個(gè)核心：集群何以比個(gè)體更聰明？群體智能又在何時(shí)涌現(xiàn)？

集智俱樂(lè)部聯(lián)合北京師范大學(xué)系統(tǒng)科學(xué)學(xué)院韓戰(zhàn)鋼教授、暨南大學(xué)計(jì)算傳播研究中心趙甜芳副教授、新疆大學(xué)物理科學(xué)與技術(shù)學(xué)院玉素甫·艾比布拉副教授等來(lái)自11所高校的學(xué)者，共同發(fā)起本次，嘗試用一條普適的線索，把自然界的鳥(niǎo)群蟻群、人類社會(huì)的集群行為、以及人工智能時(shí)代的多智能體與群智優(yōu)化，放在同一張地圖上重新理解。讀書(shū)會(huì)自2026年1月17日開(kāi)始，安排在每周六下午 14:00–16:00，歡迎所有對(duì)群體智能如何涌現(xiàn)、如何被理解、以及如何被設(shè)計(jì)，感興趣的朋友一起加入：帶著問(wèn)題來(lái)，帶著更有趣的問(wèn)題去。

詳情請(qǐng)見(jiàn)：

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.