国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Claude爆火研究漏引華人團(tuán)隊(duì)成果,已挨打立正道歉

0
分享至

聽(tīng)雨 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI

Anthropic新論文漏引同行工作,被抓包并貼臉質(zhì)疑了。

MBZUAI研究生Chenxi Wang發(fā)現(xiàn),這篇論文的引用列表里,是不是忘了些什么……



4月2日,Anthropic發(fā)布了一篇新論文,研究了Claude內(nèi)部的“情緒機(jī)制”,在Sonnet 4.5中發(fā)現(xiàn)了171種“情緒向量”。

這些情緒會(huì)在與之關(guān)聯(lián)的情境中被激活,并且與人類的心理結(jié)構(gòu)和情緒空間相似。



論文還驗(yàn)證了情緒表征對(duì)模型行為的因果性影響,比如絕望會(huì)驅(qū)使模型采取不道德的行為,或使其對(duì)無(wú)法解決的編程任務(wù)實(shí)施“作弊”。

但Chenxi Wang自述,她讀到這篇博客時(shí)第一反應(yīng)是:

  • 這不是我們?nèi)ツ曜龅膯幔?/strong>

她可以肯定,他們?nèi)ツ?0月發(fā)表的論文《LLMs會(huì)“感覺(jué)”嗎?情緒回路的發(fā)現(xiàn)與控制》,是首篇系統(tǒng)研究LLMs情緒產(chǎn)生內(nèi)部機(jī)制的論文

但Anthropic在原始博客中并未引用這一研究成果。



目前經(jīng)作者親自溝通,A社已經(jīng)火速立正道歉,并更新了論文博客,突出引用這篇工作。



兩篇“撞車”的研究

Chenxi Wang團(tuán)隊(duì)的論文《“LLMs 會(huì)“感覺(jué)”嗎?情緒回路的發(fā)現(xiàn)與控制》,研究了驅(qū)動(dòng)語(yǔ)言模型產(chǎn)生情緒輸出的內(nèi)部機(jī)制。

這篇研究扒清了大語(yǔ)言模型的 “情緒表達(dá)底層邏輯”,回答了 “AI有沒(méi)有內(nèi)在的情緒機(jī)制、靠什么表達(dá)情緒、能不能精準(zhǔn)控制” 三個(gè)關(guān)鍵問(wèn)題。

據(jù)作者介紹,這是首篇系統(tǒng)研究LLMs情緒產(chǎn)生內(nèi)部機(jī)制的論文



Chenxi Wang認(rèn)為,兩篇論文都研究了LLM自身產(chǎn)生的情感,而不是LLM在他人文本中感知到的情感,但Anthropic并未引用他們的研究成果。

她很快聯(lián)系了Anthropic的通訊作者Jack Lindsey。Jack同意添加引用,并分享了他對(duì)兩篇論文之間關(guān)系的理解。

Jack一開(kāi)始指出,Chenxi Wang團(tuán)隊(duì)的核心發(fā)現(xiàn)與原始博客中列舉的幾篇先前的研究有重疊之處。

但Chenxi Wang逐一閱讀這些論文后,指出它們研究的是LLM的“情緒感知”——即LLM如何識(shí)別輸入文本中的情緒,而非“情緒生成機(jī)制”。



作者Chenxi Wang回復(fù)Anthropic的郵件



隨后,Jack認(rèn)可了這一區(qū)別。

目前,Anthropic已經(jīng)更新其論文博客,在“相關(guān)工作”部分添加了對(duì)這一工作的引用。

首篇系統(tǒng)性AI情緒回路研究

接下來(lái)仔細(xì)看看這篇華人團(tuán)隊(duì)的論文,它主要解答了三個(gè)核心問(wèn)題:

AI有沒(méi)有內(nèi)在的情緒機(jī)制?以什么形式存在?能不能精準(zhǔn)控制?

而且還造出了LLM里的 “情緒回路”,實(shí)現(xiàn)了比提示詞、向量操控更精準(zhǔn)的情緒控制。



研究的主實(shí)驗(yàn)?zāi)P褪荓LaMA-3.2-3B-Instruct,并在Qwen2.5-7B-Instruct上驗(yàn)證了方法是否具有跨模型泛化能力。

首先解答第一個(gè)問(wèn)題:大模型是否存在“與上下文無(wú)關(guān)”的情緒機(jī)制?

研究者構(gòu)建了一個(gè)受控?cái)?shù)據(jù)集SEV,覆蓋工作、學(xué)習(xí)、人際關(guān)系等8個(gè)日常場(chǎng)景。

每個(gè)場(chǎng)景配 “正面/中性/負(fù)面” 三種結(jié)果,用于描述同一情境下的不同結(jié)果。嚴(yán)禁使用任何情緒詞(如“開(kāi)心”“難過(guò)”),以確保情緒差異源于事件語(yǔ)義。

接著,研究者引導(dǎo)AI表達(dá)6種基礎(chǔ)情緒(喜、怒、哀、懼、驚、惡),從AI的各層網(wǎng)絡(luò)里,提取出了和語(yǔ)境無(wú)關(guān)、只對(duì)應(yīng)情緒的 “情緒方向向量”

而且從AI網(wǎng)絡(luò)的淺層開(kāi)始,不同情緒的信號(hào)就會(huì)慢慢分開(kāi),形成清晰的 “情緒分組”。

比如憤怒和厭惡挨得近、悲傷和恐懼挨得近,和人類對(duì)情緒的直覺(jué)完全一致,還會(huì)在深層網(wǎng)絡(luò)里保持穩(wěn)定。



這也就解答了第一個(gè)問(wèn)題:模型內(nèi)部確實(shí)編碼了穩(wěn)定的、與具體語(yǔ)義無(wú)關(guān)的情緒表示。

第二個(gè)問(wèn)題:這些情緒機(jī)制以什么形式存在?

答案是,AI每層網(wǎng)絡(luò)里,只有少數(shù)神經(jīng)元(MLP層)和注意力頭(Attn層)在主導(dǎo)情緒表達(dá)。

研究者用兩個(gè)實(shí)驗(yàn)證明了這一點(diǎn):

1、消融實(shí)驗(yàn):把這些核心的神經(jīng)元/注意力頭關(guān)掉,AI的情緒表達(dá)能力會(huì)驟降,而且只需要關(guān)2-4個(gè)神經(jīng)元、1-2個(gè)注意力頭,效果就會(huì)大幅下降。

2、增強(qiáng)實(shí)驗(yàn):只激活這些核心組件,哪怕不給AI任何 “要表達(dá)某種情緒” 的提示,AI也能自己生出對(duì)應(yīng)情緒,而激活隨機(jī)組件則完全沒(méi)效果。



第三個(gè)問(wèn)題:能否利用這些機(jī)制實(shí)現(xiàn)通用情緒控制?

答案是可以,而且效果顯著優(yōu)于現(xiàn)有方法。

研究者進(jìn)一步發(fā)現(xiàn),情緒信息在多層之間傳播,深層網(wǎng)絡(luò)的情緒表示趨于穩(wěn)定。

他們把每層的核心情緒零件,按影響力整合起來(lái),形成了跨層的、連貫的“情緒回路”



直接調(diào)節(jié)這個(gè)回路,使AI生成指定情緒,在測(cè)試集上的整體情緒表達(dá)準(zhǔn)確率達(dá)到99.65%,遠(yuǎn)超之前的 “提示詞引導(dǎo)”和“向量操控” 方法。

尤其是之前最難控制的 “驚訝” 情緒,實(shí)現(xiàn)了100%準(zhǔn)確表達(dá)。



此外,團(tuán)隊(duì)還在Qwen2.5-7B上重復(fù)了一遍實(shí)驗(yàn),結(jié)果發(fā)現(xiàn):

  • Qwen因?yàn)橛邪踩珜?duì)齊,直接操控很難讓它表達(dá)負(fù)面情緒,但用這套 “情緒回路” 方法,還是能有效引導(dǎo);
  • 兩個(gè)模型都表現(xiàn)出 “少數(shù)核心組件主導(dǎo)情緒” 的特點(diǎn),說(shuō)明這套機(jī)制是LLM的通用規(guī)律,不是某個(gè)模型的特例。



碩士生硬剛Anthropic

論文一作Chenxi Wang,MBZUAI(穆罕默德·本·扎耶德人工智能學(xué)院)的NLP碩士研究生,本科畢業(yè)于西安交通大學(xué)計(jì)算機(jī)科學(xué)專業(yè)。



其研究方向聚焦于人本人工智能、可解釋性研究,有多篇一作/共同一作論文被EMNLP、ACL、NeurIPS、COLING等頂會(huì)接收。目前正在Qwen后訓(xùn)練團(tuán)隊(duì)實(shí)習(xí)。

這件事情已經(jīng)告一段落,好在結(jié)局算是比較友好:

Anthropic道歉并補(bǔ)引了這篇工作;而Chenxi Wang則稱贊Anthropic在雙方重疊部分之外,做出了真正獨(dú)立的貢獻(xiàn)。

  • 尤其是研究情緒表征在不同情境下的功能作用方面,包括對(duì)偏好和與對(duì)齊相關(guān)行為的影響、在真實(shí)交互中的激活情況,以及后訓(xùn)練階段這些表征的演變。
    這些都是我們工作未曾涉及的重要方向。



她也指出,通訊作者Jack Lindsey在整個(gè)交流過(guò)程中,始終保持尊重的態(tài)度,并真誠(chéng)地參與到技術(shù)論證中。

最后,感興趣的朋友可以讀一讀這兩篇論文,鏈接已附在下方~


[1]https://x.com/ChenxiWang19183/status/2041204375549604106?s=20
[2]華人團(tuán)隊(duì)論文:https://arxiv.org/abs/2510.11328
[3]Anthropic論文:https://transformer-circuits.pub/2026/emotions/index.html#toc-18

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
瑞媒:美國(guó)在伊朗面臨“頭號(hào)難題”?

瑞媒:美國(guó)在伊朗面臨“頭號(hào)難題”?

參考消息
2026-04-06 18:15:18
震驚!裸車僅4.3萬(wàn)的張雪820機(jī)車,上海落地要53萬(wàn),差價(jià)近乎十倍

震驚!裸車僅4.3萬(wàn)的張雪820機(jī)車,上海落地要53萬(wàn),差價(jià)近乎十倍

火山詩(shī)話
2026-04-05 08:07:32
CBA焦點(diǎn)戰(zhàn)今夜打響!CCTV5直播!遼寧爭(zhēng)前8,吉林預(yù)送36連敗

CBA焦點(diǎn)戰(zhàn)今夜打響!CCTV5直播!遼寧爭(zhēng)前8,吉林預(yù)送36連敗

老吳說(shuō)體育
2026-04-07 11:11:34
中央官宣,基本養(yǎng)老金調(diào)整有望,去年2%,今年能與去年持平嗎?

中央官宣,基本養(yǎng)老金調(diào)整有望,去年2%,今年能與去年持平嗎?

孤城落葉
2026-04-06 21:42:03
車輛墜河致5人遇難,包括一家三口

車輛墜河致5人遇難,包括一家三口

中國(guó)新聞周刊
2026-04-07 13:00:03
80歲還扮嫩撈金?潘迎紫、趙雅芝穿古裝商演,網(wǎng)友:說(shuō)不出來(lái)的怪

80歲還扮嫩撈金?潘迎紫、趙雅芝穿古裝商演,網(wǎng)友:說(shuō)不出來(lái)的怪

削桐作琴
2026-04-07 15:14:18
交警提醒:轉(zhuǎn)向燈新規(guī)4月全面實(shí)施,不足3秒直接罰200元扣1分!

交警提醒:轉(zhuǎn)向燈新規(guī)4月全面實(shí)施,不足3秒直接罰200元扣1分!

復(fù)轉(zhuǎn)這些年
2026-04-07 12:26:59
王楚欽曬澳門世界杯照,許昕調(diào)侃:累得標(biāo)題都不起;王楚欽回應(yīng):大腦處于宕機(jī)狀態(tài)

王楚欽曬澳門世界杯照,許昕調(diào)侃:累得標(biāo)題都不起;王楚欽回應(yīng):大腦處于宕機(jī)狀態(tài)

極目新聞
2026-04-06 22:20:45
警惕“減肥神藥”司美格魯肽!增加骨質(zhì)疏松風(fēng)險(xiǎn)并加速衰老

警惕“減肥神藥”司美格魯肽!增加骨質(zhì)疏松風(fēng)險(xiǎn)并加速衰老

知識(shí)圈
2026-04-07 18:58:40
西方媒體:即便中國(guó)全力以赴,也不可能按時(shí)建成這樣龐大的工程

西方媒體:即便中國(guó)全力以赴,也不可能按時(shí)建成這樣龐大的工程

寶哥精彩賽事
2026-04-07 17:25:33
騎士105-108憾負(fù),首輪對(duì)手強(qiáng)勁,哈登輪休蓄力

騎士105-108憾負(fù),首輪對(duì)手強(qiáng)勁,哈登輪休蓄力

吳紒愛(ài)體育
2026-04-07 14:28:40
張雪峰前女友謎之操作,買下同小區(qū)房子稱要替他守家,好友發(fā)聲了

張雪峰前女友謎之操作,買下同小區(qū)房子稱要替他守家,好友發(fā)聲了

萌神木木
2026-04-07 11:57:34
4月7日突發(fā)!張雪峰妻子李麗倩正面回應(yīng):我不是博士,也不在河南

4月7日突發(fā)!張雪峰妻子李麗倩正面回應(yīng):我不是博士,也不在河南

行者聊官
2026-04-07 19:07:17
韓媒:韓日足球差距越來(lái)越大,日本已將世界杯奪冠視為可觸及目標(biāo)

韓媒:韓日足球差距越來(lái)越大,日本已將世界杯奪冠視為可觸及目標(biāo)

懂球帝
2026-04-07 18:26:06
貴陽(yáng)康養(yǎng)職業(yè)大學(xué)黨委統(tǒng)戰(zhàn)部副部長(zhǎng)左乾榮接受紀(jì)律審查和監(jiān)察調(diào)查

貴陽(yáng)康養(yǎng)職業(yè)大學(xué)黨委統(tǒng)戰(zhàn)部副部長(zhǎng)左乾榮接受紀(jì)律審查和監(jiān)察調(diào)查

知知貴陽(yáng)
2026-04-07 14:35:31
快訊!伊朗讓世界驚嘆!

快訊!伊朗讓世界驚嘆!

達(dá)文西看世界
2026-04-07 19:04:36
一路走好!清明假期剛過(guò)完,已有4位名人離世,最大86歲 最小僅26

一路走好!清明假期剛過(guò)完,已有4位名人離世,最大86歲 最小僅26

潮鹿逐夢(mèng)
2026-04-07 12:33:18
鄭麗文高鐵往返南京,清晨拜謁中山陵,392級(jí)臺(tái)階藏滿深意

鄭麗文高鐵往返南京,清晨拜謁中山陵,392級(jí)臺(tái)階藏滿深意

劉襈說(shuō)體壇
2026-04-03 15:23:26
KG是唯一見(jiàn)過(guò)72勝公牛和73勝勇士的球員 他的生涯橫跨20年

KG是唯一見(jiàn)過(guò)72勝公牛和73勝勇士的球員 他的生涯橫跨20年

仰臥撐FTUer
2026-04-07 09:25:10
吳邦國(guó)的狂草技藝,讓書(shū)壇驚嘆不已!

吳邦國(guó)的狂草技藝,讓書(shū)壇驚嘆不已!

書(shū)畫相約
2026-04-07 07:08:05
2026-04-07 19:55:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12434文章數(shù) 176445關(guān)注度
往期回顧 全部

科技要聞

滿嘴謊言!OpenAI奧特曼黑料大起底

頭條要聞

英媒:伊朗最高領(lǐng)袖病重昏迷 無(wú)法參與任何國(guó)家決策

頭條要聞

英媒:伊朗最高領(lǐng)袖病重昏迷 無(wú)法參與任何國(guó)家決策

體育要聞

官宣簽約“AI球員”,這支球隊(duì)被罵慘了...

娛樂(lè)要聞

女首富陳麗華離世 被曝生前已分好遺產(chǎn)

財(cái)經(jīng)要聞

10萬(wàn)億財(cái)政轉(zhuǎn)移支付,被誰(shuí)拿走了?

汽車要聞

不止是大 極狐首款MPV問(wèn)道V9靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

家居
房產(chǎn)
本地
公開(kāi)課
軍事航空

家居要聞

雅致愜意 感知生活之美

房產(chǎn)要聞

猛料!又有世界500強(qiáng)級(jí)巨頭,低調(diào)買入海棠灣!

本地新聞

跟著歌聲游安徽,聽(tīng)古村回響

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍營(yíng)救飛行員出動(dòng)155架飛機(jī)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版