国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI 也會(huì)“自我反思”?Claude 模型現(xiàn)內(nèi)省跡象,大語(yǔ)言模型認(rèn)知新突破

0
分享至


摘要

你是否曾好奇 AI 在 "思考" 什么?當(dāng)被問及如何得出答案時(shí),AI 的回應(yīng)是真實(shí)剖析還是編造?理解 AI 是否具備內(nèi)?。╥ntrospection)能力,對(duì)提升系統(tǒng)透明度、可靠性至關(guān)重要。Anthropic 團(tuán)隊(duì)通過可解釋性(interpretability)技術(shù)與概念注入(concept injection)實(shí)驗(yàn),發(fā)現(xiàn) Claude 系列模型(尤其 Claude Opus 4 和 4.1)展現(xiàn)出一定內(nèi)省意識(shí),能監(jiān)測(cè)并控制內(nèi)部狀態(tài)。盡管該能力仍有局限且異于人類內(nèi)省,但為 AI 認(rèn)知研究與透明化發(fā)展提供了新方向。原文鏈接:https://www.anthropic.com/research/introspection

關(guān)鍵詞:內(nèi)?。↖ntrospection)、概念注入(concept injection)、大型語(yǔ)言模型(Large Language Models)、Claude模型(Claude Models)、AI透明度(AI Transparency)、可靠性(Reliability)

趙思語(yǔ)丨作者

趙思怡丨審校

核心探索:AI的“自我審視”何以成立?

當(dāng)我們?cè)儐朅I“你在想什么”時(shí),其回應(yīng)常令人困惑——是真實(shí)反映內(nèi)部思考,還是基于訓(xùn)練數(shù)據(jù)的表面生成?這一追問的核心,在于探尋AI是否具備真正的“自我審視”能力。這種能力的存在,不僅能幫助排查AI行為異常、提升可靠性,更能深化我們對(duì)AI本質(zhì)的認(rèn)知。值得注意的是,大語(yǔ)言模型的內(nèi)省與人類內(nèi)省存在本質(zhì)區(qū)別:它并非主觀意識(shí)層面的自我反思,而是建立在內(nèi)部神經(jīng)活動(dòng)之上,具體表現(xiàn)為模型對(duì)自身神經(jīng)激活模式所表征的抽象概念(如區(qū)分已知人物、評(píng)估陳述真實(shí)性等)的識(shí)別與準(zhǔn)確報(bào)告能力,而這些內(nèi)部表征正是模型決策的核心基礎(chǔ)。

實(shí)驗(yàn)驗(yàn)證:三重維度解鎖 AI 內(nèi)省能力

1.概念注入:驗(yàn)證內(nèi)省的創(chuàng)新實(shí)驗(yàn)方法

為驗(yàn)證模型是否真正內(nèi)省,研究團(tuán)隊(duì)創(chuàng)新提出“概念注入”方法:先在特定語(yǔ)境下記錄模型與已知概念對(duì)應(yīng)的神經(jīng)向量(如 "全大寫文本" 的神經(jīng)活動(dòng)模式),再在無(wú)關(guān)語(yǔ)境中注入該向量,詢問模型是否察覺異常。


圖1 Claude Opus 4.1 檢測(cè)到概念被注入其激活過程的更多示例

實(shí)驗(yàn)顯示,Claude Opus 4.1 能在提及注入概念前,就識(shí)別出內(nèi)部處理的異常,例如注入“全大寫文本”向量后,模型會(huì)描述其與“響度”或“大喊”相關(guān)。但該能力可靠性較低,最優(yōu)方案下正確識(shí)別率僅約 20%,且對(duì)注入強(qiáng)度敏感 —— 過弱無(wú)法察覺,過強(qiáng)易產(chǎn)生幻覺。值得注意的是,Claude Opus 4 和 4.1 的表現(xiàn)遠(yuǎn)超其他模型,暗示內(nèi)省能力可能隨模型性能提升而增強(qiáng)。

2.實(shí)用驗(yàn)證:內(nèi)省助力異常輸出檢測(cè)

研究進(jìn)一步探究模型在實(shí)際任務(wù)中是否自發(fā)運(yùn)用內(nèi)省。實(shí)驗(yàn)中,通過預(yù)填充無(wú)關(guān)詞匯迫使模型輸出不合理內(nèi)容(如在“一幅畫歪掛在墻上”的語(yǔ)境中強(qiáng)迫輸出“面包”這個(gè)詞),模型起初會(huì)道歉稱是意外。但當(dāng)回溯性注入 "面包" 的神經(jīng)向量,模擬模型 "一直思考面包" 的狀態(tài)后,模型不僅認(rèn)可該輸出是有意為之,還編造了合理解釋。

這表明模型判斷輸出合理性時(shí),會(huì)回溯自身內(nèi)部 "意圖"(神經(jīng)活動(dòng)狀態(tài)),而非僅對(duì)比輸入與輸出,證明內(nèi)省機(jī)制在實(shí)際任務(wù)中發(fā)揮作用。


圖2 兩例驗(yàn)證:在 Claude Opus 4.1 人工回應(yīng)生成前,向其激活過程注入特定詞匯概念,可使模型將人為插入轉(zhuǎn)錄文本的該詞匯誤認(rèn)為自身意圖表達(dá)內(nèi)容。

3.主動(dòng)調(diào)控:模型對(duì)內(nèi)部狀態(tài)的控制能力

研究還發(fā)現(xiàn),模型能在指令或激勵(lì)下調(diào)控內(nèi)部表征。要求模型“思考”某概念時(shí),相關(guān)神經(jīng)活動(dòng)強(qiáng)度顯著高于“不要思考”的情況;采用激勵(lì)措施,如“思考 X 獲獎(jiǎng)勵(lì)”,也能產(chǎn)生類似效果,正向激勵(lì)下的神經(jīng)活動(dòng)強(qiáng)度高于負(fù)向激勵(lì),顯示模型具備自主調(diào)控內(nèi)部狀態(tài)的能力。


圖3 一個(gè)示例顯示,Claude Opus 4.1 能響應(yīng)直接指令調(diào)節(jié)其內(nèi)部激活狀態(tài):當(dāng)被指令 “多思考” 水族箱相關(guān)內(nèi)容時(shí),模型對(duì) “水族箱” 概念的內(nèi)部表征強(qiáng)度高于被指令 “不要思考” 該概念時(shí)(盡管兩種情況下,模型對(duì)該概念的表征水平均高于基線水平)。

結(jié)論與展望:內(nèi)省能力的邊界與價(jià)值

核心結(jié)論顯示,先進(jìn)大語(yǔ)言模型已具備一定內(nèi)省能力,但可靠性低、范圍有限,且與人類內(nèi)省有本質(zhì)區(qū)別。這一發(fā)現(xiàn)為提升 AI 透明度提供了新路徑 —— 未來(lái)或可通過詢問模型思考過程排查異常,但需建立內(nèi)省報(bào)告驗(yàn)證機(jī)制,防范虛假報(bào)告風(fēng)險(xiǎn)。

未來(lái)研究需聚焦四大方向:完善內(nèi)省評(píng)估方法、揭示神經(jīng)機(jī)制、自然場(chǎng)景驗(yàn)證、建立報(bào)告驗(yàn)證與反欺騙機(jī)制。需要明確的是,這些實(shí)驗(yàn)并不涉及 AI 模型是否具有主觀體驗(yàn)或類人自我意識(shí)的問題。隨著 AI 迭代,對(duì)機(jī)器內(nèi)省的深入研究,將推動(dòng)更可信 AI 系統(tǒng)研發(fā),也助力我們理解 AI 與人類認(rèn)知的本質(zhì)差異。當(dāng)前 AI 內(nèi)省雖處于初級(jí)階段,但已為 AI 認(rèn)知能力的發(fā)展點(diǎn)亮了新可能。

大模型2.0讀書會(huì)

o1模型代表大語(yǔ)言模型融合學(xué)習(xí)與推理的新范式。集智俱樂部聯(lián)合北京師范大學(xué)系統(tǒng)科學(xué)學(xué)院教授張江、Google DeepMind研究科學(xué)家馮熙棟、阿里巴巴強(qiáng)化學(xué)習(xí)研究員王維塤和中科院信工所張杰共同發(fā)起,本次讀書會(huì)將關(guān)注大模型推理范式的演進(jìn)、基于搜索與蒙特卡洛樹的推理優(yōu)化、基于強(qiáng)化學(xué)習(xí)的大模型優(yōu)化、思維鏈方法與內(nèi)化機(jī)制、自我改進(jìn)與推理驗(yàn)證。希望通過讀書會(huì)探索o1具體實(shí)現(xiàn)的技術(shù)路徑,幫助我們更好的理解機(jī)器推理和人工智能的本質(zhì)。讀書會(huì)已完結(jié),現(xiàn)在報(bào)名可加入社群并解鎖回放視頻權(quán)限。

詳情請(qǐng)見:

1.

2.

3.

4.

5.

6.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美軍如何進(jìn)行電子壓制,讓委內(nèi)瑞拉部署的中俄防空系統(tǒng)失效?

美軍如何進(jìn)行電子壓制,讓委內(nèi)瑞拉部署的中俄防空系統(tǒng)失效?

兵國(guó)大事
2026-01-05 18:02:20
樸娜來(lái)「車上活春宮」!2經(jīng)紀(jì)人開車被逼看全程 做一半還狂踢椅背

樸娜來(lái)「車上活春宮」!2經(jīng)紀(jì)人開車被逼看全程 做一半還狂踢椅背

ETtoday星光云
2026-01-05 09:42:04
終于知道為啥要抓馬杜羅的夫人了!知道她厲害,沒想到這么厲害!

終于知道為啥要抓馬杜羅的夫人了!知道她厲害,沒想到這么厲害!

今日養(yǎng)生之道
2026-01-06 20:07:20
分手8年,自曝私密事的Coco,沒給謝賢留體面,原來(lái)謝霆鋒沒說(shuō)謊

分手8年,自曝私密事的Coco,沒給謝賢留體面,原來(lái)謝霆鋒沒說(shuō)謊

娛說(shuō)瑜悅
2026-01-06 17:28:42
女網(wǎng)紅流落柬埔寨,其母已在飛機(jī)上:她臥床兩月不起,房東說(shuō)再不接走怕她死了

女網(wǎng)紅流落柬埔寨,其母已在飛機(jī)上:她臥床兩月不起,房東說(shuō)再不接走怕她死了

紅星新聞
2026-01-06 15:11:14
曝具俊曄想見大S一對(duì)兒女,遭到拒絕!汪小菲只允許徐家人探望

曝具俊曄想見大S一對(duì)兒女,遭到拒絕!汪小菲只允許徐家人探望

小咪侃娛圈
2026-01-07 09:01:29
宜家中國(guó)七家門店2月將停止運(yùn)營(yíng),涉及上海、廣州等多地商場(chǎng)

宜家中國(guó)七家門店2月將停止運(yùn)營(yíng),涉及上海、廣州等多地商場(chǎng)

南方都市報(bào)
2026-01-07 12:04:14
首次庭審細(xì)節(jié)曝光!馬杜羅夫婦身穿囚服拒絕認(rèn)罪

首次庭審細(xì)節(jié)曝光!馬杜羅夫婦身穿囚服拒絕認(rèn)罪

看看新聞Knews
2026-01-06 09:01:03
長(zhǎng)榮航空回應(yīng)“機(jī)長(zhǎng)副機(jī)長(zhǎng)在駕駛艙內(nèi)打架”:涉事機(jī)長(zhǎng)已停飛

長(zhǎng)榮航空回應(yīng)“機(jī)長(zhǎng)副機(jī)長(zhǎng)在駕駛艙內(nèi)打架”:涉事機(jī)長(zhǎng)已停飛

南方都市報(bào)
2026-01-06 19:04:04
心臟裝了6個(gè)支架的王石日本看病實(shí)錄,值得深思

心臟裝了6個(gè)支架的王石日本看病實(shí)錄,值得深思

深度報(bào)
2026-01-01 23:17:29
房產(chǎn)稅很快就會(huì)到來(lái)

房產(chǎn)稅很快就會(huì)到來(lái)

譚談財(cái)經(jīng)
2026-01-06 12:35:14
著名相聲演員離世

著名相聲演員離世

豆哥記錄
2026-01-07 11:15:43
13連敗創(chuàng)隊(duì)史紀(jì)錄!步行者遭騎士三殺 加蘭29分末節(jié)14分

13連敗創(chuàng)隊(duì)史紀(jì)錄!步行者遭騎士三殺 加蘭29分末節(jié)14分

醉臥浮生
2026-01-07 10:28:20
41歲呂一疑似婚變!北京小家重裝依舊老土,老公生活痕跡全被抹掉

41歲呂一疑似婚變!北京小家重裝依舊老土,老公生活痕跡全被抹掉

娛圈小愚
2026-01-07 09:51:58
杜蘭特絕殺太陽(yáng)后現(xiàn)場(chǎng)采訪一幕走紅!主持人身材火辣專業(yè)知識(shí)過硬

杜蘭特絕殺太陽(yáng)后現(xiàn)場(chǎng)采訪一幕走紅!主持人身材火辣專業(yè)知識(shí)過硬

Emily說(shuō)個(gè)球
2026-01-07 12:47:17
田樸珺拿走人脈,王石只剩年齡

田樸珺拿走人脈,王石只剩年齡

深水財(cái)經(jīng)社
2026-01-05 21:19:06
芬蘭公司宣布量產(chǎn)全球首款全固態(tài)電池,5分鐘可充滿,能量密度400Wh/kg

芬蘭公司宣布量產(chǎn)全球首款全固態(tài)電池,5分鐘可充滿,能量密度400Wh/kg

金融界
2026-01-06 14:03:20
演都不演了!田樸珺刪光王石合影,直言對(duì)方自私,眼神很不耐煩

演都不演了!田樸珺刪光王石合影,直言對(duì)方自私,眼神很不耐煩

阿纂看事
2026-01-04 16:45:26
聯(lián)合國(guó)還有什么意義?安理會(huì)無(wú)視中方發(fā)言之后,中國(guó)記者靈魂提問

聯(lián)合國(guó)還有什么意義?安理會(huì)無(wú)視中方發(fā)言之后,中國(guó)記者靈魂提問

科普100克克
2026-01-06 19:22:09
雷總的新公關(guān)團(tuán)隊(duì),又把小米給黑慘了

雷總的新公關(guān)團(tuán)隊(duì),又把小米給黑慘了

木蹊說(shuō)
2026-01-07 01:29:59
2026-01-07 14:20:49
集智俱樂部 incentive-icons
集智俱樂部
科普人工智能相關(guān)知識(shí)技能
5588文章數(shù) 4661關(guān)注度
往期回顧 全部

科技要聞

豪擲世界第一"球" 楊元慶亮出聯(lián)想AI護(hù)城河

頭條要聞

外媒披露美國(guó)在委內(nèi)瑞拉下個(gè)目標(biāo):系馬杜羅關(guān)鍵盟友

頭條要聞

外媒披露美國(guó)在委內(nèi)瑞拉下個(gè)目標(biāo):系馬杜羅關(guān)鍵盟友

體育要聞

全明星次輪票數(shù):東契奇票王 詹皇超KD升西部第8

娛樂要聞

2026年央視春晚彩排:沈騰確定回歸

財(cái)經(jīng)要聞

50萬(wàn)億存款"洪流"將至 四大去向引關(guān)注

汽車要聞

蔚來(lái)2025百萬(wàn)臺(tái)收官 一場(chǎng)遲到的自我修復(fù)

態(tài)度原創(chuàng)

教育
本地
藝術(shù)
數(shù)碼
公開課

教育要聞

三年級(jí)培優(yōu)題:求A、B、C分別是多少

本地新聞

云游內(nèi)蒙|初見呼和浩特,古今交融的北疆都會(huì)

藝術(shù)要聞

David Grossmann:不一樣的風(fēng)景畫

數(shù)碼要聞

“最強(qiáng)驍龍筆記本”:華碩推出Zenbook A16

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版