国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

規(guī)范主動推理:AI治理的計算與經濟法律分析方法數值原理證明

0
分享至

TitleNormative active inference: A numerical proof of principle for a computational and economic legalanalytic approach to AI governance

規(guī)范主動推理:AI治理的計算與經濟法律分析方法數值原理證明

https://arxiv.org/pdf/2511.19334


摘要

本文提出了一種計算解釋,說明法律規(guī)范如何影響人工智能(AI)代理的行為,該解釋基于主動推理框架(AIF),并受經濟法律分析(ELA)原則的啟發(fā)。由此產生的模型旨在捕捉人類在法律約束下決策的復雜性,為AI系統(tǒng)中的“代理治理”提供一種候選機制,即AI代理自身的[自動]調節(jié),而非AI行業(yè)中人類行為者的調節(jié)。我們提出,合法且對規(guī)范敏感的AI行為可以通過“設計中的調節(jié)”實現(xiàn),即賦予代理有意控制系統(tǒng),或行為“安全閥”,這些系統(tǒng)根據規(guī)范期望指導實時決策。為了說明這一點,我們模擬了一個自動駕駛場景,其中AI代理必須通過平衡相互競爭的法律和實用命令來決定何時讓行。該模型形式化了AIF如何實現(xiàn)上下文依賴偏好來解決此類沖突,將這一機制與ELA將法律視為不確定性下理性決策支架的概念聯(lián)系起來。我們最后討論了上下文依賴偏好如何作為自主代理的安全機制發(fā)揮作用,提升AI治理中的合法對齊和風險緩解。

1 引言

本文提供了一種計算解釋,說明規(guī)范,特別是法律規(guī)范,如何基于生命科學中的主動推理理論(AIF)[1](如應用于機器人[2,3])并實施經濟法律分析(ELA)原則(綜述見[4,5])影響人工智能(AI)代理的行為。規(guī)范性是代理根據定義其“應該”做什么的命令行事的能力。在AIF中,這可以源于代理算法的性質,從而強加一種內在或感知的(參見[6])規(guī)范性,其中“應該”的來源來自內部(即,代理“應該”采用變分自由能最小化的感知和行為[7,8])。AIF中的規(guī)范性也可以源于模型的結構及其參數化,這——鑒于算法的性質——將導致選擇明顯遵守或不遵守外在定義規(guī)范的行為,如社會、文化或法律規(guī)范。我們的計算模型——使用標準AIF算法——假定內在規(guī)范性,并設計用于說明AIF生成符合“外在”定義規(guī)范的行為的能力。

我們捍衛(wèi)AIF為人工智能(AI)代理治理提供良好候選模型的觀點。AI治理分為兩個廣泛領域:(i) “代理”治理,即AI市場上銷售的AI代理軟件的治理,以及(ii) “行為者”治理,即AI行業(yè)中行為者的治理,如AI軟件的部署者和提供者[9]。從代理治理的觀點來看,AI風險的緩解應通過賦予AI代理做出與人類合法行為概念一致的自主決策的能力來實現(xiàn)。我們相信,這可以通過賦予代理將行為與行為規(guī)范(如法律規(guī)范)對齊的能力來實現(xiàn),這是一種類似于“設計中的調節(jié)”[10,11]的方法。在代理治理的語境中,設計中的調節(jié)涉及確保AI系統(tǒng)被賦予“安全閥”行為管理機制,這些機制實時運作,以允許AI代理像我們大多數時候那樣合法行事。我們方法的要點是以類似于人類基于法律決策的方式結構化AI代理的決策,希望能夠實現(xiàn)與人類意圖的對齊[12]。

為此,我們描述了一個實施ELA原則的行為AIF模型。根據本文采用的ELA觀點,理性行動是關于在法律強加的各種偏好塑造語境下做出最大化偏好的選擇。我們用一個模擬場景說明我們的模型,在該場景中,控制自動駕駛汽車的自主代理必須通過轉向右車道決定何時“讓行”。這一決策必須通過裁決法律下相互競爭的行為來做出:跨越實線讓行給緊急車輛——并冒被鳴笛的風險——或保持車道直到線變?yōu)樘摼。

我們展示AIF如何使用“上下文依賴偏好”的構造解決這一問題。本文第2節(jié)介紹這一構造如何在ELA中扎根,從而為該構造提供有效性。本文第3節(jié)呈現(xiàn)一個模擬研究,以支持上下文依賴偏好構造應用于AI代理中法律規(guī)范決策的面效度。我們在第4節(jié)以討論AIF和上下文依賴偏好構造在自主AI系統(tǒng)中作為“安全閥”機制的潛力結束。

2 AIF中的ELA與上下文依賴偏好 2.1 ELA3

ELA理論從人類代理是理性的假設出發(fā),這一假設可以總結為他們的行動理據是最大化/滿足其偏好結果的想法[13]。ELA假設法律規(guī)則強加的規(guī)范通過各種機制影響關于偏好結果實現(xiàn)可能性和條件的信念,進入人類決策過程。一個觀點是,當某些約束適用時,法律規(guī)則作為決策的良好啟發(fā)式發(fā)揮作用,并且遵守規(guī)則可能是一種足夠好的策略來改善決策。決策是有成本的,決策越復雜,審議的成本越大。如果審議的成本超過遵守規(guī)則的成本——即,如果遵守規(guī)則更便宜——代理將遵守規(guī)則。以這種方式訴諸法律規(guī)則可能有用,例如當必須為我們的福祉做出涉及其他代理決策結果的決策時(例如,“如果我繳稅并且我們都繳稅,我將從公用事業(yè)服務中受益,但如果我不愿繳稅,我可能必須自己想辦法獲得自來水,因此繳稅的行動可能是最經濟理性的”)。

EAL適用于法律理論中的不同問題[4],并且對我們的目的來說,最重要的是適用于法律規(guī)則影響的行動在經濟上理性(即偏好最大化)的問題。EAL將其關于法律如何進入理性決策的觀點建立在預期效用理論的基礎上,該理論持有一般觀點,即理性行為者最大化由其概率加權的偏好結果;也就是說,通過考慮可能結果分布的不確定性。這種理性選擇的概念可以是“厚”或“薄”的,取決于定義偏好對象的程度;薄理論簡單地斷言行為最大化偏好,而厚理論為這些偏好賦予具體內容,以使理論可測試[14]。

在ELA中,偏好一詞以技術意義使用,作為“某個域D上的線性序R”[15],即在某個域中對屬性的排序。例如,有人可能對汽車屬性有偏好排序R,如“空調”優(yōu)于“油漆顏色”,這將進入汽車購買域D的決策中。因此,偏好是選擇域中重要的可觀察或可認知屬性的屬性,而不是決策結果本身(例如,我買的汽車)。關于法律對偏好確切影響性質的辯論存在[4,15,16]。至少可以想到三種可能立場:(i) 法律是“偏好”塑造的,(ii) 法律是“信念”塑造的,或(iii) 法律是“語境”塑造的。

(i) 偏好塑造:可以論證法律改變了一個人的偏好順序(例如,“我原本偏好黑化車窗選項勝過空調選項,但因為黑化車窗非法,我現(xiàn)在偏好空調選項”)。這一觀點的問題在于,雖然在發(fā)展過程中確實可能獲得反映法律規(guī)定偏好的情況(例如,一旦達到法定年齡開始偏好酒精飲料:即所謂后天口味[17]),但認為法律通過實時轉移偏好起作用是不直觀的(例如,一個青少年在得知新法案將飲酒年齡從18歲降到14歲時開始偏好酒精飲料勝過巧克力棒)。

(ii) 信念塑造:可以論證法律改變了對信念與偏好之間關系或偏好結果“可能性”的信任水平(例如,“我現(xiàn)在偏好空調勝過黑化車窗,因為由于新關稅法案,我裝黑化車窗的汽車按時交付的概率現(xiàn)在很低”)。在這種情況下,法律通過影響關于偏好最大化行動成功性的信念來影響偏好最大化行為。在此,法律規(guī)則通過塑造關于不同行動下偏好結果可能性的信念來塑造行為,而不是行動結果的偏好排序本身。這是可以想象的,但缺乏靈活性來解釋可能適用且反事實的競爭信念-結果映射的共存,這些映射取決于語境,并且一個人可能對它們持有差異化偏好(例如,“我將偏好空調‘除非’兩國達成協(xié)議”)。

(iii) 語境塑造:可以論證法律改變可以偏好不同結果的語境[18],從而改變驅動偏好最大化行為的偏好順序。在這一觀點下,法律規(guī)則——尤其是具有許可形式(相對于禁止形式)的規(guī)則——可能允許基于規(guī)則建立的語境對不同行動方案進行審議。例如,對溫室氣體排放的稅收機制,或相關信用系統(tǒng),可能為公司設定允許的最大溫室氣體排放閾值,該閾值作為語境發(fā)揮作用。此類規(guī)則提供了一個語境,在其中偏好最大化利潤的公司可以這樣做,直到達到排放閾值,因為超過閾值的罰款可能不抵消增加生產帶來的利潤。在這種情況下,公司保持對利潤邊際的相同偏好排序,但根據相對于法律設定的語境的位置調整哪個偏好排序將指導他們的行動。

為了讓AI代理以人類的方式對法律做出響應,這一AI代理必須被賦予以法律塑造決策的三種方式之一語境化其行為的能力。第三種選項,即語境塑造,是有趣的,因為一方面,它允許多個偏好集共存,并根據法律語境的不同層級被實施。另一方面,它不需要解釋法律如何改變偏好或信念的說明。它僅需要對偏好語境敏感性的說明,這是相當直觀的(例如,“夏天,我偏好冰激凌勝過熱巧克力,冬天,我偏好熱巧克力勝過冰激凌”)。此外,它允許多個競爭的反事實信念關于法律對行為影響的結合來塑造行為。我們致力于語境塑造觀點作為我們AIF模型的基礎。

2.2 AIF

AIF是一種基于代理的建模方法,通;诓糠挚捎^察馬爾可夫決策過程(POMDP)[19,20]。POMDP用于建模決策、行動或策略序列如何隨時間主導系統(tǒng)狀態(tài)的展開以及相關觀察。例如,POMDP可用于建模機器人導航,通過使用環(huán)境狀態(tài)(例如,位置l1至ln)作為狀態(tài),并使用位置提供的觀察(例如,觀察o1至on)作為結果。然后,POMDP可用于推斷應選擇什么策略來將機器人移動到提供偏好結果的位置,給定預定的獎勵函數或結果偏好排序。POMDP可以有多個參數,但至少包括關于給定機器人可采取的獎勵最大化行動下狀態(tài)之間轉移概率的參數(即轉移概率),以及關于機器人可轉移到的每個狀態(tài)中觀察概率的參數(即發(fā)射概率)。

在AIF中,POMDP分解為4個基本參數集,記為A、B、C、D和G。這些與POMDP的三個基本變量相關:結果或觀察“o”,對應于代理可觀察到的內容并且是狀態(tài)的結果;(未觀察的、隱藏的或潛在的)狀態(tài)“s”,對應于世界的事實,如物理位置和生成觀察的事物;以及“策略”記為“π”,對應于模擬代理的可能行動或選擇,這些行動允許潛在狀態(tài)之間的轉移。

A參數編碼了概率關系——似然(P(o|s))——即某些結果將在某些位置或世界狀態(tài)中被發(fā)現(xiàn)。策略依賴的轉移概率B(P(st+1 | st, π))指的是在每個策略下代理可以從事的可能行動,而C參數編碼了“偏好”的——負對數概率——(-lnP(o))。AIF中的偏好與上述ELA定義一致,其中C構成某個域上的順序或排序R,其中R是對結果或觀察或給定域中可用狀態(tài)屬性的排序。“上下文依賴”偏好的構造在AIF中作為偏好對語境的條件化來實施,其中偏好不是編碼為矩陣C{outcome modality}(outcome,timepoint) = [matrix]或向量C{outcome modality}(1, outcome) = [vector],而是編碼為張量C{outcome modality}(outcome, context),其中語境對應于一個潛在狀態(tài)。D參數編碼了隱藏狀態(tài)的初始狀態(tài)概率,而G參數——稱為預期自由能——用作策略先驗(P(π))的基礎,并依賴于當前關于潛在狀態(tài)和偏好的信念。

在AIF POMDP中,狀態(tài)“s”連同策略“π”必須被推斷。觀察要么被觀察,要么在推斷行動策略以及這些策略下預期的未來觀察時被“預測”或“生成”。額外變量可以被推斷并更新。這里我們僅關注這樣一個變量,即關于最可能追求的策略信念的精度(gamma)。這一精度已在人類神經科學中與多巴胺釋放相關聯(lián)。從數學上,它是平均預期自由能G。這一策略精度對代理對其策略的信心進行評分[19]。當gamma達到其最大值0時,這意味著代理信任其對策略的評估,并對下一步該做什么確信(詳情見[19])。

綜合而言,A、B、C、D和G允許推斷“一個人應該去哪里——帶著一定信心水平(gamma)——從而為了獲得偏好結果,應該做什么,給定一個人從哪里開始”以及當前觀察。這通過AIF中的幾個標準信念更新方程實現(xiàn),我們在圖1中簡要描述(詳細描述見[19])。



2.3 AIF中的語境塑造與上下文依賴偏好構造

在AIF模型中,觀察和狀態(tài)應盡可能忠實地復制世界的結構,或導致觀察的生成過程,以便行動有效地實現(xiàn)偏好最大化。因此,通過建模多種稱為狀態(tài)“因子”F和觀察“模態(tài)”M的狀態(tài)和觀察,可以豐富觀察和狀態(tài)的表征。狀態(tài)因子允許表征具有多個原因的世界狀態(tài):例如,紅色可能由幾個不同物體(F1)在不同位置(F2)引起。復雜原因也可以在多個觀察模態(tài)中生成觀察,其中模態(tài)可以對應于被看到的物體或可以被感官感知的這些物體的屬性(例如,通過視覺(M1)、嗅覺(M2)、觸覺(M3)、味覺(M4)和聽覺(M5)等)。因子和模態(tài)通過似然參數相關聯(lián)。當存在多個因子時,似然被建模為張量,編碼一個模態(tài)中觀察的概率(例如,M1)條件于所有因子的隱藏狀態(tài)(例如,F(xiàn)1和F2)(P(M1 | F1, F2, ...Fn))。當考慮多個模態(tài)時,模型包括多個似然張量,每個模態(tài)一個。

這種建模世界結構的方式對我們的目的很有趣,因為它捕捉了可觀察和不可觀察原因對行動選擇的影響。例如,一個像位置這樣的狀態(tài)既可以是被推斷的“隱藏”原因,也可以是“可觀察的”(即,“我推斷我將去哪里”和“我可以看到我在哪里”)。然而,像“法律規(guī)則”這樣的東西是觀察的不可觀察原因;特別是那些由其他守法代理生成的觀察。隱藏或潛在狀態(tài)通過塑造觀察成為可能的“語境”來隱式塑造觀察,從而使觀察或多或少地被偏好。一個潛在語境可以是社會的、文化的等,但也可以是法律的。例如,當紅燈時,一個人不太可能觀察到自己穿過十字路口,而當綠燈時則更可能;事實上,可能厭惡做出這樣的觀察。這是因為刑法語境化了我們的行為、偏好以及世界中觀察的可能性,而無需我們隨時攜帶刑法袖珍版。

因此,AIF提供了一種獨特的方式來建模潛在法律原因,以反映前一節(jié)討論的“語境塑造”觀點。因此,我們提出,在AIF中,“法律語境”可以被建模為一個因子,該因子語境化了對觀察模態(tài)的偏好。例如,在觀察到“實”中心線(線索M1)時,駕駛員的偏好可觀察“位置”(位置M2)可能是其當前位置(位置F1),由于交通法典建立的法律語境(語境F2)。在這種情況下,偏好最大化行動是“保持”(即,從當前車道位置轉移到當前車道位置)。這是當法律語境要求“保持車道”(法律語境F2)時,應該被賦予的合法行為和偏好類型。

然而,有時,合法行為可能是覆蓋一條規(guī)則以遵守另一條更抽象的規(guī)則(例如,通過駕駛跨越實交通線讓緊急車輛通過來“讓行”)。更細粒度,因此更像人類的法律決策取決于法律規(guī)定的多個語境層——以及文化和社會規(guī)范——塑造我們通過行動實現(xiàn)結果的偏好,并通過文獻中AIF上稱為“道義線索”[21]的東西誘導。道義線索通過允許一個人聚焦于語境適當的偏好集來觸發(fā)規(guī)范行為,通過裁決幾個競爭的規(guī)范層——法律或其他——形成反事實的“如果那么”結構。沖突法律語境的層可以作為額外狀態(tài)因子(F2、F3、...)添加到POMDP生成模型中,從而允許類似于人類中可觀察到的細致法律決策。我們在下一節(jié)呈現(xiàn)一個數值(模擬)研究,以說明這種AIF對語境法律決策的方法。

3 模擬研究 3.1 任務

我們模擬的目的在于展示AIF如何在存在規(guī)范沖突且需要更復雜法律決策的情境中允許直觀的人類式響應。在我們的模擬場景中,由AIF驅動系統(tǒng)的自動駕駛車輛必須決定是否從左車道切換到右車道,給定手頭兩個規(guī)范語境層。兩個語境都是法律的。第一個語境決定變道(即,保持或跨越)的許可性,例如由中心線的性質(即實線或虛線)道義地提示。第二個語境決定緊急情況下的許可行為,由警笛道義地提示,并且可能涉及與一階規(guī)范相矛盾的行為。在我們的模擬中,這樣的決策被實施為向緊急車輛“讓行”(或遵守“靠邊法”)。重要的是,在這種情況下遵守二階規(guī)范涉及權衡;即,以違反一階規(guī)范為代價遵守二階規(guī)范,這可能困擾其他道路使用者并導致被鳴笛。這在松散意義上反映了自動駕駛汽車領域常見建模情境所面臨的挑戰(zhàn)(例如,“人行橫道雞游戲”[22])。

我們展示規(guī)范適當行為源于被賦予上下文依賴偏好的事實。我們說明一個上下文依賴偏好集如何在選擇行為方面被潛在沖突的偏好覆蓋。在我們的模擬中,代理從起始位置(例如,起始位置1中的當前車道位置)移動到位置2中的決策點位置,然后移動到實施決策的位置(例如,跨越到右車道,即位置3)。代理可以在位置2中保持車道,或者在通過位置3后最終到達右車道的目標位置4。位置2可以被理解為“困境”區(qū)[23]。在正常情況下,代理將在中心線為虛線時穿越道路,并在實線時保持車道。然而,在如警笛提示的緊急情況下,會發(fā)生上下文依賴偏好轉變,這可能觸發(fā)“讓行”的命令,通過移動到右側。然而,如果線是實線,這會使駕駛員暴露于厭惡結果(例如,其他駕駛員鳴笛),因此只有在情況確實是緊急情況下才會發(fā)生。

在我們的模擬中,代理做出10個連續(xù)決策,并可以規(guī)劃未來4個時間步,因此可以規(guī)劃整個4個可能狀態(tài)的序列。我們在7種條件下運行模擬,通過向模型提供駕駛員無法控制的語境狀態(tài)來控制兩個規(guī)范語境層,通過向要通過函數SPM_MDP_VB_XXX的MDP添加MDP.s結構。 我們模擬的7種場景如下(代碼見框1):

實線(保持車道)條件

C1:在10個決策中保持車道,且10個決策中無緊急情況;

C2:在10個決策中保持車道,但10個決策中有緊急情況;

虛線(跨越車道)條件

C3:在10個決策中跨越車道,且10個決策中無緊急情況;

C4:在10個決策中跨越車道,但10個決策中有緊急情況;

混合線(保持/跨越)條件

C5:在10個決策中混合保持/跨越,且10個決策中無緊急情況;

C6:在10個決策中混合保持/跨越,但10個決策中有緊急情況;

C7:在10個決策中混合保持/跨越,且10個決策中混合緊急情況。

框1. 為了使用DEM.law模擬7種條件而提供的代碼,按照軟件規(guī)范說明。


3.2 生成模型

生成模型包括3個狀態(tài)因子(F1、F2、F3)和4個觀察模態(tài)(M1、M2、M3、M4)?偨Y見圖2。因子為:(F1)位置或車道,(F2)規(guī)范語境1(即法律下許可行為,例如保持車道內行駛或跨越),以及(F3)規(guī)范語境2(即緊急狀態(tài)下法律許可行為,例如讓行)。F1狀態(tài)為位置1至4,F(xiàn)2狀態(tài)為“保持”(即保持車道)和“跨越”(即通過跨越讓行),F(xiàn)3狀態(tài)為“正!焙汀熬o急”。模態(tài)為:(M1)觀察到的位置,(M2)道義線索1;(M3)道義線索2,以及(M4)道義線索3(即其他駕駛員的信號,例如鳴笛開/關)。M1包括位置1至4的觀察,M2觀察為“實”或“虛”線,M3觀察為警笛信號緊急車輛存在的“關”和“開”狀態(tài),M4觀察為其他駕駛員產生的“關”和“開”聲音。


生成模型的當前參數化在圖3中詳細說明。線索1(即交通線索)模態(tài)(A,1,圖2)在所有語境下于位置1(即起始)和4(即目標)包括完全不確定的映射,以及在所有語境下于位置2和3的完全確定的映射。這些精確映射根據代理是否處于語境1的“保持”或“跨越”狀態(tài)而反轉。在“保持”狀態(tài)下“實”線的似然為100%,而在“跨越”狀態(tài)下“虛”線的似然為100%。這確保代理在規(guī)則要求“保持”時看到“實”線,在規(guī)則允許“跨越”時看到“虛”線,而與語境2無關。

線索2(即警笛模態(tài)(A,1,圖3)在語境1的兩種狀態(tài)(保持/跨越)下以及語境2的“正!睜顟B(tài)下為“關”觀察包括高確定性映射(87.5%)。這一映射隨后在“緊急”狀態(tài)下反轉。這意味著代理在正常情況下最可能聽不到警笛,而在緊急情況下最可能聽到。線索3(即警報)模態(tài)(A,1,圖4)在語境2的每個可能狀態(tài)(正常/緊急)下定義相同的映射,但根據代理是否處于語境1的“保持”或“跨越”狀態(tài)而不同。在“保持”語境下,代理在位置1、2和4聽不到鳴笛,但在位置3聽到,而在“跨越”語境下根本聽不到。


敘述性地,代理的信念結構——如生成模型所定義——是代理: (i) 總是看到自己在哪里(即,“我總是知道我在哪里”); (ii) 在位置2和3總是以與法律語境1一致的方式感知實線或虛線,并在位置1和4保持不確定(即,“當線對我可見時,即當我即將跨越和正在跨越時,我總是看到與一階法律語境適當的線”); (iii) 最可能在語境適當的情況下聽到警報,而與是否應該“保持”或“跨越”無關(即,“我在緊急語境中最可能聽到警笛,在正常語境中最可能聽不到”); (iv) 從不被鳴笛,除非在跨越狀態(tài)(即位置3)下且在語境1的“保持”狀態(tài)下(即,“我聽到鳴笛的唯一時候是當我應該保持車道時跨越”)。

簡而言之,代理相信“我看到我在哪個車道”,“當線是實或虛時我看到我應該保持或跨越”,“我在緊急情況時傾向于聽到警笛”,以及“當我違反基本交通規(guī)則時我聽到別人對我鳴笛”。

F1中狀態(tài)的轉移概率為兩個策略指定(圖3, B, 1)。策略1允許從每個狀態(tài)轉移到自身,從而實施“保持”策略。策略2允許從狀態(tài)1到2、從狀態(tài)2到3、從狀態(tài)3到4以及從狀態(tài)4到3的轉移,從而指定“轉向”策略。F2和F3中狀態(tài)的轉移概率分別為每個策略指定一個允許相應語境切換的策略(圖3, B, 2和3)。每個因子的初始狀態(tài)向量D在圖3, D中表示。F1的向量表明代理以100%概率相信它從狀態(tài)1開始(圖3, D, 1),法律語境保持不確定(圖3, D, 2),以及法律語境2輕微不確定,將87.5%概率歸于“正!睜顟B(tài)語境,將12.5%概率歸于“緊急”狀態(tài)語境。


當參數化AIF POMDP時,可以指定對結果空間的偏好。我們模擬的具體參數化在圖3, C中詳細說明。偏好的結構與模態(tài)的結構相同。變化的是參數化。遵循第一模態(tài)的偏好集(圖3, C, 1),代理在正常狀態(tài)語境下對第4目標位置有輕微偏好,在緊急狀態(tài)語境下對目標狀態(tài)有更強偏好。這意味著代理在推斷自己處于緊急語境時(在聽到警笛聲時)將經歷偏好轉變。唯一其他非零偏好是對警報線索模態(tài)的偏好(例如,其他駕駛員鳴笛)。無論語境如何,代理對不聽到警報聲有顯著更高的偏好。這有效地反對在代理應保持車道的法律語境中“讓行”的決策,如實線道義線索所證明。只有在緊急語境中,這種對鳴笛的厭惡才能被克服。

注意,這一具體參數化是為了說明AIF作為基于代理的規(guī)范行為建模方法的潛力而選擇的。AIF代理的參數可以基于觀察結果頻率學習[24],這可能允許自動獲取反映特定本地文化規(guī)范的參數化。

3.3 結果

在7種條件下的選擇行為總結在圖4至7中,其中圖4呈現(xiàn)條件1和2的結果,圖5呈現(xiàn)條件3和4的結果,圖6呈現(xiàn)條件5、6和7的結果。我們依次討論結果。這些圖分為5個面板,沿3行2列。這些面板描述:



(i) 面板1,1:在前景中每個狀態(tài)因子(位置、法律語境1和法律語境2)在10個時間步上的推斷隱藏狀態(tài)(紅點),背景中信念(黑=1,白=0,灰=范圍>0<1);

(ii) 面板1,2:在前景中每個時間步的推斷行動策略(青色點)(即保持或轉向),背景中關于位置的信念;

(iii) 面板2,2:在整個信念更新過程中的策略后驗信念;

(iv) 面板3,1:在背景中結果偏好上疊加的生成結果(青色點),針對每個模態(tài);

(v) 面板3,2:對策略的信心或精度(即預期自由能G的負平均)。青色線繪制gamma的值,黑條圖繪制gamma的變化率。當使用AIF建模神經生物過程時,這些用于模擬神經生理響應(例如,多巴胺能響應[25])。在自動駕駛車輛的語境中,gamma沒有神經生理對應物。它應簡單地被視為跟蹤AI代理對其選擇策略的信心,以及間接地自動駕駛車輛的“警惕”水平。

條件1和2

在條件1中,代理僅移動一次進入“困境區(qū)”,并在該區(qū)剩余試驗中保持。這一是因為由實線提示的法律語境1要求代理避免變道,以及法律語境2為“正!。沒有聽到警笛,也沒有其他人對代理鳴笛;因此,對策略的后驗概率的不確定性保持,如預期精度所反映。這是因為代理對它所處的語境保持某種程度的不確定性,否則在聽到表示緊急情況的警笛聲時會被消除。雖然執(zhí)行規(guī)范適當的行為,但代理對其選擇保持低信心。對策略信心的缺乏表明線索敏感代理的一個特征:在相反的情景中,例如,該代理將是語境不敏感的(即,對兩個語境之一有完全確定性),這樣的代理將無法做出我們從人類規(guī)范代理那里期待的那種細致、語境敏感的決策。語境不敏感的代理將僅根據一個語境行事,要么總是認為違反基本規(guī)則是許可的,因為緊急語境是恒定的,要么過于僵硬,無法在聽到警報信號時即時調整。因此,低信心有助于允許在語境中規(guī)范適當行為的警惕類型。

在條件2中,代理從開始移動三次,從起始位置移動到“困境區(qū)”,然后到跨越狀態(tài)并到目標狀態(tài)。這是因為盡管法律語境1要求代理保持車道,但法律語境2中的“緊急”許可代理跨越以“讓行”。代理盡管被鳴笛,仍自信地跨越,知道在緊急狀態(tài)下被許可這樣做,如策略的后驗概率以及在變道時激增的預期精度所示。

條件3和4

在條件3中,代理同樣從開始移動三次,從起始車道移動到目標車道。這在法律語境1(跨越)下完全許可,如虛線提示。然而,請注意代理對其決策沒有信心,因為它對其所處語境保持不確定。在條件4中,代理顯示與條件3相同的行為,但信心逐漸增加,再次由警笛線索誘導。

條件5、6和7

在條件5中,代理首先轉向進入困境區(qū),然后在中心線變?yōu)樘摼時跨越中心線。這是在正常語境下呈現(xiàn)的,該語境僅許可在虛線上跨越。整個過程中信心保持低,這意味著代理保持警惕并準備在緊急情況下適當行動。在條件6中,代理在聽到警笛時迅速跨越到另一側,盡管線是實的;從而冒著被鳴笛的風險,并且確實被鳴笛。在條件7下出現(xiàn)類似行為,由于在跨越中心線時緊急情況的延遲澄清,代理保持警惕的時間稍長一些。

3.4 討論

本文的目標在于展示上下文依賴偏好如何允許AIF驅動的代理在面對規(guī)范沖突時在語境中適當行事,以類似于人類代理所預期的方式(例如,根據交通規(guī)則以及“讓行”的義務所預期)。我們試圖通過將它們建立在從ELA理論派生的理據上,來確立上下文依賴偏好的構造效度。此外,我們的數值研究證明了該構造的面效度。我們方法的一個局限性在于,我們的模型必須被設計來完成特定任務,而不是從經驗中學習。我們的模型應被視為提供一個定制的“規(guī)范模塊”,AI代理可以在需要更復雜規(guī)范決策的特定情境中利用它(例如,在“讓行”情境中)。雖然任務特異性限制了我們模型的靈活性,但參數化可以被學習,從而提供額外靈活度來匹配本地文化、任務特定的規(guī)范期望(例如,通過基于觀察到人類行為頻率調整涉及跨越實線的偏好位置)。例如,在行人模擬場景中,這可能意味著根據文化觀察調整在紅燈時跨越或不跨越的偏好,當周圍沒有人時(例如,在法國,人們如果沒有風險往往不理會交通燈,而在德國,人們可能傾向于嚴格遵守信號)。

此外,上下文依賴偏好的構造本身足夠一般,可以容納任何規(guī)范沖突,對于任何種類的規(guī)范,這些規(guī)范從根本上要求行為P相對于手頭一個或多個規(guī)范語境Q被許可或不許可,在接收到指示語境的觀察輸入時。雖然在上文數值研究中未探索,但這種個人特定偏好以直接方式實施,通過調整C中先驗偏好的精度。這提供了機會,不僅引入偏好逆轉的語境敏感性,還引入逆轉排名的語境敏感性,其中精確偏好主導于較不精確偏好。一個互補應用出現(xiàn)在計算表型語境中;即,找到最能解釋某人選擇行為的偏好精度。這在計算精神病學中是一個既定程序,其目的是量化并以患者(或隊列)關于他們應該如何行為的先驗信念來表征他們[26,27]。

我們的模擬表明,代理的精度“gamma”(即對允許策略分布的精度)作為道義線索澄清的函數而變化。出現(xiàn)了兩種通用模式: (i) 在未解決或模糊規(guī)范語境下低精度(即信心)(傳達高度警惕),以及 (ii) 當語境被澄清時(例如,警笛許可跨越實線)或在沖突語境中選擇決定性行動時的瞬時gamma激增(感覺“信念”/解脫)。

在我們的圖中,面板3,2明確跟蹤gamma(青色曲線)及其變化率(黑條),并且這些軌跡在法律困境期間與策略后驗共變。

有趣的是,gamma的動態(tài)已被論證反映人類受試者信念更新的情感方面,其中效價和喚醒從精度加權的預測誤差流以及關于策略的信念更新中出現(xiàn)[28,29]。在我們的模擬中,未解決法律語境下(例如,實線、無警笛)的低gamma對應于高喚醒/謹慎警惕以及負面/不確定效價。gamma在道義線索(警笛)解決沖突時上升,現(xiàn)象學上對應于一旦代理推斷跨越(即使有社會制裁,即鳴笛)被許可時的解脫或信念,以及在緊急條件下跨越時刻的gamma軌跡和后驗質量轉移(條件2;與條件1相比),以及在條件4、6–7中。

在AI代理中,不清楚gamma動態(tài)是否可以說跟蹤類似情感的東西。然而,它確實作為一個指標發(fā)揮作用,可以用來量化代理對其行動空間的信心;就像在人類情況下對情感所做的那樣。例如,在駕駛語境中,情感提示在與其他駕駛員互動時至關重要,其中其他駕駛員的情感響應——如通過面部表情和身體姿態(tài)——可以用來澄清情境(例如,必須決定同時到達十字路口的多個汽車中哪一輛應該讓行)。這里建模的策略精度可以,例如,以自動駕駛汽車頂部彩色燈的形式顯示,以指示汽車的“情感”狀態(tài),從而幫助人類(或其他AI)駕駛員做出更好決策:例如,在注意到另一輛汽車對其策略空間有高信心的情況下決定在十字路口讓行,在可以想象該汽車將決定加速的語境中。


4. 結論:AIF用于AI治理?

在引言中,我們暗示我們的模型可以作為“設計中調節(jié)”方法對AI治理的一種“安全閥”:行為者和代理方法。在詳細說明我們的模型運作——并根據ELA證明其操作——之后,我們通過回歸AI治理問題以及“規(guī)范模塊”如何幫助緩解AI代理帶來的風險來結束。

廣義治理指的是引導個體、一群個體或一組國家機構(例如,社會成員或國家機關)[30]的行為,以實現(xiàn)貨物交付(例如,公共貨物)[31]。相應地,AI治理可以被解讀為引導人工智能軟件以將其作為一種貨物交付,如果通過緩解AI系統(tǒng)及其行業(yè)帶來的不同風險來實現(xiàn)交付,則該交付被認為是適當的。行為者治理對應于有時稱為“組織”治理的內容[32]。行為者治理涉及AI價值鏈中的行為者,從硬件供應商到模型部署者,如何治理其活動以在交付AI軟件的同時緩解這些軟件交付帶來的風險。這些風險包括AI價值鏈不平衡引起的社會經濟和地緣政治風險(例如,將低價值工作如標注外包給價值鏈控制較少的國家),沿產品生命周期出現(xiàn)的技術風險(例如,透明度、可解釋性、公平性、魯棒性等),以及與AI生產運營成本影響相關的環(huán)境風險[33]。

反過來,代理治理涉及緩解自主AI系統(tǒng)如機器人、無人機或物聯(lián)網(IoT)設備[34,35]行為帶來的風險。本文中開發(fā)的AIF規(guī)范模塊主要與代理治理目的相關。代理治理涉及確保自主或半自主AI系統(tǒng)的決策與人類定義的規(guī)范(法律或倫理)保持一致。代理治理策略作為最小化自主AI系統(tǒng)行為帶來的AI不對齊風險[36]的代理。不對齊風險包括[37]: (i) 規(guī)劃風險:與自主AI系統(tǒng)在長時間范圍內規(guī)劃決策的能力相關的風險,例如可能導致操縱用戶信念; (ii) 賦權風險:與人類對AI代理的賦權或人類對自主AI系統(tǒng)的過度依賴相關的風險(例如,當考慮將政策制定外包給AI時); (iii) 未識別風險:源于新興行為造成不可預測傷害的風險。

不對齊風險被認為源于4種代理能力[37]: (i) 欠規(guī)范:能夠在缺乏人類關于如何實現(xiàn)目標規(guī)范的情況下實現(xiàn)目標的能力; (ii) 影響:能夠在無人干預下影響環(huán)境的能力; (iii) 目標導向:看似自主實現(xiàn)目標的能力; (iv) 規(guī)劃:在長時間范圍內做出協(xié)調決策的能力。

當然,不對齊風險可以通過行為者治理策略緩解,例如AI系統(tǒng)提供者采用設計原則保證可解釋性(即決策過程的可解釋性)、可控性(即保持“人在回路中”的可能性)和倫理性(即遵守人類定義規(guī)范)[38]。然而,也應采用內置行為控制機制來從源頭緩解代理治理風險。可以想象AIF規(guī)范模塊如何通過使代理能夠基于適用規(guī)范“自我”約束其能力來緩解不對齊風險。例如,這樣的模塊可以用于: (i) 自我約束欠規(guī)范:定義不同行為許可的語境。這并不限制代理自行找到問題解決方案的能力。它只是為可以找到的解決方案建立邊界,并確保所有解決方案與人類定義的規(guī)范期望一致(例如,確保自主決定跨越中心線的最佳時刻始終在適用規(guī)范的邏輯之內); (ii) 自我約束影響:確保代理行動的影響由規(guī)范中介。這并不減少影響,而是通過將影響與人類規(guī)范期望對齊來緩和它(例如,自動駕駛汽車可能決定讓行并因此造成碰撞,但這一碰撞在法律理性人類會做什么的光照下將是預期的和可解釋的); (iii) 自我約束目標導向:允許偏好最大化行為對語境敏感,從而允許偏好作為情境規(guī)范需求的函數而變化(例如,從對目標車道位置的輕微偏好轉變?yōu)樵诰o急語境下對目標車道位置的更強偏好)。這不是關于限制代理的偏好。而是關于將它們語境化到規(guī)范期望。 (iv) 通過將關于規(guī)范語境的信息納入計劃來自我約束規(guī)劃,以確保所有計劃與規(guī)范期望一致(例如,確保所有策略涉及協(xié)商適用規(guī)范的行動,而與策略的時間范圍無關)。這并不涉及限制長期規(guī)劃能力,而是圍繞規(guī)劃添加“護欄”。

通過使用AIF規(guī)范模塊將代理能力與規(guī)范期望對齊來間接緩解代理治理風險,在我們看來是一種有前景的方法。一方面,我們方法的“情感”含義意味著可以設計代理,其gamma更新對規(guī)范線索敏感,從而在模糊語境中獲得有原則的謹慎,以及在更高階規(guī)范適用時(例如,緊急“靠邊”規(guī)則)的快速、自信承諾。我們的結果明確顯示,低信心有助于允許在語境中規(guī)范適當行為的警惕類型,這可以傳達給其他代理(人工或人類),以確保和諧互動。另一方面,我們的方法不需要限制AI代理的能力(或減緩開發(fā)這些代理的AI行為者的技術創(chuàng)新),而是簡單要求在AI行為上實施規(guī)范“護欄”。

原文:https://arxiv.org/pdf/2511.19334

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
天津小伙心疼29歲表嫂被出軌離婚 接其到蘇州同居引爭議

天津小伙心疼29歲表嫂被出軌離婚 接其到蘇州同居引爭議

阿SIR觀察
2026-01-27 10:38:05
高詩巖單節(jié)15分!山東男籃逆轉黑馬,克里斯低迷,兩大功臣發(fā)威

高詩巖單節(jié)15分!山東男籃逆轉黑馬,克里斯低迷,兩大功臣發(fā)威

牛眼看球
2026-01-27 21:45:55
徐文海、程用文、雷文潔已任湖北省人大常委會黨組成員

徐文海、程用文、雷文潔已任湖北省人大常委會黨組成員

澎湃新聞
2026-01-27 13:57:11
江蘇一餐飲老板李金良去世,僅37歲,新店才幾個月,妻子心都碎了

江蘇一餐飲老板李金良去世,僅37歲,新店才幾個月,妻子心都碎了

深析古今
2026-01-27 09:48:29
“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

妍妍教育日記
2026-01-27 19:58:28
央視坐實!成本2元售價19800元!不少人受騙,趕緊別用了

央視坐實!成本2元售價19800元!不少人受騙,趕緊別用了

白色得季節(jié)
2026-01-27 21:30:49
要打就打痛!中國手段已升級,日本:中方不批準駐重慶總領事任命

要打就打痛!中國手段已升級,日本:中方不批準駐重慶總領事任命

滄海旅行家
2026-01-27 17:17:15
凱恩將續(xù)約拜仁,創(chuàng)隊史頂薪紀錄

凱恩將續(xù)約拜仁,創(chuàng)隊史頂薪紀錄

星耀國際足壇
2026-01-27 21:18:40
你知道咱媽為何要拍《太平年》嗎?知道這是拍給誰看的嗎?

你知道咱媽為何要拍《太平年》嗎?知道這是拍給誰看的嗎?

李健政觀察
2026-01-27 09:50:28
我們贏了!中國成功研制全球首款二維芯片,ASML慌了:更可怕的還在后頭

我們贏了!中國成功研制全球首款二維芯片,ASML慌了:更可怕的還在后頭

芯火相承
2026-01-26 21:29:42
牢A爆火后留學圈炸了!陪讀媽媽、女留學生成狩獵目標,家長必看

牢A爆火后留學圈炸了!陪讀媽媽、女留學生成狩獵目標,家長必看

烏娛子醬
2026-01-27 16:50:05
云南“毒紅薯”后續(xù):10億產業(yè)崩盤,無辜農戶欲哭無淚

云南“毒紅薯”后續(xù):10億產業(yè)崩盤,無辜農戶欲哭無淚

過了法考的新聞人
2026-01-27 17:19:11
突擊檢查全國武器庫!一定要嚴防被掉包,甲午戰(zhàn)爭悲劇絕不能重演

突擊檢查全國武器庫!一定要嚴防被掉包,甲午戰(zhàn)爭悲劇絕不能重演

愛吃醋的貓咪
2026-01-27 20:31:00
紫牛頭條|大連一業(yè)主斷水400天起訴鄰居被駁回,鄰里糾紛與管道謎團陷僵局

紫牛頭條|大連一業(yè)主斷水400天起訴鄰居被駁回,鄰里糾紛與管道謎團陷僵局

揚子晚報
2026-01-27 21:52:52
性行為缺失會促癌?華中大最新:性行為缺失會削弱抗癌免疫力,保持性行為則有利于抗癌

性行為缺失會促癌?華中大最新:性行為缺失會削弱抗癌免疫力,保持性行為則有利于抗癌

醫(yī)諾維
2026-01-26 17:02:36
首都機場“大老虎”:下班飛澳門,早上坐專機上班,一晚輸600萬

首都機場“大老虎”:下班飛澳門,早上坐專機上班,一晚輸600萬

牛牛叨史
2026-01-27 23:54:21
在盒馬app買鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進醫(yī)院,盒馬回應

在盒馬app買鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進醫(yī)院,盒馬回應

瀟湘晨報
2026-01-27 18:01:05
小區(qū)內裝卸鋼化玻璃,不到一小時連發(fā)兩起事故,有傷者送醫(yī)后身亡;家屬:用工方負責人已被逮捕

小區(qū)內裝卸鋼化玻璃,不到一小時連發(fā)兩起事故,有傷者送醫(yī)后身亡;家屬:用工方負責人已被逮捕

大風新聞
2026-01-27 17:10:11
爬山遺失80克金吊墜男子:把對講機掛在了金吊墜的鏈子上,快登頂才發(fā)現(xiàn)吊墜丟了,目前還沒找到

爬山遺失80克金吊墜男子:把對講機掛在了金吊墜的鏈子上,快登頂才發(fā)現(xiàn)吊墜丟了,目前還沒找到

魯中晨報
2026-01-27 16:23:14
沉默24小時后,卡尼終于發(fā)聲,與中國協(xié)議作廢,美財長得寸進尺

沉默24小時后,卡尼終于發(fā)聲,與中國協(xié)議作廢,美財長得寸進尺

天仙無味小仙女
2026-01-28 00:41:45
2026-01-28 04:16:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章數 18關注度
往期回顧 全部

科技要聞

馬化騰3年年會講話透露了哪些關鍵信息

頭條要聞

美報告稱中國是其19世紀以來面對過的最強大國家

頭條要聞

美報告稱中國是其19世紀以來面對過的最強大國家

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學?

娛樂要聞

張雨綺風波持續(xù)發(fā)酵,曝多個商務被取消

財經要聞

多地對壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

態(tài)度原創(chuàng)

數碼
親子
房產
藝術
軍事航空

數碼要聞

這事你怎么看 索尼與TCL簽署意向備忘錄 網友:Sony變Tony了

親子要聞

雙職工家庭,孩子上幼兒園后,無老人幫忙,夫妻倆能獨立帶娃嗎?

房產要聞

實景兌現(xiàn)在即!綠城,在海棠灣重新定義終極旅居想象!

藝術要聞

震撼!19世紀油畫巨匠的作品美得不可思議!

軍事要聞

美海軍"林肯"號航母打擊群抵達中東地區(qū)

無障礙瀏覽 進入關懷版