網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

主動推理對具身智能體進(jìn)行貝葉斯推理

2026-03-28 08:45:09　來源: CreateAMind

上海舉報(bào)

分享至

大腦:通過主動推理對移動網(wǎng)絡(luò)中的代理智能和體現(xiàn)智能進(jìn)行貝葉斯推理

BRAIN: Bayesian Reasoning via Active Inference for Agentic an Embodied Intelligence in Mobile Networks

https://arxiv.org/pdf/2602.14033

摘要

未來的第六代（6G）移動網(wǎng)絡(luò)將需要這樣的人工智能（AI）智能體：它們不僅具備自主性與高效性，還能夠在動態(tài)環(huán)境中實(shí)現(xiàn)實(shí)時(shí)適應(yīng)，并在決策過程中保持透明性。然而，當(dāng)前網(wǎng)絡(luò)領(lǐng)域中主流的智能體人工智能方法在這方面仍存在顯著不足。傳統(tǒng)的基于深度強(qiáng)化學(xué)習(xí)（DRL）的智能體缺乏可解釋性，且往往表現(xiàn)出脆弱的適應(yīng)能力，包括在非平穩(wěn)條件下對已有知識的災(zāi)難性遺忘。在本文中，我們針對上述挑戰(zhàn)提出了一種替代性解決方案：通過主動推理（Active Inference）實(shí)現(xiàn)貝葉斯推理的 BRAIN 智能體（Bayesian Reasoning via Active Inference Agent）。BRAIN 利用對網(wǎng)絡(luò)環(huán)境的深度生成模型，并通過最小化變分自由能，在單一的閉環(huán)范式中統(tǒng)一感知與行動。我們將 BRAIN 實(shí)現(xiàn)為 O-RAN 擴(kuò)展應(yīng)用（xApp），部署于 GPU 加速測試平臺，并驗(yàn)證了其相較于標(biāo)準(zhǔn) DRL 基線方法的優(yōu)勢。實(shí)驗(yàn)結(jié)果表明，BRAIN 展現(xiàn)出：（i）針對動態(tài)無線資源分配的穩(wěn)健因果推理能力，能夠在變化的流量負(fù)載下維持網(wǎng)絡(luò)切片特定的服務(wù)質(zhì)量（QoS）目標(biāo)（吞吐量、時(shí)延、可靠性）；（ii）卓越的適應(yīng)能力，相較于基準(zhǔn)方法，對突發(fā)流量變化的魯棒性提升高達(dá) 28.3%（且無需任何重新訓(xùn)練）；（iii）通過人類可理解的信念狀態(tài)診斷，實(shí)現(xiàn)其決策過程的實(shí)時(shí)可解釋性。

索引術(shù)語——主動推理，具身人工智能（Embodied-AI），移動網(wǎng)絡(luò)，可信賴性，6G。

I、引言

近年來，人工智能（AI）取得了顯著進(jìn)展，從利用強(qiáng)化學(xué)習(xí)（RL）掌握復(fù)雜游戲與控制任務(wù)，到借助大語言模型（LLM）與生成式人工智能（Generative AI）產(chǎn)出類人內(nèi)容。然而，這些成就在很大程度上仍是"去具身化"（disembodied）的：模型運(yùn)行于仿真環(huán)境或數(shù)據(jù)驅(qū)動的領(lǐng)域之中，缺乏直接的物理根基。例如，大語言模型擅長從靜態(tài)數(shù)據(jù)集中進(jìn)行模式識別與內(nèi)容生成，卻無法與動態(tài)變化的環(huán)境進(jìn)行交互。類似地，深度強(qiáng)化學(xué)習(xí)（DRL）智能體通常在精心設(shè)計(jì)的仿真環(huán)境中訓(xùn)練，依賴固定的獎(jiǎng)勵(lì)函數(shù)，一旦面對訓(xùn)練分布之外的真實(shí)世界動態(tài)，往往難以有效應(yīng)對。本質(zhì)上，當(dāng)今的人工智能系統(tǒng)尚不具備具身智能體所特有的整體性、自適應(yīng)智能——即能夠在真實(shí)世界中持續(xù)地感知、行動與學(xué)習(xí)的能力 [1]。

這一差距在新興的第六代（6G）及未來網(wǎng)絡(luò)的背景下變得尤為關(guān)鍵 [2]。這些未來網(wǎng)絡(luò)預(yù)計(jì)將連接數(shù)百億臺設(shè)備，并支持具有嚴(yán)格性能需求的前所未有的服務(wù)，這就需要原生 AI 設(shè)計(jì)原則，將學(xué)習(xí)和控制智能緊密集成到基礎(chǔ)設(shè)施中 [2, 3]。無線環(huán)境本質(zhì)上是復(fù)雜且非平穩(wěn)的：信道條件、用戶移動性和流量模式不斷波動 [4]。此外，6G 必須滿足不同用例中多樣化的服務(wù)質(zhì)量（QoS）/體驗(yàn)質(zhì)量（QoE）要求 [5]。然而，迄今為止大多數(shù)“啟用 AI"的網(wǎng)絡(luò)解決方案只是將現(xiàn)成的深度學(xué)習(xí)模型（例如卷積網(wǎng)絡(luò) [6] 或深度自動編碼器 [7]）應(yīng)用于特定任務(wù)，而沒有從根本上重新思考網(wǎng)絡(luò)的認(rèn)知架構(gòu) [8]。雖然這些模型可以從歷史數(shù)據(jù)中學(xué)習(xí)映射關(guān)系，但當(dāng)網(wǎng)絡(luò)條件偏離訓(xùn)練集時(shí)，它們往往無法泛化。強(qiáng)化學(xué)習(xí)（RL）通過使 AI 能夠通過與環(huán)境的直接交互進(jìn)行學(xué)習(xí)，引入了一定程度的代理性 [9]。確實(shí)，基于深度強(qiáng)化學(xué)習(xí)（DRL）的實(shí)現(xiàn)已在無線領(lǐng)域展現(xiàn)出前景，解決了從動態(tài)頻譜分配和功率控制到切換優(yōu)化和端到端網(wǎng)絡(luò)切片等問題 [10–12]。然而，傳統(tǒng)的 DRL 解決方案存在兩個(gè)主要缺點(diǎn)，限制了它們作為自主 6G 網(wǎng)絡(luò)“大腦”的適用性。首先，DRL 策略通常由深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)，這些網(wǎng)絡(luò)充當(dāng)不透明的黑盒 [13]。其次，標(biāo)準(zhǔn) DRL 對變化條件的適應(yīng)能力非常有限 [14]。一旦 DRL 智能體針對給定環(huán)境或流量場景進(jìn)行了訓(xùn)練，它往往會對這些條件過擬合。神經(jīng)策略容易發(fā)生災(zāi)難性遺忘：當(dāng)在新數(shù)據(jù)上學(xué)習(xí)或微調(diào)時(shí)，它們會覆蓋先前學(xué)到的行為 [4]。圖 1 說明了網(wǎng)絡(luò)切片場景中的這一挑戰(zhàn)：基線 DRL 智能體一旦適應(yīng)了超可靠低延遲通信（URLLC）切片，就會迅速“忘記”如何服務(wù)增強(qiáng)移動寬帶（eMBB）切片，反之亦然，這就需要針對先前條件的每次重現(xiàn)進(jìn)行昂貴的重新學(xué)習(xí)。

這些局限性表明需要從根本上重新構(gòu)想網(wǎng)絡(luò) AI。越來越多的共識認(rèn)為，下一代網(wǎng)絡(luò)應(yīng)納入更高級的認(rèn)知能力；集成記憶、感知和推理元素，而不是僅僅依賴低級模式識別 [8, 15]。本質(zhì)上，此類系統(tǒng)中的 AI 智能體不再僅僅是離線模型，而是物理網(wǎng)絡(luò)環(huán)境中的積極參與者。這種智能體愿景自然地將主動推理引為網(wǎng)絡(luò)智能更有希望的下一步。主動推理被描述為實(shí)現(xiàn)此類具身 AI 的理想框架，因?yàn)樗律啬M了自然智能系統(tǒng)如何通過基于自由能原理的行動 - 感知循環(huán)進(jìn)行學(xué)習(xí)和適應(yīng) [16]。主動推理最初開發(fā)于認(rèn)知神經(jīng)科學(xué)領(lǐng)域 [17]，提供了基于貝葉斯推理的感知、學(xué)習(xí)和行動的統(tǒng)一理論。與傳統(tǒng) RL 相比，主動推理智能體不依賴手工制作的獎(jiǎng)勵(lì)信號；相反，它維護(hù)其環(huán)境和期望結(jié)果的內(nèi)部生成模型。智能體不斷更新其關(guān)于世界隱藏狀態(tài)的信念（感知），并通過最小化變分自由能來選擇行動以實(shí)現(xiàn)其目標(biāo)；變分自由能是智能體期望與其觀察之間預(yù)測誤差或“驚喜”的度量。本質(zhì)上，智能體試圖預(yù)測應(yīng)該發(fā)生什么（給定其模型和目標(biāo)），然后采取行動使現(xiàn)實(shí)與這些期望保持一致，從而減少驚喜。

在本文中，我們在 AI-RAN 測試床上引入了一種用于移動網(wǎng)絡(luò)資源管理的可解釋深度主動推理智能體。本工作是當(dāng)前正在審查的一篇研討會論文的詳細(xì)和擴(kuò)展版本。除了原始核心概念外，我們 i) 通過額外的高級智能體基線和詳細(xì)的消融實(shí)驗(yàn)拓寬了實(shí)驗(yàn)深度，ii) 在所有智能體上添加了受控的非平穩(wěn)性壓力測試以量化魯棒性和恢復(fù)能力，以及 iii) 包含策略熵分析以使 DRL 和主動推理之間的探索 - 利用動態(tài)具有可比性，同時(shí)擴(kuò)展了章節(jié)和討論。我們將我們的框架稱為 BRAIN（通過主動推理進(jìn)行貝葉斯推理），將其設(shè)想為原生 AI RAN 控制器的“電信大腦”。圖 2 對比了傳統(tǒng) DRL 智能體的范式與我們提出的 BRAIN 智能體的范式。BRAIN 架構(gòu)采用深度生成主動推理模型來設(shè)計(jì)潛在網(wǎng)絡(luò)狀態(tài)（例如擁塞水平、信道條件、用戶移動性）與觀察到的性能指標(biāo)之間的關(guān)系，同時(shí)將期望結(jié)果（例如切片特定的 QoS 目標(biāo)）編碼為先驗(yàn)信念。在每個(gè)控制間隔，智能體通過最小化變分自由能執(zhí)行主動推理：它推斷最可能的當(dāng)前網(wǎng)絡(luò)狀態(tài)（感知步驟），然后計(jì)算最優(yōu)資源分配動作（動作步驟），這將推動網(wǎng)絡(luò)的預(yù)測性能更接近目標(biāo)（即糾正預(yù)期結(jié)果與期望結(jié)果之間的偏差）。這種推理和行動的循環(huán)有效地允許 BRAIN 同時(shí)執(zhí)行在線學(xué)習(xí)和控制。與每當(dāng)環(huán)境變化就需要重新訓(xùn)練的 DRL 智能體不同，BRAIN 隨著新觀察的到來實(shí)時(shí)連續(xù)更新其信念，賦予其一種優(yōu)雅處理分布偏移的終身學(xué)習(xí)形式。此外，由于我們智能體的內(nèi)部計(jì)算圍繞概率信念和自由能貢獻(xiàn)展開，我們可以利用這些中間結(jié)果來理解和解釋其行為。我們研究的核心成果總結(jié)為新的貢獻(xiàn)（"C"）和新的發(fā)現(xiàn)（"F"），如下所示：

C1. 我們引入了 BRAIN，這是 O-RAN 中首個(gè)用于 AI-RAN 閉環(huán) RAN 切片的深度主動推理智能體。 C2. 我們設(shè)計(jì)了內(nèi)在可解釋的 BRAIN 智能體，通過暴露潛在切片條件的后驗(yàn)信念和期望自由能（EFE）分解，根據(jù)目標(biāo)一致性（外在）和不確定性減少（認(rèn)知）來證明每個(gè)動作的合理性。 F1. 在動態(tài)切片實(shí)驗(yàn)中，BRAIN 展示了對非平穩(wěn)條件的持續(xù)適應(yīng)能力。BRAIN 在動態(tài)負(fù)載下更可靠地維持異構(gòu)切片意圖。 F2. 與黑盒 DRL 不同，BRAIN 暴露了可解釋的內(nèi)部變量，能夠?yàn)橘Y源分配決策提供因果的和可審計(jì)的解釋。

II、相關(guān)工作

本節(jié)將 BRAIN 置于支撐移動網(wǎng)絡(luò)中智能體智能的三個(gè)互補(bǔ)研究脈絡(luò)之中。首先，我們回顧強(qiáng)化學(xué)習(xí)（RL）/深度強(qiáng)化學(xué)習(xí)（DRL）如何被應(yīng)用于網(wǎng)絡(luò)控制與編排，特別是在開放無線接入網(wǎng)（O-RAN）和網(wǎng)絡(luò)切片領(lǐng)域，作為當(dāng)前實(shí)踐中占主導(dǎo)地位的智能體范式。其次，我們總結(jié)無線人工智能中的可解釋性研究工作，包括可解釋人工智能（XAI）和新興的可解釋強(qiáng)化學(xué)習(xí)（XRL）方法，著重指出可解釋性通常是以事后（post hoc）方式引入，而非決策過程的內(nèi)在組成部分。第三，我們討論主動推理作為一種具身智能框架，它通過概率生成建模與變分推斷統(tǒng)一感知與行動，并指出迄今為止在通信系統(tǒng)中部署具備面向運(yùn)營商解釋能力的深度主動推理的實(shí)證證據(jù)仍然有限。綜合這些研究工作，可以明確我們方法所針對的方法論缺口：一種內(nèi)在可解釋、持續(xù)自適應(yīng)的智能體，用于實(shí)時(shí)移動網(wǎng)絡(luò)控制。

移動網(wǎng)絡(luò)中的強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)以及深度強(qiáng)化學(xué)習(xí)模型已被越來越多地應(yīng)用于無線網(wǎng)絡(luò)中的動態(tài)資源管理與控制任務(wù)。Liu 等人 [11] 提出了 OnSlicing，一個(gè)用于跨 RAN、傳輸、核心網(wǎng)與邊緣域端到端網(wǎng)絡(luò)切片的在線 DRL 框架。ORANSlice [12] 是一個(gè)面向 O-RAN 生態(tài)系統(tǒng)的開源模塊化 5G 網(wǎng)絡(luò)切片平臺，它在靈活框架內(nèi)集成了切片生命周期管理、資源編排、監(jiān)控與分析功能。雖然 RL 策略可以帶來顯著的效率提升，但其不透明性——通常表現(xiàn)為"黑盒"神經(jīng)網(wǎng)絡(luò)——阻礙了理解與調(diào)試，限制了實(shí)際部署。因此，近期研究開始探索 XRL 方法論，通過顯式闡明策略決策與學(xué)習(xí)行為來提升透明度。

移動網(wǎng)絡(luò)中的可解釋人工智能。為克服透明度問題，研究人員已將可解釋人工智能（XAI）技術(shù) [18, 19] 引入移動網(wǎng)絡(luò)領(lǐng)域 [20]。近年來，多項(xiàng)工作探索使用流行的 XAI 方法（例如 SHAP [21] 和 LIME [22]）來解釋無線網(wǎng)絡(luò)任務(wù)中的復(fù)雜模型 [23–25]。盡管有用，但此類通用 XAI 方法已被證明不足以滿足移動網(wǎng)絡(luò)的需求：它們僅提供表層洞察，且往往難以應(yīng)對網(wǎng)絡(luò)數(shù)據(jù)的時(shí)間性與高維特性。認(rèn)識到這些缺口，部分研究已開始針對無線通信領(lǐng)域探索特定領(lǐng)域的 XAI 與內(nèi)在可解釋模型。研究人員為網(wǎng)絡(luò)流量模型引入了定制的時(shí)間序列解釋器，用于追蹤特征重要性隨時(shí)間的演變，并識別導(dǎo)致誤差的異常模式 [26, 27]?？傮w而言，這些努力強(qiáng)調(diào)：無線人工智能中的可解釋性可能需要專家驅(qū)動的設(shè)計(jì)，以滿足網(wǎng)絡(luò)運(yùn)營對可靠性與洞察力的需求。值得注意的是，XRL 在其他領(lǐng)域（如機(jī)器人與自主系統(tǒng)）也逐漸受到關(guān)注，旨在從 RL 智能體中提取人類可理解的策略。然而，在無線網(wǎng)絡(luò)文獻(xiàn)中，可解釋 RL 或 DRL 迄今仍鮮有探索。一個(gè)值得注意的方法是 SYMBXRL [28]，它在黑盒 DRL 模型之上引入了符號解釋層。在該框架中，符號表示生成器將數(shù)值型狀態(tài)與動作變量轉(zhuǎn)換為離散的一階邏輯謂詞。相比之下，我們提出的框架采用了一種根本不同的范式：將可解釋性直接嵌入智能體的生成與推理過程之中。因此，仍然存在對新方法的顯著需求，以解釋并論證不同學(xué)習(xí)智能體行為的合理性。

主動推理。近年來，主動推理已被應(yīng)用于工程領(lǐng)域，在不確定性下的狀態(tài)估計(jì)、規(guī)劃與控制方面展現(xiàn)出潛力 [29]。這些早期研究表明，主動推理可以作為一種靈活、受生物啟發(fā)的序列決策方法，區(qū)別于強(qiáng)化學(xué)習(xí) [30]。需要注意的是，用于未知環(huán)境中自適應(yīng)決策的 RL 形式化方法可被主動推理所涵蓋。研究人員已將主動推理應(yīng)用于機(jī)器人控制任務(wù)，其中智能體的生成模型使其能夠處理模糊的感官輸入，同時(shí)仍能追求目標(biāo)導(dǎo)向的行為 [31, 32]。主動推理一個(gè)引人關(guān)注的方面是其內(nèi)置可解釋性的潛力，盡管這一方面尚未得到具體驗(yàn)證 [16, 33]。

III、智能體 AI 設(shè)計(jì)的問題建模

A. 強(qiáng)化學(xué)習(xí)

B. 主動推理

主動推理是一種源于認(rèn)知神經(jīng)科學(xué)的新型決策范式，它提供了一種在不確定性下行動與感知的統(tǒng)一方法 [34]。不同于純粹從外部獎(jiǎng)勵(lì)反饋中學(xué)習(xí)策略，主動推理智能體利用其環(huán)境的內(nèi)部生成模型，并采取行動以最小化其觀測值的“驚喜”（即預(yù)測誤差）。在我們的場景中，這意味著智能體（即我們的 BRAIN xApp）被設(shè)計(jì)為具備關(guān)于 RAN 切片系統(tǒng)的先驗(yàn)期望；例如，URLLC 切片的緩沖區(qū)應(yīng)保持低位（以表示低延遲），而 eMBB 切片的吞吐量應(yīng)保持高位。隨后，智能體持續(xù)調(diào)整其動作，使觀測到的切片性能與這些內(nèi)部期望保持一致，從而減少相對于期望行為的意外偏差。在數(shù)學(xué)上，主動推理將閉環(huán)控制問題表述為變分推斷過程。智能體具備 RAN 環(huán)境的概率生成模型，并將真實(shí)網(wǎng)絡(luò)狀態(tài)視為待推斷的潛在（隱藏）變量。我們可以通過聯(lián)合分布，在時(shí)間范圍 T T上形式化該生成模型：

總之，我們基于主動推理的控制器持續(xù)更新其對無線接入網(wǎng)切片的內(nèi)在模型，并選擇能夠最小化預(yù)期自由能的資源控制動作。這形成了一種閉環(huán)行為，其中智能體通過確保切片性能達(dá)到目標(biāo)要求，力求使其觀測結(jié)果不產(chǎn)生意外。值得注意的是，該框架自然地處理了部分可觀測性問題（將真實(shí)的網(wǎng)絡(luò)狀況視為待推斷的潛在變量），并通過內(nèi)置的偏好編碼來適應(yīng)多個(gè)切片目標(biāo)（每個(gè)切片的服務(wù)質(zhì)量目標(biāo)在智能體模型中體現(xiàn)為首選結(jié)果）。其成果是一種有原則的控制策略，與標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)不同，該策略不需要為每個(gè)場景定義外部獎(jiǎng)勵(lì)函數(shù)，而是源于智能體最小化預(yù)測誤差和維護(hù)其建模服務(wù)目標(biāo)的內(nèi)在驅(qū)動力。

IV、可解釋深度主動推理設(shè)計(jì)

A. 生成模型設(shè)計(jì)

B. 基于自由能最小化的變分推斷與策略選擇

C. 作為期望自由能最小化的動作選擇

D. 決策的內(nèi)省可解釋性

在每個(gè)時(shí)間步 t ，BRAIN 智能體維護(hù)關(guān)于潛在切片狀態(tài) 的后驗(yàn)信念分布（例如，每個(gè)切片的當(dāng)前需求水平或可靠性）。我們將此信念表示為：

V、實(shí)驗(yàn)設(shè)計(jì)

A. GPU 加速的 AI-RAN 測試床

我們部署了一個(gè)私有 5G 測試床（見圖 3），其特點(diǎn)是基于 NVIDIA Aerial Research Cloud (ARC) 平臺 [36, 37] 和 Aerial SDK [38] 構(gòu)建的 GPU 加速 O-RAN 架構(gòu)。在我們的設(shè)置中，gNB 的協(xié)議棧被拆分為運(yùn)行在 NVIDIA GPU 上的 O-DU Low（Layer-1 PHY，即物理層）和運(yùn)行在配備 OpenAirInterface (OAI) [39] 的 x86 CPU 上的 O-DU High/CU（高層協(xié)議）。這兩部分通過小基站論壇（Small Cell Forum）的 FAPI 接口進(jìn)行通信，使得物理層 DSP 任務(wù)能夠在 GPU 上進(jìn)行內(nèi)聯(lián)加速，同時(shí)為 MAC/RLC/PDCP/RRC 層保持標(biāo)準(zhǔn)的 OAI 軟件棧。在 n78 TDD 頻段（中頻段 FR1）運(yùn)行的富士康 O-RU [40] 提供射頻前端，通過標(biāo)準(zhǔn)的 O-RAN 7.2 前傳接口連接。該 O-RU 在 TDD 模式下支持 100 MHz 信道帶寬（30 kHz 子載波間隔下的 273 個(gè) PRB），其 TDD 模式根據(jù) 3GPP Release 15 規(guī)范配置（例如，DDDSU 時(shí)隙）。該測試床配備了商用和軟件化 UE（用戶設(shè)備）以生成多切片流量。具體而言，我們使用一款 COTS（商用現(xiàn)成）5G UE（Sierra Wireless EM9191 調(diào)制解調(diào)器模塊）和一個(gè)基于 OAI 的軟件 UE（nrUE）作為兩個(gè)終端設(shè)備。

Sierra Wireless EM9191 提供了真正的 5G NR 用戶設(shè)備，通過空中接口（over-the-air）連接到 gNB。OAI nrUE 是一個(gè)軟件 UE 協(xié)議棧（也在配備 SDR 前端的服務(wù)器上運(yùn)行），它仿真第二個(gè) 5G UE，允許對其流量和切片配置進(jìn)行細(xì)粒度控制。兩個(gè) UE 都支持并發(fā)建立多個(gè) PDU 會話，我們將這些會話映射到不同的網(wǎng)絡(luò)切片（如下所述）。

B. 用例：智能編排

我們考慮一個(gè)多切片 RAN 場景，其中智能 xApp 作為自主智能體部署，用于閉環(huán)切片資源編排。O-RAN 近實(shí)時(shí) RIC（Near-RT RIC）承載我們的 BRAIN xApp，該 xApp 觀察網(wǎng)絡(luò)狀態(tài)并動態(tài)控制服務(wù)于多個(gè)切片的 gNB。在我們的設(shè)置中，單個(gè) 100 MHz 小區(qū)（一個(gè) O-RU/gNB）為兩個(gè)用戶設(shè)備（UE）提供三種切片類型的服務(wù)；eMBB、URLLC 和海量 mMTC 各自具有不同的 QoS 要求（eMBB 需要高吞吐量，URLLC 需要低延遲，mMTC 需要高可靠性）。gNB 的 MAC 層具備切片感知能力，為每個(gè)切片維護(hù)獨(dú)立的緩沖區(qū)和調(diào)度器隊(duì)列，而各個(gè) UE 為其相應(yīng)切片生成流量（例如，一個(gè) UE 通過獨(dú)立的 PDU 會話在 eMBB 上承載視頻流、在 URLLC 上承載實(shí)時(shí)控制流，而另一個(gè)則在 mMTC 上承載間歇性的物聯(lián)網(wǎng)遙測數(shù)據(jù)）。這為 xApp 智能體進(jìn)行智能編排構(gòu)成了一個(gè)豐富的環(huán)境。

BRAIN xApp 通過 O-RAN E2 接口持續(xù)監(jiān)控切片性能。一個(gè)輕量級的 KPM 監(jiān)控 xApp 流式傳輸實(shí)時(shí)遙測數(shù)據(jù) [41]，例如切片特定的下行吞吐量、緩沖區(qū)占用率（隊(duì)列長度）和下行傳輸塊計(jì)數(shù)，并將其送入 RIC 的數(shù)據(jù)層（使用標(biāo)準(zhǔn) O-RAN KPM 服務(wù)模型）。這些指標(biāo)在先前工作 [42] 中已被證明能有效捕捉切片流量需求與 QoS 狀況，構(gòu)成了我們智能體所觀測的狀態(tài) s s。在每個(gè)控制間隔（量級為數(shù)十毫秒），BRAIN 計(jì)算一個(gè)動作 a a 以調(diào)整 RAN 切片策略。動作空間包括調(diào)整每個(gè)切片的物理資源塊（PRB）分配比例（在 eMBB/URLLC/mMTC 之間劃分小區(qū)帶寬）以及為每個(gè)切片選擇調(diào)度算法（例如比例公平、輪詢或加權(quán)公平隊(duì)列）。這些指令通過 O-RAN E2 控制消息（使用符合 O-RAN 規(guī)范的自定義控制服務(wù)模型）下發(fā)至 gNB，從而閉合控制環(huán)路。在此智能體部署中，xApp 自主地實(shí)時(shí)調(diào)整網(wǎng)絡(luò)參數(shù)以滿足切片服務(wù)等級目標(biāo)（SLO）。

切片特定的 QoS 優(yōu)先級被編碼到智能體的獎(jiǎng)勵(lì)（或效用）函數(shù)中以驅(qū)動其行為。在我們的設(shè)計(jì)中，eMBB 切片以吞吐量為導(dǎo)向（智能體對高 eMBB 數(shù)據(jù)速率給予獎(jiǎng)勵(lì)），URLLC 切片對延遲敏感（智能體對較大的 URLLC 緩沖區(qū)占用率施加懲罰以最小化排隊(duì)延遲），而 mMTC 切片以可靠性為重點(diǎn)（智能體對成功傳輸 mMTC 傳輸塊給予獎(jiǎng)勵(lì)，這與間歇性物聯(lián)網(wǎng)流量的可靠覆蓋相關(guān)）。在這些目標(biāo)的引導(dǎo)下，BRAIN xApp 例如可以在擁塞期間為 URLLC 分配額外的 PRB 以迅速清空其隊(duì)列，或者當(dāng)間歇性上行數(shù)據(jù)包到達(dá)時(shí)將 mMTC 切片的調(diào)度器切換至更具機(jī)會性的模式。來自監(jiān)控 xApp 的持續(xù)更新的 KPM 狀態(tài)使 BRAIN 能夠驗(yàn)證切片性能指標(biāo)是否得到滿足，并在未滿足時(shí)快速做出反應(yīng)。

C. 基線智能體與訓(xùn)練方法論

調(diào)優(yōu)基線智能體。 為了評估我們的 BRAIN 智能體，我們將它與一套更廣泛的基線智能體進(jìn)行比較，包括學(xué)習(xí)到的策略和啟發(fā)式調(diào)度器。具體而言，我們實(shí)現(xiàn)了：? 調(diào)優(yōu)啟發(fā)式算法（Tuned Heuristic），它在切片之間靜態(tài)劃分 PRB（根據(jù)固定的優(yōu)先級權(quán)重）并使用加權(quán)輪詢調(diào)度器（一種非學(xué)習(xí)基線）；? 用于切片控制的深度 Q 網(wǎng)絡(luò)（DQN）智能體 [43]；? 優(yōu)勢演員 - 評論家（A2C）智能體 [44]；? 基礎(chǔ)策略梯度智能體（REINFORCE [45]）；? 近端策略優(yōu)化（PPO）智能體 [46]；以及 ? 軟演員 - 評論家（SAC）智能體 [47]。所有基于學(xué)習(xí)的 xApp 觀測相同的狀態(tài)（切片 KPM 指標(biāo)）并產(chǎn)生相同類型的動作（PRB 分配和調(diào)度器選擇），如同 BRAIN 一樣，以確保公平比較。為了公平起見，我們還賦予每個(gè) RL 智能體一個(gè)可比的模型架構(gòu)（一個(gè) 5 層全連接神經(jīng)網(wǎng)絡(luò)，每層約 30 個(gè)神經(jīng)元）并相應(yīng)地調(diào)整其超參數(shù)（見表 I）。特別是，所有智能體都使用折扣因子 γ = 0.99 和量級為的學(xué)習(xí)率，其中在線策略方法（A2C, REINFORCE, PPO）依賴于新鮮的軌跡展開（trajectory rollouts），而離線策略方法（DQN, SAC）利用經(jīng)驗(yàn)回放緩沖區(qū)。所有自定義智能體均使用 PyTorch 實(shí)現(xiàn)并作為容器化 xApp 部署，使其與 O-RAN 近實(shí)時(shí) RIC 平臺兼容。我們通過以在線學(xué)習(xí)的方式直接與我們的 RAN 測試床交互來訓(xùn)練每個(gè)智能體（智能體 xApp 在接收新觀測值和獎(jiǎng)勵(lì)時(shí)持續(xù)更新其策略）。為了確保評估公平，每個(gè)學(xué)習(xí)智能體都訓(xùn)練相同數(shù)量的時(shí)間步（量級為次環(huán)境交互，這相當(dāng)于在 20 ms 控制間隔下數(shù)小時(shí)的網(wǎng)絡(luò)時(shí)間）。我們在多個(gè)隨機(jī)種子下重復(fù)每次訓(xùn)練實(shí)驗(yàn)（例如，每個(gè)智能體 5 次獨(dú)立運(yùn)行），并報(bào)告帶有 95% 置信區(qū)間的平均性能，以解釋隨機(jī)變異性。我們比較了訓(xùn)練迭代次數(shù)和實(shí)際掛鐘時(shí)間（wall-clock time）兩方面的收斂速度，因?yàn)橄?PPO 這樣的在線策略方法需要更多的交互但每步計(jì)算量較少，而像 SAC 這樣的離線策略方法可以從較少的交互中學(xué)習(xí)，但代價(jià)是更密集的更新。

訓(xùn)練。 為了用一個(gè)共同的標(biāo)量來表征所有控制器的探索 - 利用行為，我們報(bào)告訓(xùn)練期間的策略熵。對于每個(gè)回合（episode），我們計(jì)算用于在每個(gè)時(shí)間步生成決策的動作選擇分布的香農(nóng)熵，并在整個(gè)回合中對其進(jìn)行平均：

VI、評估

分析智能智能體的性能。 圖 4 總結(jié)了 BRAIN 智能體與調(diào)優(yōu)啟發(fā)式基線以及各種深度強(qiáng)化學(xué)習(xí)（DRL）智能體（A2C、PPO、DQN、SAC、REINFORCE）在 AI-RAN 測試床中的訓(xùn)練性能。在圖 4a 中，BRAIN 智能體的獎(jiǎng)勵(lì)曲線陡峭上升，在遠(yuǎn)少于所有基線（包括調(diào)優(yōu)啟發(fā)式算法）的回合數(shù)內(nèi)收斂，并達(dá)到了更高的漸近獎(jiǎng)勵(lì)值。這表明 BRAIN 以顯著更高的樣本效率學(xué)習(xí)到了有效的策略；即從有限的交互中提取了更多的累積獎(jiǎng)勵(lì)。相比之下，DRL 智能體表現(xiàn)出較慢的獎(jiǎng)勵(lì)增長和較低的平穩(wěn)期，反映了無模型強(qiáng)化學(xué)習(xí)（model-free RL）典型的繁重試錯(cuò)搜索特征。更快的獎(jiǎng)勵(lì)收斂意味著 BRAIN 能夠以遠(yuǎn)少于 DRL 基準(zhǔn)的訓(xùn)練數(shù)據(jù)獲得近優(yōu)控制決策——這在現(xiàn)實(shí)網(wǎng)絡(luò)中是一個(gè)關(guān)鍵優(yōu)勢，因?yàn)樵诂F(xiàn)實(shí)網(wǎng)絡(luò)中每個(gè)訓(xùn)練回合（例如，一段次優(yōu)決策的時(shí)隙）都具有切實(shí)的成本。圖 4b 繪制了平均訓(xùn)練損失，BRAIN 再次脫穎而出，在整個(gè)訓(xùn)練過程中呈現(xiàn)出明顯更低且更穩(wěn)定的損失軌跡。BRAIN 智能體的損失保持在比深度強(qiáng)化學(xué)習(xí)智能體低近一個(gè)數(shù)量級的水平，且顯示出極小的振蕩。這種穩(wěn)定性表明 BRAIN 的學(xué)習(xí)更新表現(xiàn)穩(wěn)健，防止了通常困擾 DRL 訓(xùn)練的大幅梯度擺動或發(fā)散問題。相比之下，RL 基線（尤其是像 DQN 或 REINFORCE 這樣波動較大的算法）表現(xiàn)出較高的損失值和明顯的波動，表明學(xué)習(xí)過程較不穩(wěn)定。RL 中的這種不穩(wěn)定性可能源于算法難以適應(yīng) RAN 的非平穩(wěn)動態(tài)：當(dāng)環(huán)境的“規(guī)則”（例如，用戶負(fù)載、信道條件）持續(xù)變化時(shí)，傳統(tǒng)的 RL 智能體難以復(fù)用先驗(yàn)知識，可能需要反復(fù)重新學(xué)習(xí)。圖 4 展示了隨時(shí)間變化的策略熵，揭示了每個(gè)智能體的探索 - 利用平衡。BRAIN 的熵值起始較高（鼓勵(lì)探索），隨后隨著訓(xùn)練的進(jìn)行逐漸下降。重要的是，它從未坍縮至零；相反，BRAIN 的熵逐漸收斂至適中水平，表明這是一種受控的探索策略。這種穩(wěn)定的熵減表明 BRAIN 在早期系統(tǒng)性地探索動作空間，然后在收斂時(shí)自信地利用其學(xué)習(xí)到的策略，且在此過程中并未過早地喪失其決策的多樣性。

切片性能。 圖 7 報(bào)告了三個(gè)異構(gòu)切片的 KPM 逐切片經(jīng)驗(yàn)累積分布函數(shù)（CDF），這些數(shù)據(jù)是在 AI-RAN 測試床上測量的，所有智能體使用相同的狀態(tài)/動作接口。使用 CDF（而不僅僅是均值）很重要，因?yàn)樗沂玖宋膊啃袨楹涂煽啃裕篊DF 右移表明智能體更頻繁地實(shí)現(xiàn)更大的 KPM 值（“更好 →”），而更陡峭的 CDF 表明變異性降低（運(yùn)行更具可預(yù)測性）。圖 7a 顯示，與所有 DRL 基線和調(diào)優(yōu)啟發(fā)式算法相比，BRAIN 產(chǎn)生了最有利的吞吐量分布，表明其在幾乎所有運(yùn)行范圍內(nèi)都實(shí)現(xiàn)了更高的吞吐量。定性來看，BRAIN 不僅提高了中位吞吐量，還改善了上分位數(shù)，這表明智能體學(xué)習(xí)到的切片策略即使在滿足更嚴(yán)格的 URLLC/mMTC 要求的同時(shí)，也能保持 eMBB 容量。相比之下，基線算法表現(xiàn)出以下情況之一：i) 中位數(shù)較低，或 ii) 離散度較大，這意味著在相同的流量混合和控制預(yù)算下，eMBB 服務(wù)的一致性較差。圖 7b 報(bào)告了 URLLC PRB 比率（即通過切片和調(diào)度決策有效分配/可供 URLLC 使用的物理資源比例）的分布。較高的 URLLC PRB 比率 CDF 反映了對 URLLC 更強(qiáng)的資源保護(hù)，這與在擁塞情況下滿足延遲敏感型目標(biāo)是一致的。BRAIN 表現(xiàn)出最右移的曲線，表明它在需要時(shí)能更可靠地分配/維持更高的 URLLC 資源份額。這種行為與具身主動推理設(shè)計(jì)相一致：當(dāng)信念表明隊(duì)列壓力上升時(shí)，智能體的動作后驗(yàn)（通過 EFE 形成）自然會提高對 URLLC 保護(hù)性動作的精度，而不是依賴脆弱的獎(jiǎng)勵(lì)塑形或間歇性的重新訓(xùn)練。幾個(gè) DRL 基線（特別是 REINFORCE 和調(diào)優(yōu)啟發(fā)式算法）在較低的 PRB 比率處顯示出明顯更多的質(zhì)量分布，這通常對應(yīng)于 URLLC 配置不足的時(shí)期，因此更容易受到隊(duì)列堆積和延遲違規(guī)的影響。圖 7c 比較了 mMTC 切片交付的下行 PHY TB（傳輸塊）分布，我們在設(shè)置中將其用作面向可靠性的代理指標(biāo)（成功的 TB 交付反映了對間歇性物聯(lián)網(wǎng)/遙測流量的持續(xù)服務(wù)）。與 DRL 基線相比，BRAIN 在 TB 分布方面提供了適度但一致的改進(jìn)，表明在不犧牲 eMBB 吞吐量或 URLLC 保護(hù)的情況下提高了可靠性。重要的是，低性能尾部得到了減少：BRAIN 產(chǎn)生的“近乎饑餓”間隔（極低的 TB 速率）更少，這對于 mMTC 至關(guān)重要，因?yàn)殚g歇性突發(fā)流量仍必須得到可預(yù)測的交付。

除了平均獎(jiǎng)勵(lì)外，我們還評估了控制器在分布偏移下是否能維持切片特定的服務(wù)保障。具體來說，我們測量了每個(gè)智能體在受控非平穩(wěn)事件發(fā)生前后，將所有切片保持在 QoS 目標(biāo)內(nèi)的可靠性。在圖 8 中，在非平穩(wěn)事件發(fā)生之前，BRAIN 實(shí)現(xiàn)了最高的全切片 QoS 滿意度，表明它在標(biāo)稱狀態(tài)下最一致地將所有切片約束保持在目標(biāo)范圍內(nèi)。在處，由于流量激增，所有基于學(xué)習(xí)的智能體都表現(xiàn)出 QoS Sat( t ) 的急劇下降；然而，BRAIN 表現(xiàn)出最小的退化以及向偏移前水平最快的恢復(fù)。相比之下，DRL 基線在偏移后遭受了更大的下降且恢復(fù)較慢，穩(wěn)定在較低的 QoS 滿意度水平；這與分布偏移下適應(yīng)性降低和部分遺忘相一致。調(diào)優(yōu)啟發(fā)式算法在整個(gè)過程中基本保持平坦且遠(yuǎn)低于學(xué)習(xí)到的智能體，證實(shí)了靜態(tài)切片策略無法對突發(fā)的機(jī)制變化做出反應(yīng)。

VII、結(jié)論

本工作表明，深度主動推理不僅概念上契合移動網(wǎng)絡(luò)中智能體與具身智能的需求，而且在實(shí)際的開放 AI-RAN 棧上也是一種可行的控制范式。我們提出了 BRAIN 作為一種 xApp，它通過兩個(gè)緊密耦合的操作閉合了網(wǎng)絡(luò)行動 - 感知環(huán)路：（i）基于流式 KPM 數(shù)據(jù)對潛在切片條件進(jìn)行貝葉斯信念更新，以及（ii）通過最小化期望自由能來選擇資源分配動作，以同時(shí)滿足切片意圖并減少不確定性。在配備異構(gòu)切片的 GPU 加速 AI-RAN 測試床上，BRAIN 取得了三項(xiàng)具體成果。首先，相較于調(diào)優(yōu)啟發(fā)式算法和廣泛的 DRL 基線，它實(shí)現(xiàn)了更強(qiáng)的切片性能。其次，它在非平穩(wěn)條件下提供了魯棒的適應(yīng)能力：當(dāng)流量分布突然變化時(shí)，BRAIN 表現(xiàn)出最小的 QoS 滿意度退化以及最快的恢復(fù)速度，且無需重新訓(xùn)練。第三，它在運(yùn)行時(shí)提供了面向運(yùn)營商的可解釋性。除了實(shí)證優(yōu)勢外，更廣泛的啟示在于：主動推理通過將決策建立在原則性的貝葉斯信念更新而非獎(jiǎng)勵(lì)工程之上，實(shí)現(xiàn)了真正意義上的智能體化、具身化控制。

對于未來工作，有前景的方向包括將該框架擴(kuò)展到 O-RAN 中分層、多時(shí)間尺度的主動推理，其中近實(shí)時(shí) xApp 在結(jié)構(gòu)化生成模型的支持下，在非實(shí)時(shí)意圖與策略協(xié)調(diào)的框架下運(yùn)行。另一個(gè)重要的研究方向是擴(kuò)展到多小區(qū)與多智能體部署，實(shí)現(xiàn)在干擾與移動性耦合條件下的 xApp 間協(xié)調(diào)，并研究在真實(shí)遙測與前傳約束下的分布式信念共享機(jī)制。

原文鏈接：https://arxiv.org/pdf/2602.14033

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.