網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

移動(dòng)網(wǎng)絡(luò)具身智能的主動(dòng)貝葉斯推理

2026-02-28 14:54:47　來源: CreateAMind

上海舉報(bào)

分享至

BRAIN: Bayesian Reasoning via Active Inference for Agentic and

Embodied Intelligence in Mobile Networks

BRAIN：移動(dòng)網(wǎng)絡(luò)具身智能的主動(dòng)貝葉斯推理

https://arxiv.org/pdf/2602.14033v1

摘要——

未來第六代（6G）移動(dòng)網(wǎng)絡(luò)將需要人工智能（AI）智能體，它們不僅自主且高效，而且能夠在動(dòng)態(tài)環(huán)境中實(shí)時(shí)適應(yīng)，并在決策中保持透明。然而，當(dāng)前網(wǎng)絡(luò)中主流的代理式 AI 方法在此方面表現(xiàn)出顯著的不足。傳統(tǒng)的基于深度強(qiáng)化學(xué)習(xí)（DRL）的智能體缺乏可解釋性，且常受困于適應(yīng)性脆弱問題，包括在非平穩(wěn)條件下對(duì)過往知識(shí)的災(zāi)難性遺忘。在本文中，我們針對(duì)這些挑戰(zhàn)提出了一種替代解決方案：基于主動(dòng)推理的貝葉斯推理（BRAIN）智能體。BRAIN 利用網(wǎng)絡(luò)環(huán)境的深度生成模型，并最小化變分自由能，從而在單一閉環(huán)范式中統(tǒng)一感知與行動(dòng)。我們將 BRAIN 作為 O-RAN 擴(kuò)展應(yīng)用（xApp）實(shí)現(xiàn)于 GPU 加速測(cè)試床上，并展示了其相較于標(biāo)準(zhǔn) DRL 基線的優(yōu)勢(shì)。在我們的實(shí)驗(yàn)中，BRAIN 展現(xiàn)出：(i) 針對(duì)動(dòng)態(tài)無線電資源分配的穩(wěn)健因果推理，在不同流量負(fù)載下維持切片特定的服務(wù)質(zhì)量（QoS）目標(biāo)（吞吐量、延遲、可靠性）；(ii) 卓越的適應(yīng)性，與基準(zhǔn)相比對(duì)突發(fā)流量變化的穩(wěn)健性高出高達(dá) 28.3%（無需任何重新訓(xùn)練即可實(shí)現(xiàn)）；以及 (iii) 通過人類可理解的信念狀態(tài)診斷對(duì)其決策進(jìn)行實(shí)時(shí)解釋。

索引術(shù)語——主動(dòng)推理，具身智能，移動(dòng)網(wǎng)絡(luò)，可信性，6G。

I. 引言

人工智能（AI）近年來取得了顯著進(jìn)展，從利用強(qiáng)化學(xué)習(xí)（RL）掌握復(fù)雜游戲與控制任務(wù)，到借助大語言模型（LLM）與生成式 AI 產(chǎn)出類人內(nèi)容。然而，這些成就在很大程度上仍是"去具身化"的：模型運(yùn)行于仿真或數(shù)據(jù)驅(qū)動(dòng)的環(huán)境中，缺乏直接的物理 grounding（現(xiàn)實(shí)錨定）。例如，大語言模型擅長(zhǎng)從靜態(tài)數(shù)據(jù)集中進(jìn)行模式識(shí)別與生成，但無法與動(dòng)態(tài)變化的環(huán)境進(jìn)行交互。同樣，深度強(qiáng)化學(xué)習(xí)（DRL）智能體通常在精心設(shè)計(jì)的仿真環(huán)境中訓(xùn)練，其獎(jiǎng)勵(lì)函數(shù)固定，一旦面對(duì)訓(xùn)練分布之外的真實(shí)世界動(dòng)態(tài)，往往難以應(yīng)對(duì)。本質(zhì)上，當(dāng)今的 AI 系統(tǒng)尚不具備具身智能體所特有的整體性、自適應(yīng)智能——即能夠在真實(shí)世界中持續(xù)感知、行動(dòng)并學(xué)習(xí)的能力 [1]。

這一差距在新興的第六代（6G）及未來移動(dòng)網(wǎng)絡(luò)背景下尤為關(guān)鍵 [2]。未來的這些網(wǎng)絡(luò)預(yù)計(jì)將連接數(shù)百億臺(tái)設(shè)備，并支持具有嚴(yán)苛性能需求的前所未有的服務(wù)，因此亟需采用“AI原生”的設(shè)計(jì)原則，將學(xué)習(xí)與控制智能深度融入基礎(chǔ)設(shè)施之中 [2, 3]。無線環(huán)境本質(zhì)上是復(fù)雜且非平穩(wěn)的：信道條件、用戶移動(dòng)性和流量模式持續(xù)波動(dòng) [4]。此外，6G 必須滿足各類應(yīng)用場(chǎng)景下多樣化的服務(wù)質(zhì)量（QoS）/體驗(yàn)質(zhì)量（QoE）要求 [5]。然而，迄今為止大多數(shù)所謂的“AI賦能”網(wǎng)絡(luò)解決方案，僅僅是將現(xiàn)成的深度學(xué)習(xí)模型（例如卷積神經(jīng)網(wǎng)絡(luò) [6] 或深度自編碼器 [7]）應(yīng)用于特定任務(wù)，而未從根本上重新思考網(wǎng)絡(luò)的認(rèn)知架構(gòu) [8]。盡管這些模型能夠從歷史數(shù)據(jù)中學(xué)習(xí)輸入-輸出映射關(guān)系，但當(dāng)網(wǎng)絡(luò)條件偏離訓(xùn)練集時(shí)，往往難以有效泛化。

強(qiáng)化學(xué)習(xí)（RL）通過使 AI 能夠直接與環(huán)境交互進(jìn)行學(xué)習(xí)，引入了一定程度的自主性 [9]。事實(shí)上，基于深度強(qiáng)化學(xué)習(xí)（DRL）的方法已在無線領(lǐng)域展現(xiàn)出潛力，用于解決從動(dòng)態(tài)頻譜分配、功率控制到切換優(yōu)化和端到端網(wǎng)絡(luò)切片等一系列問題 [10–12]。然而，傳統(tǒng) DRL 方案存在兩大主要缺陷，限制了其作為自主 6G 網(wǎng)絡(luò)“大腦”的適用性。首先，DRL 策略通常由深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)，表現(xiàn)為不透明的“黑箱”[13]；其次，標(biāo)準(zhǔn) DRL 對(duì)變化條件的適應(yīng)能力極為有限 [14]。一旦 DRL 智能體針對(duì)某一特定環(huán)境或流量場(chǎng)景完成訓(xùn)練，便容易對(duì)該條件過擬合。神經(jīng)策略易發(fā)生“災(zāi)難性遺忘”：在學(xué)習(xí)或微調(diào)新數(shù)據(jù)時(shí)，會(huì)覆蓋先前習(xí)得的行為 [4]。圖 1 在網(wǎng)絡(luò)切片場(chǎng)景中展示了這一挑戰(zhàn)：一個(gè)基準(zhǔn) DRL 智能體在適應(yīng)超可靠低延遲通信（URLLC）切片后，很快“遺忘”了如何為增強(qiáng)型移動(dòng)寬帶（eMBB）切片提供服務(wù)，反之亦然，導(dǎo)致每次先前條件重現(xiàn)時(shí)都需耗費(fèi)高昂成本重新學(xué)習(xí)。

這些局限性表明，有必要對(duì)網(wǎng)絡(luò) AI 進(jìn)行根本性的重構(gòu)。學(xué)界日益達(dá)成共識(shí)：下一代網(wǎng)絡(luò)應(yīng)集成更高層次的認(rèn)知能力——融合記憶、感知與推理等要素，而非僅依賴低層次的模式識(shí)別 [8, 15]。本質(zhì)上，此類系統(tǒng)中的 AI 智能體不再只是離線模型，而是物理網(wǎng)絡(luò)環(huán)境中的主動(dòng)參與者。這種具身智能體（agentic）愿景自然導(dǎo)向“主動(dòng)推理”（Active Inference），將其視為網(wǎng)絡(luò)智能發(fā)展的有前景的下一步方向。主動(dòng)推理被描述為實(shí)現(xiàn)此類具身 AI 的理想框架，因其仿效了自然智能系統(tǒng)如何通過以自由能原理為基礎(chǔ)的“行動(dòng)–感知”閉環(huán)來學(xué)習(xí)與適應(yīng) [16]。該理論最初源于認(rèn)知神經(jīng)科學(xué) [17]，提供了一種基于貝葉斯推理的統(tǒng)一理論，用以解釋感知、學(xué)習(xí)與行動(dòng)。與傳統(tǒng) RL 不同，主動(dòng)推理智能體不依賴人工設(shè)計(jì)的獎(jiǎng)勵(lì)信號(hào)；相反，它維護(hù)一個(gè)關(guān)于環(huán)境及其期望結(jié)果的內(nèi)部生成模型。該智能體持續(xù)更新其對(duì)世界隱狀態(tài)的信念（感知步驟），并通過最小化變分自由能來選擇行動(dòng)以實(shí)現(xiàn)目標(biāo)——變分自由能衡量的是智能體預(yù)期與其觀測(cè)之間的預(yù)測(cè)誤差或“意外度”（surprise）。本質(zhì)上，智能體會(huì)先預(yù)測(cè)“應(yīng)該發(fā)生什么”（基于其模型和目標(biāo)），然后采取行動(dòng)使現(xiàn)實(shí)與這些預(yù)期一致，從而降低意外度。

本文提出一種面向移動(dòng)網(wǎng)絡(luò)資源管理的可解釋深度主動(dòng)推理智能體，并在 AI-RAN 測(cè)試平臺(tái)上實(shí)現(xiàn)。本工作是對(duì)一篇目前正在審稿中的研討會(huì)論文的詳細(xì)擴(kuò)展版本。除原始核心概念外，我們：(i) 通過引入更多先進(jìn)智能體基線和詳盡的消融實(shí)驗(yàn)，拓展了實(shí)驗(yàn)深度；(ii) 增加了對(duì)所有智能體的受控非平穩(wěn)性壓力測(cè)試，以量化其魯棒性與恢復(fù)能力；(iii) 引入策略熵分析，使 DRL 與主動(dòng)推理在探索–利用動(dòng)態(tài)方面的表現(xiàn)具有可比性，并擴(kuò)充了相關(guān)章節(jié)與討論。我們將該框架命名為 BRAIN（Bayesian Reasoning via Active INference，即“基于主動(dòng)推理的貝葉斯推理”），并將其構(gòu)想為 AI 原生無線接入網(wǎng)（RAN）控制器的“電信大腦”。圖 2 對(duì)比了傳統(tǒng) DRL 智能體與我們所提出的 BRAIN 智能體的范式差異。BRAIN 架構(gòu)采用深度生成式主動(dòng)推理模型，建模潛在網(wǎng)絡(luò)狀態(tài)（如擁塞水平、信道條件、用戶移動(dòng)性）與可觀測(cè)性能指標(biāo)之間的關(guān)系，同時(shí)將期望結(jié)果（如切片特定的 QoS 目標(biāo)）編碼為先驗(yàn)信念。在每個(gè)控制周期，智能體通過最小化變分自由能執(zhí)行主動(dòng)推理：首先推斷當(dāng)前最可能的網(wǎng)絡(luò)狀態(tài)（感知步驟），然后計(jì)算最優(yōu)的資源分配動(dòng)作（行動(dòng)步驟），以驅(qū)動(dòng)網(wǎng)絡(luò)預(yù)測(cè)性能更接近目標(biāo)（即修正期望結(jié)果與實(shí)際觀測(cè)之間的偏差）。這一推理與行動(dòng)的循環(huán)使 BRAIN 能夠同時(shí)實(shí)現(xiàn)在線學(xué)習(xí)與控制。不同于 DRL 智能體在環(huán)境變化時(shí)需重新訓(xùn)練，BRAIN 能在新觀測(cè)到達(dá)時(shí)實(shí)時(shí)持續(xù)更新其信念，賦予其一種終身學(xué)習(xí)能力，可優(yōu)雅地應(yīng)對(duì)分布偏移。此外，由于智能體的內(nèi)部計(jì)算圍繞概率信念與自由能貢獻(xiàn)展開，我們可以利用這些中間結(jié)果來理解并解釋其行為。

本研究的核心成果總結(jié)如下，分為新貢獻(xiàn)（“C”）與新發(fā)現(xiàn)（“F”）：

C1. 我們提出了 BRAIN——首個(gè)用于 O-RAN 中 AI-RAN 閉環(huán) RAN 切片的深度主動(dòng)推理智能體。
C2. 我們?cè)O(shè)計(jì)的 BRAIN 智能體具備內(nèi)在可解釋性，通過暴露對(duì)潛在切片狀態(tài)的后驗(yàn)信念，以及對(duì)期望自由能（EFE）的分解，從目標(biāo)一致性（外在價(jià)值）和不確定性降低（認(rèn)知價(jià)值）兩個(gè)維度對(duì)每個(gè)動(dòng)作進(jìn)行解釋。

F1. 在動(dòng)態(tài)切片實(shí)驗(yàn)中，BRAIN 展現(xiàn)出對(duì)非平穩(wěn)條件的持續(xù)適應(yīng)能力，在動(dòng)態(tài)負(fù)載下更可靠地維持異構(gòu)切片的服務(wù)意圖。
F2. 與黑箱式 DRL 不同，BRAIN 暴露可解釋的內(nèi)部變量，使得資源分配決策具備因果性和可審計(jì)的解釋能力。

II. 相關(guān)工作

本節(jié)將 BRAIN 定位在支撐移動(dòng)網(wǎng)絡(luò)中智能體智能的三個(gè)互補(bǔ)研究脈絡(luò)中。首先，我們回顧 RL/DRL 如何在網(wǎng)絡(luò)控制和編排中落地實(shí)施，特別是在開放無線接入網(wǎng)（O-RAN）和切片中，作為實(shí)踐中主導(dǎo)的智能體范式。其次，我們總結(jié)無線 AI 中的可解釋性努力，包括可解釋人工智能（XAI）和新興的可解釋強(qiáng)化學(xué)習(xí)（XRL）方法，強(qiáng)調(diào)可解釋性通常在多大程度上是事后引入的，而非決策過程固有的。第三，我們討論主動(dòng)推理作為一種具身智能框架，它通過概率生成建模和變分推斷統(tǒng)一感知與行動(dòng)，并指出目前在通信系統(tǒng)中部署帶有面向網(wǎng)絡(luò)運(yùn)維人員解釋的深度主動(dòng)推理的證據(jù)有限。綜上所述，這些研究工作闡明了我們的方法所解決的方法論差距：一種用于實(shí)時(shí)移動(dòng)網(wǎng)絡(luò)控制的、內(nèi)在可解釋且持續(xù)適應(yīng)的智能體。

移動(dòng)網(wǎng)絡(luò)上的 RL。 RL 以及 DRL 模型已被越來越多地采用于無線網(wǎng)絡(luò)中的動(dòng)態(tài)資源管理和控制任務(wù)。Liu 等人 [11] 提出了 OnSlicing，這是一個(gè)用于跨 RAN、傳輸、核心和邊緣域端到端網(wǎng)絡(luò)切片的在線 DRL 框架。ORANSlice [12] 是一個(gè)專為 O-RAN 生態(tài)系統(tǒng)量身定制的用于 5G 網(wǎng)絡(luò)切片的開源模塊化平臺(tái)。它在靈活框架內(nèi)集成了切片生命周期管理、資源編排、監(jiān)控和分析。雖然 RL 策略可以產(chǎn)生顯著的效率增益，但其不透明的性質(zhì)（通常表現(xiàn)為“黑箱”神經(jīng)網(wǎng)絡(luò)）阻礙了理解和調(diào)試，限制了實(shí)際部署。因此，最近的研究已開始探索 XRL 方法，通過明確闡明策略決策和學(xué)習(xí)到的行為來提高透明度。

移動(dòng)網(wǎng)絡(luò)上的 XAI。 為了克服透明度問題，研究人員轉(zhuǎn)向了移動(dòng)網(wǎng)絡(luò)領(lǐng)域中的 XAI 技術(shù) [18, 19] [20]。近年來，幾項(xiàng)工作探索了使用流行的 XAI 方法（例如 SHAP [21] 和 LIME [22]）來解釋無線網(wǎng)絡(luò)任務(wù)的復(fù)雜模型 [23–25]。雖然有用，但此類通用 XAI 方法已被證明不足以滿足移動(dòng)網(wǎng)絡(luò)的需求。它們僅提供表面見解，且往往難以應(yīng)對(duì)網(wǎng)絡(luò)數(shù)據(jù)的時(shí)間性和高維特性。認(rèn)識(shí)到這些差距，一些研究已開始追求針對(duì)特定領(lǐng)域的 XAI 和無線通信的內(nèi)在可解釋模型。研究人員為網(wǎng)絡(luò)流量模型引入了自定義時(shí)間序列解釋器，跟蹤特征重要性如何隨時(shí)間演變，并識(shí)別導(dǎo)致錯(cuò)誤的異常模式 [26, 27]?？傮w而言，這些努力強(qiáng)調(diào)無線 AI 中的可解釋性可能需要專家驅(qū)動(dòng)的設(shè)計(jì)，以滿足網(wǎng)絡(luò)操作的可靠性和見解需求。值得注意的是，XRL 在其他領(lǐng)域（如機(jī)器人和自主系統(tǒng)）也日益受到關(guān)注，旨在從 RL 智能體中提取人類可理解的策略。然而，在無線網(wǎng)絡(luò)文獻(xiàn)中，可解釋 RL 或 DRL 迄今為止看到的探索非常有限。一個(gè)值得注意的方法是 SYMBXRL [28]，它在黑箱 DRL 模型之上引入了一個(gè)符號(hào)解釋層。在該框架中，符號(hào)表示生成器將數(shù)值狀態(tài)和動(dòng)作變量轉(zhuǎn)換為離散的一階邏輯謂詞。相比之下，我們提出的框架采用了一種根本不同的范式，通過將可解釋性直接嵌入智能體的生成和推理過程中。因此，仍然迫切需要能夠解釋和證明不同學(xué)習(xí)智能體行為的新方法。

主動(dòng)推理。 近年來，它已應(yīng)用于工程領(lǐng)域，顯示出在不確定性下進(jìn)行狀態(tài)估計(jì)、規(guī)劃和控制的潛力 [29]。這些早期研究表明，主動(dòng)推理可以作為一種靈活的、受生物啟發(fā)的序列決策方法，區(qū)別于強(qiáng)化學(xué)習(xí) [30]。需要注意的是，用于未知環(huán)境中自適應(yīng)決策的 RL 形式體系被主動(dòng)推理所涵蓋。研究人員已將主動(dòng)推理應(yīng)用于機(jī)器人控制任務(wù)，其中智能體的生成模型使其能夠處理模糊的感官輸入，但仍追求目標(biāo)導(dǎo)向的行為 [31, 32]。主動(dòng)推理的一個(gè)有趣方面是其內(nèi)置可解釋性的潛力，盡管這一方面尚未得到具體驗(yàn)證 [16, 33]。

III. 智能體AI設(shè)計(jì)的問題建模 A. 強(qiáng)化學(xué)習(xí)

我們將閉環(huán)RAN切片控制問題建模為不確定性下的序貫決策任務(wù)，可形式化為馬爾可夫決策過程（MDP）。在我們的場(chǎng)景中，智能體是近實(shí)時(shí)RIC控制擴(kuò)展應(yīng)用（xApp），環(huán)境由gNB及其切片（增強(qiáng)移動(dòng)寬帶eMBB、超可靠低時(shí)延通信URLLC、大規(guī)模機(jī)器類通信mMTC）以及它們的流量和無線條件組成。

B. 主動(dòng)推理

主動(dòng)推理是一種源于認(rèn)知神經(jīng)科學(xué)的全新決策范式，為不確定性下的行動(dòng)與感知提供了統(tǒng)一的方法[34]。與純粹從外部獎(jiǎng)勵(lì)反饋中學(xué)習(xí)策略不同，主動(dòng)推理智能體利用其對(duì)環(huán)境的內(nèi)部生成模型，并采取行動(dòng)以最小化其觀測(cè)的"驚訝度"（預(yù)測(cè)誤差）。在我們的場(chǎng)景中，這意味著智能體（我們的BRAIN xApp）被設(shè)計(jì)為對(duì)RAN切片系統(tǒng)具有先驗(yàn)期望；例如，URLLC切片的緩沖區(qū)應(yīng)保持較低（以表示低延遲），eMBB切片的吞吐量應(yīng)較高。然后，智能體持續(xù)調(diào)整其動(dòng)作，使觀測(cè)到的切片性能與這些內(nèi)部期望保持一致，從而減少與期望行為的意外偏差。

從數(shù)學(xué)上講，主動(dòng)推理將閉環(huán)控制問題轉(zhuǎn)化為變分推斷過程。智能體擁有RAN環(huán)境的概率生成模型，并將真實(shí)網(wǎng)絡(luò)狀態(tài)視為待推斷的潛在（隱藏）變量。我們可以通過以下聯(lián)合分布將時(shí)間范圍 T 上的生成模型形式化：

總之，我們基于主動(dòng)推理的控制器持續(xù)更新其對(duì)RAN切片的內(nèi)部模型，并選擇最小化期望自由能的資源控制動(dòng)作。這導(dǎo)致一種閉環(huán)行為，其中智能體通過確保切片性能達(dá)到目標(biāo)目標(biāo)，使其觀測(cè) unsurprising（不出人意料）。值得注意的是，該框架自然處理部分可觀測(cè)性（將真實(shí)網(wǎng)絡(luò)條件視為待推斷的潛在變量），并通過內(nèi)置偏好編碼容納多個(gè)切片目標(biāo)（每個(gè)切片的QoS目標(biāo)在智能體模型中反映為偏好結(jié)果）。其結(jié)果是形成一種有原則的控制策略，與標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)不同，它不需要為每個(gè)場(chǎng)景外部定義獎(jiǎng)勵(lì)函數(shù)，而是源于智能體最小化預(yù)測(cè)誤差并維護(hù)其建模服務(wù)目標(biāo)的內(nèi)在驅(qū)動(dòng)。

IV. 可解釋深度主動(dòng)推理設(shè)計(jì) A. 生成模型設(shè)計(jì)

V. 實(shí)驗(yàn)設(shè)計(jì) A. GPU加速的AI-RAN測(cè)試平臺(tái)

我們部署了一個(gè)私有5G測(cè)試平臺(tái)（見圖3），采用基于NVIDIA Aerial Research Cloud (ARC) 平臺(tái)[36, 37]和Aerial SDK[38]構(gòu)建的GPU加速O-RAN架構(gòu)。在我們的設(shè)置中，gNB的協(xié)議棧被分為兩部分：運(yùn)行在NVIDIA GPU上的O-DU Low（層1 PHY），以及運(yùn)行在x86 CPU上的O-DU High/CU（高層協(xié)議），使用OpenAirInterface (OAI)[39]。兩部分通過Small Cell Forum的FAPI接口通信，實(shí)現(xiàn)GPU上PHY層DSP任務(wù)的在線加速，同時(shí)保持標(biāo)準(zhǔn)的OAI軟件棧用于MAC/RLC/PDCP/RRC層。

富士康O-RU[40]在n78 TDD頻段（中頻段FR1）運(yùn)行，提供射頻前端，通過標(biāo)準(zhǔn)O-RAN 7.2前傳接口連接。該O-RU支持100 MHz信道帶寬（30 kHz子載波間隔下273個(gè)PRB），采用TDD模式，TDD時(shí)隙配置遵循3GPP Release 15規(guī)范（如DDDSU時(shí)隙）。測(cè)試平臺(tái)配備了商用和軟件化UE以生成多切片流量。具體而言，我們使用COTS 5G UE（Sierra Wireless EM9191調(diào)制解調(diào)器模塊）和基于OAI的軟件UE（nrUE）作為兩個(gè)終端設(shè)備。

Sierra Wireless EM9191提供真實(shí)的5G NR用戶設(shè)備，通過空口連接到gNB。OAI nrUE是一個(gè)軟件UE協(xié)議棧（也運(yùn)行在帶有SDR前端的服務(wù)器上），模擬第二個(gè)5G UE，允許對(duì)其流量和切片配置進(jìn)行細(xì)粒度控制。兩個(gè)UE都支持同時(shí)建立多個(gè)PDU會(huì)話，我們將其映射到不同的網(wǎng)絡(luò)切片（如下所述）。

B. 用例：智能編排

我們考慮一個(gè)多切片RAN場(chǎng)景，其中智能xApp作為自主智能體部署用于閉環(huán)切片資源編排。O-RAN近實(shí)時(shí)RIC托管我們的BRAIN xApp，它觀測(cè)網(wǎng)絡(luò)狀態(tài)并動(dòng)態(tài)控制服務(wù)多個(gè)切片的gNB。在我們的設(shè)置中，單個(gè)100 MHz小區(qū)（一個(gè)O-RU/gNB）服務(wù)兩個(gè)UE，包含三種切片類型：eMBB、URLLC和大規(guī)模mMTC，每種具有不同的QoS要求（eMBB要求高吞吐量，URLLC要求低延遲，mMTC要求高可靠性）。gNB的MAC是切片感知的，為每個(gè)切片維護(hù)獨(dú)立的緩沖區(qū)和調(diào)度隊(duì)列，UE為其各自的切片生成流量（例如，一個(gè)UE通過獨(dú)立的PDU會(huì)話在eMBB上承載視頻流、在URLLC上承載實(shí)時(shí)控制流，另一個(gè)UE在mMTC上承載間歇性IoT遙測(cè)數(shù)據(jù)）。這為xApp智能體形成了一個(gè)豐富的編排環(huán)境。

BRAIN xApp通過O-RAN E2接口持續(xù)監(jiān)控切片性能。一個(gè)輕量級(jí)KPM監(jiān)控xApp流式傳輸實(shí)時(shí)遙測(cè)數(shù)據(jù)[41]；如切片特定的下行吞吐量、緩沖區(qū)占用率（隊(duì)列長(zhǎng)度）和下行傳輸塊計(jì)數(shù)，進(jìn)入RIC的數(shù)據(jù)層（使用標(biāo)準(zhǔn)O-RAN KPM服務(wù)模型）。這些指標(biāo)在先前工作[42]中被證明能有效捕獲切片流量需求和QoS條件，構(gòu)成我們智能體觀測(cè)的狀態(tài) s。

在每個(gè)控制間隔（數(shù)十毫秒量級(jí)），BRAIN計(jì)算動(dòng)作 a 以調(diào)整RAN切片策略。動(dòng)作空間包括調(diào)整每個(gè)切片的PRB分配比例（在eMBB/URLLC/mMTC之間劃分小區(qū)帶寬）以及為每個(gè)切片選擇調(diào)度算法（如比例公平、輪詢或加權(quán)公平隊(duì)列）。這些命令通過O-RAN E2控制消息分派給gNB（使用與O-RAN規(guī)范一致的自定義控制服務(wù)模型），從而閉合控制環(huán)路。在這種智能體部署中，xApp自主實(shí)時(shí)調(diào)整網(wǎng)絡(luò)參數(shù)以滿足切片服務(wù)級(jí)目標(biāo)。

切片特定的QoS優(yōu)先級(jí)被編碼到智能體的獎(jiǎng)勵(lì)（或效用）函數(shù)中以驅(qū)動(dòng)其行為。在我們的設(shè)計(jì)中：

eMBB切片以吞吐量為導(dǎo)向（智能體獎(jiǎng)勵(lì)高eMBB數(shù)據(jù)速率）
URLLC切片對(duì)延遲敏感（智能體懲罰大URLLC緩沖區(qū)占用以最小化排隊(duì)延遲）
mMTC切片以可靠性為重點(diǎn)（智能體獎(jiǎng)勵(lì)mMTC傳輸塊的成功傳輸，這與間歇性IoT流量的可靠覆蓋相關(guān)）

在這些目標(biāo)的指導(dǎo)下，BRAIN xApp可以例如在擁塞期間為URLLC分配額外PRB以迅速清空其隊(duì)列，或在間歇性上行數(shù)據(jù)包到達(dá)時(shí)將mMTC切片的調(diào)度器切換到更具機(jī)會(huì)性的模式。來自監(jiān)控xApp的不斷更新的KPM狀態(tài)使BRAIN能夠驗(yàn)證切片性能指標(biāo)是否得到滿足，并在未滿足時(shí)快速反應(yīng)。

C. 基線智能體與訓(xùn)練方法

調(diào)優(yōu)基線智能體。為評(píng)估我們的BRAIN智能體，我們將其與更廣泛的基線智能體套件進(jìn)行比較，包括學(xué)習(xí)策略和啟發(fā)式調(diào)度器。具體而言，我們實(shí)現(xiàn)了：

? 調(diào)優(yōu)啟發(fā)式（Tuned Heuristic）：在切片間靜態(tài)劃分PRB（根據(jù)固定優(yōu)先級(jí)權(quán)重），使用加權(quán)輪詢調(diào)度器（非學(xué)習(xí)基線）

? 深度Q網(wǎng)絡(luò)（DQN）智能體，用于切片控制[43]

? 優(yōu)勢(shì)演員-評(píng)論家（A2C）智能體[44]

? ** vanilla策略梯度智能體（REINFORCE）**[45]

? 近端策略優(yōu)化（PPO）智能體[46]

? 軟演員-評(píng)論家（SAC）智能體[47]

所有自定義智能體均用PyTorch實(shí)現(xiàn)，并部署為容器化xApp，使其與O-RAN近實(shí)時(shí)RIC平臺(tái)兼容。我們通過在線學(xué)習(xí)方式讓每個(gè)智能體與我們的RAN測(cè)試平臺(tái)直接交互進(jìn)行訓(xùn)練（智能體xApp在接收新觀測(cè)和獎(jiǎng)勵(lì)時(shí)持續(xù)更新其策略）。為確保公平評(píng)估，每個(gè)學(xué)習(xí)智能體訓(xùn)練相同數(shù)量的時(shí)間步（約次環(huán)境交互，在20 ms控制間隔下相當(dāng)于數(shù)小時(shí)的網(wǎng)絡(luò)時(shí)間）。我們?cè)诙鄠€(gè)隨機(jī)種子上重復(fù)每個(gè)訓(xùn)練實(shí)驗(yàn)（例如，每個(gè)智能體5次獨(dú)立運(yùn)行），并報(bào)告具有95%置信區(qū)間的平均性能，以考慮隨機(jī)變異性。我們比較訓(xùn)練迭代次數(shù)和實(shí)際掛鐘時(shí)間的收斂速度，因?yàn)橄馪PO這樣的同策略方法需要更多交互但每步計(jì)算較少，而像SAC這樣的異策略方法可以以更密集的更新為代價(jià)從較少交互中學(xué)習(xí)。

訓(xùn)練。為用一個(gè)共同標(biāo)量表征所有控制器的探索-利用行為，我們報(bào)告訓(xùn)練時(shí)間上的策略熵。對(duì)于每個(gè)回合，我們計(jì)算用于在每個(gè)時(shí)間步生成決策的動(dòng)作選擇分布的香農(nóng)熵，并在回合內(nèi)取平均：

除整體性能外，我們?cè)O(shè)計(jì)實(shí)驗(yàn)以探測(cè)每個(gè)控制器的適應(yīng)性和魯棒性。我們?cè)谟?xùn)練/部署期間引入受控的非平穩(wěn)性。例如，在實(shí)驗(yàn)中途突然改變流量強(qiáng)度或切換信道條件，以評(píng)估每個(gè)智能體重新調(diào)整到新網(wǎng)絡(luò)動(dòng)態(tài)的速度。這測(cè)試了對(duì)變化條件的恢復(fù)力和強(qiáng)化學(xué)習(xí)基線中潛在的災(zāi)難性遺忘（即，在一種流量分布下訓(xùn)練的策略在分布變化時(shí)是否失?。?。

我們還對(duì)BRAIN智能體的關(guān)鍵參數(shù)進(jìn)行敏感性分析，包括切片偏好模型和獎(jiǎng)勵(lì)加權(quán)（外在QoS目標(biāo)與認(rèn)識(shí)探索獎(jiǎng)勵(lì)）、決策中使用的規(guī)劃范圍長(zhǎng)度，以及狀態(tài)輸入中的觀測(cè)噪聲水平。通過改變這些因素，我們?cè)u(píng)估智能體性能對(duì)錯(cuò)誤指定偏好或不確定性的魯棒性。

VI. 評(píng)估

分析智能體性能。圖4總結(jié)了BRAIN智能體與調(diào)優(yōu)啟發(fā)式基線及各種DRL智能體（A2C、PPO、DQN、SAC、REINFORCE）在AI-RAN測(cè)試平臺(tái)中的訓(xùn)練性能。

在圖4a中，BRAIN智能體的獎(jiǎng)勵(lì)曲線陡峭上升，在遠(yuǎn) fewer 的回合內(nèi)收斂，并達(dá)到比所有基線（包括調(diào)優(yōu)啟發(fā)式）更高的漸近獎(jiǎng)勵(lì)。這表明BRAIN以顯著更高的樣本效率學(xué)習(xí)有效策略；從有限交互中提取更多累積獎(jiǎng)勵(lì)。相比之下，DRL智能體表現(xiàn)出較慢的獎(jiǎng)勵(lì)增長(zhǎng)和較低的平臺(tái)期，反映了無模型強(qiáng)化學(xué)習(xí)典型的繁重試錯(cuò)搜索。更快的獎(jiǎng)勵(lì)收斂意味著BRAIN可以用比DRL基準(zhǔn)少得多的訓(xùn)練數(shù)據(jù)達(dá)到近最優(yōu)控制決策——這在現(xiàn)實(shí)網(wǎng)絡(luò)中是關(guān)鍵優(yōu)勢(shì)，其中每個(gè)訓(xùn)練回合（例如，次優(yōu)決策的時(shí)隙）都有實(shí)際成本。

圖4b繪制了平均訓(xùn)練損失，BRAIN再次以明顯更低且更穩(wěn)定的損失軌跡脫穎而出。BRAIN智能體的損失始終比深度RL智能體的損失低近一個(gè)數(shù)量級(jí)，并顯示出最小振蕩。這種穩(wěn)定性表明BRAIN的學(xué)習(xí)更新表現(xiàn)良好，防止了經(jīng)常困擾DRL訓(xùn)練的大梯度擺動(dòng)或發(fā)散問題。相比之下，RL基線（尤其是像DQN或REINFORCE這樣更不穩(wěn)定的）表現(xiàn)出更高的損失值和明顯波動(dòng)，信號(hào)學(xué)習(xí)不太穩(wěn)定。RL中的這種不穩(wěn)定性可能源于算法難以適應(yīng)RAN的非平穩(wěn)動(dòng)態(tài)：當(dāng)環(huán)境的"規(guī)則"（如用戶負(fù)載、信道條件）持續(xù)變化時(shí)，傳統(tǒng)RL智能體難以重用先前知識(shí)，可能需要反復(fù)重新學(xué)習(xí)。

圖4c說明了隨時(shí)間的策略熵，揭示了每個(gè)智能體的探索-利用平衡。BRAIN的熵開始時(shí)較高（鼓勵(lì)探索），然后隨著訓(xùn)練進(jìn)行逐漸下降。重要的是，它從未收斂到零；相反，BRAIN的熵逐漸降至中等水平，表明受控的探索策略。這種穩(wěn)定的熵降低表明BRAIN在早期系統(tǒng)性地探索動(dòng)作空間，然后在收斂時(shí)自信地利用其學(xué)習(xí)策略，所有這些都未過早失去決策多樣性。

可解釋性分析。我們將每個(gè)切片的需求建模為隱藏狀態(tài)（低/中/高），并在圖5中將智能體的后驗(yàn)信念隨時(shí)間可視化為熱圖。

在圖6a的eMBB切片中，我們觀察到認(rèn)識(shí)價(jià)值在早期階段占主導(dǎo)，綠色區(qū)域最為突出。這表明智能體最初探索eMBB流量需求的不確定方面，可能執(zhí)行觀測(cè)驅(qū)動(dòng)或探測(cè)動(dòng)作以細(xì)化其關(guān)于帶寬需求的內(nèi)部信念。隨著時(shí)間推移，認(rèn)識(shí)項(xiàng)穩(wěn)步下降，而外在成本增加。這種轉(zhuǎn)變反映智能體已獲得足夠信念信心，開始轉(zhuǎn)向利用行為，專注于將切片資源分配與性能偏好對(duì)齊。

在圖6b的URLLC切片中，出現(xiàn)略微不同的模式。認(rèn)識(shí)分量和外在分量在早期階段更加平衡，意味著智能體同時(shí)探索和調(diào)節(jié)URLLC的延遲關(guān)鍵需求。這種行為反映了URLLC的嚴(yán)格QoS約束，這要求即使早期決策也考慮外在風(fēng)險(xiǎn)。

在圖6c的mMTC切片中，我們看到最強(qiáng)且最持久的認(rèn)識(shí)參與。綠色區(qū)域主導(dǎo)圖的前半部分，表明智能體最初投入大量探索努力以理解mMTC的需求動(dòng)態(tài)，這可能是突發(fā)和稀疏的。在之后，外在價(jià)值急劇增加，因?yàn)橹悄荏w開始強(qiáng)制執(zhí)行目標(biāo)導(dǎo)向行為。

切片性能。圖7報(bào)告了三個(gè)異構(gòu)切片的每切片經(jīng)驗(yàn)KPM累積分布函數(shù)（CDF），在AI-RAN測(cè)試平臺(tái)上對(duì)所有智能體使用相同的狀態(tài)/動(dòng)作接口測(cè)量。使用CDF（而非僅均值）很重要，因?yàn)樗┞读宋膊啃袨楹涂煽啃裕篊DF右移表示智能體更頻繁地實(shí)現(xiàn)更大的KPM值（"更好→"），而更陡峭的CDF表示變異性降低（更可預(yù)測(cè)的操作）。

圖7a顯示，BRAIN產(chǎn)生了最有利的吞吐量分布；相對(duì)于所有DRL基線和調(diào)優(yōu)啟發(fā)式，表明在整個(gè)操作范圍內(nèi)基本上實(shí)現(xiàn)更高吞吐量。定性而言，BRAIN不僅提高了中位吞吐量，還提高了上分位數(shù)，表明智能體學(xué)習(xí)了一種切片策略，即使在滿足更嚴(yán)格的URLLC/mMTC需求時(shí)也能保持eMBB容量。相比之下，基線表現(xiàn)出i）較低的中位數(shù)或ii）較大的離散度，意味著在相同流量組合和控制預(yù)算下eMBB服務(wù)不太一致。

圖7b報(bào)告了URLLC PRB比率（即切片和調(diào)度決策有效分配/提供給URLLC的物理資源比例）的分布。更高的URLLC PRB比率CDF反映對(duì)URLLC更強(qiáng)的資源保護(hù)，這與在擁塞下滿足延遲敏感目標(biāo)一致。BRAIN表現(xiàn)出最右移的曲線，表明它在需要時(shí)更可靠地分配/維持更高的URLLC資源份額。這種行為與具身主動(dòng)推理設(shè)計(jì)一致：智能體的動(dòng)作后驗(yàn)（通過EFE形成）當(dāng)信念表明隊(duì)列壓力上升時(shí)，自然地增加對(duì)URLLC保護(hù)動(dòng)作的精度，而非依賴脆弱的獎(jiǎng)勵(lì)塑造或回合重新訓(xùn)練。幾個(gè)DRL基線（特別是REINFORCE和調(diào)優(yōu)啟發(fā)式）在較低PRB比率處顯示出 substantially 更多的質(zhì)量，這通常對(duì)應(yīng)于URLLC配置不足、因此更容易受到隊(duì)列累積和延遲違規(guī)影響的時(shí)期。

圖7c比較了mMTC切片的交付下行PHY TB分布，我們?cè)谠O(shè)置中將其用作可靠性導(dǎo)向的代理（成功的TB交付反映對(duì)間歇性IoT/遙測(cè)流量的持續(xù)服務(wù)）。與DRL基線相比，BRAIN對(duì)TB分布提供了適度但一致的改善，表明在不犧牲eMBB吞吐量或URLLC保護(hù)的情況下提高了可靠性。重要的是，低性能尾部減少：BRAIN產(chǎn)生更少的"近饑餓"間隔（非常低的TB速率），這對(duì)mMTC至關(guān)重要，因?yàn)橥话l(fā)流量仍必須可預(yù)測(cè)地交付。

除平均獎(jiǎng)勵(lì)外，我們?cè)u(píng)估控制器在分布變化下是否維持切片特定的服務(wù)保證。具體而言，我們測(cè)量每個(gè)智能體在受控非平穩(wěn)事件前后將所有切片保持在QoS目標(biāo)內(nèi)的可靠性。在圖8中，在非平穩(wěn)事件之前（），BRAIN實(shí)現(xiàn)了最高的全切片QoS滿意度，表明它在標(biāo)稱狀態(tài)下最一致地將所有切片約束保持在目標(biāo)內(nèi)。在處，所有基于學(xué)習(xí)的智能體由于流量激增表現(xiàn)出QoS Sat(t)的急劇下降；然而，BRAIN顯示出最小的退化，并最快恢復(fù)到其轉(zhuǎn)移前水平。相比之下，DRL基線遭受更大的轉(zhuǎn)移后下降，恢復(fù)更慢，穩(wěn)定在較低的QoS滿意度水平；與分布變化下適應(yīng)性降低和部分遺忘一致。調(diào)優(yōu)啟發(fā)式在整個(gè)過程中基本保持平坦且遠(yuǎn)低于學(xué)習(xí)智能體，證實(shí)靜態(tài)切片策略無法對(duì)突然的狀態(tài)變化做出反應(yīng)。

VII. 結(jié)論

這項(xiàng)工作證明，深度主動(dòng)推理不僅是移動(dòng)網(wǎng)絡(luò)中智能體和具身智能的概念契合，也是真實(shí)開放AI-RAN協(xié)議棧上的實(shí)用控制范式。我們引入了BRAIN作為xApp，通過兩個(gè)緊密耦合的操作閉合網(wǎng)絡(luò)動(dòng)作-感知環(huán)路：(i) 從流式KPM對(duì)潛在切片條件進(jìn)行貝葉斯信念更新，以及(ii) 期望自由能最小化以選擇聯(lián)合滿足切片意圖和減少不確定性的資源分配動(dòng)作。

在具有異構(gòu)切片的GPU加速AI-RAN測(cè)試平臺(tái)上，BRAIN產(chǎn)生了三個(gè)具體成果。首先，它實(shí)現(xiàn)了比調(diào)優(yōu)啟發(fā)式和廣泛DRL基線更強(qiáng)的切片性能。其次，它在非平穩(wěn)性下提供了魯棒適應(yīng)：當(dāng)流量分布突然變化時(shí)，BRAIN表現(xiàn)出最小的QoS滿意度退化和最快的恢復(fù)，無需重新訓(xùn)練。第三，它在運(yùn)行時(shí)提供了面向運(yùn)營(yíng)商的可解釋性。除經(jīng)驗(yàn)優(yōu)勢(shì)外，更廣泛的見解是，主動(dòng)推理通過將決策基于有原則的貝葉斯信念更新而非獎(jiǎng)勵(lì)工程，實(shí)現(xiàn)了真正的智能體、具身控制。

對(duì)于未來工作，有前景的方向包括將框架擴(kuò)展到O-RAN中的分層、多時(shí)間尺度主動(dòng)推理，其中近實(shí)時(shí)xApp在非實(shí)時(shí)意圖下運(yùn)行，并使用結(jié)構(gòu)化生成模型進(jìn)行策略協(xié)調(diào)。另一個(gè)重要的研究方向可以是擴(kuò)展到多小區(qū)和多智能體部署，實(shí)現(xiàn)xApp在干擾和移動(dòng)性耦合下的協(xié)調(diào)，并研究在真實(shí)遙測(cè)和前傳約束下的分布式信念共享。

原文鏈接：https://arxiv.org/pdf/2602.14033v1

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.