華人團隊打造養(yǎng)蝦神器，開源OpenClaw-RL框架，讓AI邊用邊學

2026-03-16 17:43:48　來源: DeepTech深科技

北京舉報

分享至

過去一周全網(wǎng)都在養(yǎng)那只紅色卡通龍蝦 OpenClaw。作為能夠自己動手干活的 AI 智能體，有人花幾千塊請它回家，幾天后賬號被盜、文件被刪，又花幾百塊請人卸載。從排隊安裝到扎堆卸載只隔了一周。

蝦到底該怎么養(yǎng)？北京大學博士、美國普林斯頓大學博士后研究員楊靈（合作導師為王夢迪教授）和團隊成員（王胤杰博士等人）給出一個讓蝦越養(yǎng)越好、越養(yǎng)越聰明的答案。

圖 | 楊靈（來源：受訪者）

幾天前，楊靈等人發(fā)布了一個名為 OpenClaw-RL 的開源框架，核心邏輯非常簡單但頗具洞察，你和 AI 的每一次對話本身就是最好的訓練數(shù)據(jù)。這套系統(tǒng)讓 AI 正常服務用戶的同時，后臺有四個完全解耦的模塊在異步運轉(zhuǎn)：策略服務、軌跡收集、過程獎勵評估與參數(shù)訓練，彼此互不阻塞。

（來源：https://arxiv.org/pdf/2603.10165）

楊靈告訴 DeepTech：“我們這次聚焦的是個性化場景下的在線強化學習。這個方向之前很少有人系統(tǒng)性地研究，主要原因是缺少自然產(chǎn)生的交互數(shù)據(jù)，學術(shù)界很難構(gòu)造可復現(xiàn)的 benchmark，工業(yè)界也缺少端到端的訓練閉環(huán)。”

“我們這次的工作相當于為這個方向提供了第一套完整的基礎設施和方法論，從數(shù)據(jù)收集、信號提取到策略優(yōu)化，形成了一個可落地的閉環(huán)，同時也提出了一些新的研究視角。”其表示。

這套系統(tǒng)的核心洞察在于重新審視了一個被長期忽視的資源：AI 每執(zhí)行一次動作之后，都會收到一個"下一狀態(tài)"（next state），用戶的回復、工具的輸出、測試的結(jié)果、界面的變化，這些全部是信號?，F(xiàn)有系統(tǒng)只是把這些信號當做下一輪對話的上下文輸入，但 OpenClaw-RL 的觀點是，它們本質(zhì)上是對上一步動作質(zhì)量最直接、最豐富的反饋，完全可以在不需要任何人工標注的情況下，轉(zhuǎn)化為強化學習的訓練信號。

（來源：https://arxiv.org/pdf/2603.10165）

這些信號里藏著兩種截然不同的信息：

第一種是評估性信號。用戶滿意就給正分，不滿意就給負分；用戶重復提問往往意味著不滿，測試通過則意味著成功。這些信號被一個名為"過程獎勵模型"（Process Reward Model, PRM）的裁判模塊捕捉。

為了提高判斷的魯棒性，系統(tǒng)對每一步動作進行多次獨立評估，然后通過多數(shù)表決機制，將結(jié)果轉(zhuǎn)換成+1（好）、-1（差）或 0（中性）的標量獎勵。與傳統(tǒng)強化學習只在任務結(jié)束時給出一個最終分數(shù)不同，這種逐步評估的方式讓訓練信號密集了一個數(shù)量級，策略模型可以精確知道是哪一步做對了、哪一步做錯了。

第二種是指導性信號。當用戶對 AI 說"你應該先檢查文件再編輯"，這不只是一個差評，它在告訴 AI 具體哪里做錯了、應該怎么改。然而，僅靠+1/-1 的標量獎勵根本無法傳遞這種細粒度的糾正信息：它只能說"你錯了"，卻說不清"錯在哪里、該怎么改"。

為此，楊靈和團隊設計了一種名為“基于提示的在線策略蒸餾”（Hindsight-Guided On-Policy Distillation, OPD）的方法。其核心思路巧妙而直覺：當下一條用戶回復到來時，系統(tǒng)中的裁判模塊會從中提煉一句可操作的"事后提示"（hindsight hint），例如“應該先檢查文件是否存在再執(zhí)行編輯操作”。然后，系統(tǒng)把這條提示附加到原來的對話歷史中，構(gòu)造出一個"增強版提示"。

關(guān)鍵來了：系統(tǒng)并不讓模型重新生成一版回答，而是讓同一個模型在增強版提示下重新評估原始回答中每一個詞的生成概率。如果某個詞在"知道提示之后"的概率變高了，說明這個詞說對了，模型應當加強；反之如果概率降低了，說明這個詞不夠好，應當抑制。這種逐詞級別的方向性信號遠比一個簡單的“好/壞”分數(shù)豐富得多，它不僅告訴模型"你錯了"，還精確指出"哪個詞該多說、哪個詞該少說"。

這兩種方法互為補充：評估性信號覆蓋范圍廣，幾乎每一輪對話都能產(chǎn)生獎勵信號，雖然粒度較粗但勝在無處不在；指導性信號則只有在用戶提供了具有糾正意義的反饋時才會觸發(fā)，出現(xiàn)頻率較低但信息密度極高。論文實驗表明，將兩者結(jié)合使用時，效果顯著優(yōu)于單獨使用任何一種方法。

（來源：https://arxiv.org/pdf/2603.10165）

研究中，他們在以下兩個模擬場景里做了測試：

一個是讓學生使用 AI 寫作業(yè)，要求是別讓老師看出來是 AI 寫的（當然現(xiàn)實生活中不鼓勵大家這樣使用）。另一個是讓老師用 AI 批改作業(yè)，要求評語要具體又友善。

在老師使用 AI 批改作業(yè)的那個例子里，一開始 AI 只會回答“正確，做得很好”。但在經(jīng)過 24 輪優(yōu)化之后它會寫下“你把 3 周轉(zhuǎn)成 21 天這一步很多同學會漏掉，但是你處理得很準確”這樣的評語，同時還配上了表情符號，非常符合人類世界所倡導的夸獎要具體而真實的做法。

OpenClaw-RL 在工程上的另一個突破是將 AI 訓練從傳統(tǒng)的"停服更新"變成了"邊用邊學"。整個系統(tǒng)采用全異步架構(gòu)：策略服務器持續(xù)響應新的用戶請求，軌跡收集器同步截取訓練所需的數(shù)據(jù)，裁判模塊并發(fā)地給前一個回答打分，而訓練器則在后臺持續(xù)更新參數(shù)。

當參數(shù)更新完成時，系統(tǒng)會短暫暫停數(shù)據(jù)提交、加載新權(quán)重，然后無縫恢復服務。整個過程中沒有任何組件需要等待其他組件完成，用戶端感受到的是零中斷的連續(xù)服務。

他們還把 OpenClaw-RL 應用到了更加復雜的通用智能體場景，涵蓋終端操作（128 個并行環(huán)境）、圖形界面操作（64 個）、代碼編寫（64 個）和工具調(diào)用（32 個）四大類任務。在工具調(diào)用任務上，同時使用過程獎勵和結(jié)果獎勵兩種信號，準確率從基線的 17% 一路提升到 76%，這意味著同一個模型在持續(xù)交互中完成了超過 4 倍的性能躍升。

（來源：https://arxiv.org/pdf/2603.10165）

據(jù)楊靈介紹，這套訓練框架的一個重要發(fā)現(xiàn)是：來自不同 Agent 場景（終端、GUI、代碼、工具調(diào)用）的交互數(shù)據(jù)可以放在同一個框架中聯(lián)合訓練，并且模型在各個維度上都呈現(xiàn)出整體性的上升趨勢。"這意味著統(tǒng)一的 Agent 強化學習訓練是可行的，"楊靈說，"如果這條路能走通，對于構(gòu)建真正通用的 AI 智能體會是一個非常關(guān)鍵的基礎。

因為通用智能體最終要面對不同種類的任務、場景和用戶需求，一套統(tǒng)一且可擴展的訓練框架是必要條件。據(jù)我們所知，這種跨場景聯(lián)合訓練 Agent 的視角之前還沒有被系統(tǒng)性地探索過。"

（來源：https://arxiv.org/pdf/2603.10165）

“事實上，這項研究從 idea 提出到開源，我們只花了三天。當然必要的溝通不能少，但在現(xiàn)在這個時代，有些想法從出來到實現(xiàn)，真的可以很快?！睏铎`表示。

他補充稱："不過在這個大家都在拼速度的時代，我覺得對問題的判斷力和研究品味反而更重要。選擇做什么、不做什么，能不能識別出真正有長期價值的問題，這些決定了一個研究方向最終能走多遠。執(zhí)行力當然也關(guān)鍵，不只是說模型能不能跑出好的數(shù)字，而是整套系統(tǒng)能不能真正落地、讓人用起來。"

在應用前景上，楊靈認為 OpenClaw-RL 有兩個最有價值的落地方向。

第一個是隱私敏感的本地化場景。例如政府部門、金融機構(gòu)和醫(yī)療機構(gòu)，這些場景不可能將數(shù)據(jù)傳輸給外部的大模型 API，但同樣有強烈的 AI 智能體需求。OpenClaw-RL 提供了一條可行路徑：在本地部署模型，通過日常使用中的自然交互持續(xù)優(yōu)化，數(shù)據(jù)全程不出本地。

"第二個方向是工業(yè)級的大規(guī)模 Agent 訓練，"楊靈說，"目前開源的 Agent 訓練框架很多只針對單一場景做優(yōu)化。我們的系統(tǒng)從設計之初就是跨場景的，終端、GUI、代碼、工具調(diào)用可以在同一套框架里聯(lián)合訓練。這意味著它的架構(gòu)天然適合擴展到工業(yè)規(guī)模的多場景 Agent 優(yōu)化。"

論文發(fā)布后，楊靈收到了來自學術(shù)界和工業(yè)界的諸多合作邀約。團隊計劃沿兩條線并行推進。研究方面，他們希望將 next-state learning 這一范式做深做透，不僅限于策略優(yōu)化，還將拓展到 Agent 的記憶系統(tǒng)和技能積累機制，最終目標是構(gòu)建一套能在持續(xù)交互中自主進化的完整 Agent 學習體系。工程與應用方面，他們計劃在更大規(guī)模和更多真實場景上驗證框架的可擴展性，并與有實際 Agent 部署需求的企業(yè)展開合作。

談到下一步，楊靈表示："一方面我們希望大幅降低使用門檻，讓個性化 Agent 訓練變成一個開箱即用的事情，現(xiàn)在很多人連 OpenClaw 都裝不明白，更別說跑強化學習了。我們會持續(xù)改善文檔和工具鏈，目標是讓普通開發(fā)者也能用上這套技術(shù)。

另一方面是 next-state learning 這個范式本身的縱深推進，目前我們只挖掘了其中的評估性信號和指導性信號，但 next-state 里其實還蘊含著預測性信號，也就是 Agent 能不能學會預判自己的動作會導致什么后果。如果這一層也能打通，Agent 就不再是被動等反饋，而是主動規(guī)避已知的失敗模式。

而且這套范式天然是跨場景的，對話、工具調(diào)用、代碼編寫、圖形界面操作這四類任務產(chǎn)生的 next-state 雖然形態(tài)各異，但都可以納入同一個學習框架。這是一個非常有潛力的方向，我們正在積極推進。"

參考資料：

相關(guān)論文 https://arxiv.org/pdf/2603.10165

運營/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.