国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

華人團隊打造養(yǎng)蝦神器,開源OpenClaw-RL框架,讓AI邊用邊學

0
分享至

過去一周全網(wǎng)都在養(yǎng)那只紅色卡通龍蝦 OpenClaw。作為能夠自己動手干活的 AI 智能體,有人花幾千塊請它回家,幾天后賬號被盜、文件被刪,又花幾百塊請人卸載。從排隊安裝到扎堆卸載只隔了一周。

蝦到底該怎么養(yǎng)?北京大學博士、美國普林斯頓大學博士后研究員楊靈(合作導師為王夢迪教授)和團隊成員(王胤杰博士等人)給出一個讓蝦越養(yǎng)越好、越養(yǎng)越聰明的答案。


圖 | 楊靈(來源:受訪者)

幾天前,楊靈等人發(fā)布了一個名為 OpenClaw-RL 的開源框架,核心邏輯非常簡單但頗具洞察,你和 AI 的每一次對話本身就是最好的訓練數(shù)據(jù)。這套系統(tǒng)讓 AI 正常服務用戶的同時,后臺有四個完全解耦的模塊在異步運轉(zhuǎn):策略服務、軌跡收集、過程獎勵評估與參數(shù)訓練,彼此互不阻塞。


(來源:https://arxiv.org/pdf/2603.10165)

楊靈告訴 DeepTech:“我們這次聚焦的是個性化場景下的在線強化學習。這個方向之前很少有人系統(tǒng)性地研究,主要原因是缺少自然產(chǎn)生的交互數(shù)據(jù),學術(shù)界很難構(gòu)造可復現(xiàn)的 benchmark,工業(yè)界也缺少端到端的訓練閉環(huán)。”

“我們這次的工作相當于為這個方向提供了第一套完整的基礎設施和方法論,從數(shù)據(jù)收集、信號提取到策略優(yōu)化,形成了一個可落地的閉環(huán),同時也提出了一些新的研究視角。”其表示。

這套系統(tǒng)的核心洞察在于重新審視了一個被長期忽視的資源:AI 每執(zhí)行一次動作之后,都會收到一個"下一狀態(tài)"(next state),用戶的回復、工具的輸出、測試的結(jié)果、界面的變化,這些全部是信號?,F(xiàn)有系統(tǒng)只是把這些信號當做下一輪對話的上下文輸入,但 OpenClaw-RL 的觀點是,它們本質(zhì)上是對上一步動作質(zhì)量最直接、最豐富的反饋,完全可以在不需要任何人工標注的情況下,轉(zhuǎn)化為強化學習的訓練信號。


(來源:https://arxiv.org/pdf/2603.10165)

這些信號里藏著兩種截然不同的信息:

第一種是評估性信號。用戶滿意就給正分,不滿意就給負分;用戶重復提問往往意味著不滿,測試通過則意味著成功。這些信號被一個名為"過程獎勵模型"(Process Reward Model, PRM)的裁判模塊捕捉。

為了提高判斷的魯棒性,系統(tǒng)對每一步動作進行多次獨立評估,然后通過多數(shù)表決機制,將結(jié)果轉(zhuǎn)換成+1(好)、-1(差)或 0(中性)的標量獎勵。與傳統(tǒng)強化學習只在任務結(jié)束時給出一個最終分數(shù)不同,這種逐步評估的方式讓訓練信號密集了一個數(shù)量級,策略模型可以精確知道是哪一步做對了、哪一步做錯了。

第二種是指導性信號。當用戶對 AI 說"你應該先檢查文件再編輯",這不只是一個差評,它在告訴 AI 具體哪里做錯了、應該怎么改。然而,僅靠+1/-1 的標量獎勵根本無法傳遞這種細粒度的糾正信息:它只能說"你錯了",卻說不清"錯在哪里、該怎么改"。

為此,楊靈和團隊設計了一種名為“基于提示的在線策略蒸餾”(Hindsight-Guided On-Policy Distillation, OPD)的方法。其核心思路巧妙而直覺:當下一條用戶回復到來時,系統(tǒng)中的裁判模塊會從中提煉一句可操作的"事后提示"(hindsight hint),例如“應該先檢查文件是否存在再執(zhí)行編輯操作”。然后,系統(tǒng)把這條提示附加到原來的對話歷史中,構(gòu)造出一個"增強版提示"。

關(guān)鍵來了:系統(tǒng)并不讓模型重新生成一版回答,而是讓同一個模型在增強版提示下重新評估原始回答中每一個詞的生成概率。如果某個詞在"知道提示之后"的概率變高了,說明這個詞說對了,模型應當加強;反之如果概率降低了,說明這個詞不夠好,應當抑制。這種逐詞級別的方向性信號遠比一個簡單的“好/壞”分數(shù)豐富得多,它不僅告訴模型"你錯了",還精確指出"哪個詞該多說、哪個詞該少說"。

這兩種方法互為補充:評估性信號覆蓋范圍廣,幾乎每一輪對話都能產(chǎn)生獎勵信號,雖然粒度較粗但勝在無處不在;指導性信號則只有在用戶提供了具有糾正意義的反饋時才會觸發(fā),出現(xiàn)頻率較低但信息密度極高。論文實驗表明,將兩者結(jié)合使用時,效果顯著優(yōu)于單獨使用任何一種方法。


(來源:https://arxiv.org/pdf/2603.10165)

研究中,他們在以下兩個模擬場景里做了測試:

一個是讓學生使用 AI 寫作業(yè),要求是別讓老師看出來是 AI 寫的(當然現(xiàn)實生活中不鼓勵大家這樣使用)。另一個是讓老師用 AI 批改作業(yè),要求評語要具體又友善。

在老師使用 AI 批改作業(yè)的那個例子里,一開始 AI 只會回答“正確,做得很好”。但在經(jīng)過 24 輪優(yōu)化之后它會寫下“你把 3 周轉(zhuǎn)成 21 天這一步很多同學會漏掉,但是你處理得很準確”這樣的評語,同時還配上了表情符號,非常符合人類世界所倡導的夸獎要具體而真實的做法。

OpenClaw-RL 在工程上的另一個突破是將 AI 訓練從傳統(tǒng)的"停服更新"變成了"邊用邊學"。整個系統(tǒng)采用全異步架構(gòu):策略服務器持續(xù)響應新的用戶請求,軌跡收集器同步截取訓練所需的數(shù)據(jù),裁判模塊并發(fā)地給前一個回答打分,而訓練器則在后臺持續(xù)更新參數(shù)。

當參數(shù)更新完成時,系統(tǒng)會短暫暫停數(shù)據(jù)提交、加載新權(quán)重,然后無縫恢復服務。整個過程中沒有任何組件需要等待其他組件完成,用戶端感受到的是零中斷的連續(xù)服務。

他們還把 OpenClaw-RL 應用到了更加復雜的通用智能體場景,涵蓋終端操作(128 個并行環(huán)境)、圖形界面操作(64 個)、代碼編寫(64 個)和工具調(diào)用(32 個)四大類任務。在工具調(diào)用任務上,同時使用過程獎勵和結(jié)果獎勵兩種信號,準確率從基線的 17% 一路提升到 76%,這意味著同一個模型在持續(xù)交互中完成了超過 4 倍的性能躍升。


(來源:https://arxiv.org/pdf/2603.10165)

據(jù)楊靈介紹,這套訓練框架的一個重要發(fā)現(xiàn)是:來自不同 Agent 場景(終端、GUI、代碼、工具調(diào)用)的交互數(shù)據(jù)可以放在同一個框架中聯(lián)合訓練,并且模型在各個維度上都呈現(xiàn)出整體性的上升趨勢。"這意味著統(tǒng)一的 Agent 強化學習訓練是可行的,"楊靈說,"如果這條路能走通,對于構(gòu)建真正通用的 AI 智能體會是一個非常關(guān)鍵的基礎。

因為通用智能體最終要面對不同種類的任務、場景和用戶需求,一套統(tǒng)一且可擴展的訓練框架是必要條件。據(jù)我們所知,這種跨場景聯(lián)合訓練 Agent 的視角之前還沒有被系統(tǒng)性地探索過。"


(來源:https://arxiv.org/pdf/2603.10165)

“事實上,這項研究從 idea 提出到開源,我們只花了三天。當然必要的溝通不能少,但在現(xiàn)在這個時代,有些想法從出來到實現(xiàn),真的可以很快?!睏铎`表示。

他補充稱:"不過在這個大家都在拼速度的時代,我覺得對問題的判斷力和研究品味反而更重要。選擇做什么、不做什么,能不能識別出真正有長期價值的問題,這些決定了一個研究方向最終能走多遠。執(zhí)行力當然也關(guān)鍵,不只是說模型能不能跑出好的數(shù)字,而是整套系統(tǒng)能不能真正落地、讓人用起來。"

在應用前景上,楊靈認為 OpenClaw-RL 有兩個最有價值的落地方向。

第一個是隱私敏感的本地化場景。例如政府部門、金融機構(gòu)和醫(yī)療機構(gòu),這些場景不可能將數(shù)據(jù)傳輸給外部的大模型 API,但同樣有強烈的 AI 智能體需求。OpenClaw-RL 提供了一條可行路徑:在本地部署模型,通過日常使用中的自然交互持續(xù)優(yōu)化,數(shù)據(jù)全程不出本地。

"第二個方向是工業(yè)級的大規(guī)模 Agent 訓練,"楊靈說,"目前開源的 Agent 訓練框架很多只針對單一場景做優(yōu)化。我們的系統(tǒng)從設計之初就是跨場景的,終端、GUI、代碼、工具調(diào)用可以在同一套框架里聯(lián)合訓練。這意味著它的架構(gòu)天然適合擴展到工業(yè)規(guī)模的多場景 Agent 優(yōu)化。"

論文發(fā)布后,楊靈收到了來自學術(shù)界和工業(yè)界的諸多合作邀約。團隊計劃沿兩條線并行推進。研究方面,他們希望將 next-state learning 這一范式做深做透,不僅限于策略優(yōu)化,還將拓展到 Agent 的記憶系統(tǒng)和技能積累機制,最終目標是構(gòu)建一套能在持續(xù)交互中自主進化的完整 Agent 學習體系。工程與應用方面,他們計劃在更大規(guī)模和更多真實場景上驗證框架的可擴展性,并與有實際 Agent 部署需求的企業(yè)展開合作。

談到下一步,楊靈表示:"一方面我們希望大幅降低使用門檻,讓個性化 Agent 訓練變成一個開箱即用的事情,現(xiàn)在很多人連 OpenClaw 都裝不明白,更別說跑強化學習了。我們會持續(xù)改善文檔和工具鏈,目標是讓普通開發(fā)者也能用上這套技術(shù)。

另一方面是 next-state learning 這個范式本身的縱深推進,目前我們只挖掘了其中的評估性信號和指導性信號,但 next-state 里其實還蘊含著預測性信號,也就是 Agent 能不能學會預判自己的動作會導致什么后果。如果這一層也能打通,Agent 就不再是被動等反饋,而是主動規(guī)避已知的失敗模式。

而且這套范式天然是跨場景的,對話、工具調(diào)用、代碼編寫、圖形界面操作這四類任務產(chǎn)生的 next-state 雖然形態(tài)各異,但都可以納入同一個學習框架。這是一個非常有潛力的方向,我們正在積極推進。"

參考資料:

相關(guān)論文 https://arxiv.org/pdf/2603.10165

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
延壽9年,心臟病風險降60%!悉尼大學最新:飲食、睡眠、運動最佳組合出爐,小改變也大有益

延壽9年,心臟病風險降60%!悉尼大學最新:飲食、睡眠、運動最佳組合出爐,小改變也大有益

醫(yī)諾維
2026-03-24 17:02:18
內(nèi)塔尼亞胡妻子訴苦:就因為是總理的孩子,我家孩子遭受了打罵,譴責任何形式的針對兒童的人身攻擊

內(nèi)塔尼亞胡妻子訴苦:就因為是總理的孩子,我家孩子遭受了打罵,譴責任何形式的針對兒童的人身攻擊

大象新聞
2026-03-26 12:49:07
歐洲人在性方面有多開放?德國再創(chuàng)歷史!女廁所、女浴室隨便進了

歐洲人在性方面有多開放?德國再創(chuàng)歷史!女廁所、女浴室隨便進了

西樓知趣雜談
2026-03-24 14:38:30
41歲張雪峰去世,成名10年爭議不斷,遺產(chǎn)曝光早已做好一切安排!

41歲張雪峰去世,成名10年爭議不斷,遺產(chǎn)曝光早已做好一切安排!

古希臘掌管松餅的神
2026-03-24 22:00:07
李幼平同志逝世

李幼平同志逝世

澎湃新聞
2026-03-26 18:05:03
風向徹底變了!西方媒體集體改口:中國,無需再向世界證明什么

風向徹底變了!西方媒體集體改口:中國,無需再向世界證明什么

樂天閑聊
2026-03-26 03:40:35
3.73-1.79!國足傳來好消息,2-1爆冷世界杯魚腩隊?比賽時間如下

3.73-1.79!國足傳來好消息,2-1爆冷世界杯魚腩隊?比賽時間如下

侃球熊弟
2026-03-26 21:09:11
教育部宣布中考重大變革,取消 5:5 分流,升學規(guī)則將全面調(diào)整?

教育部宣布中考重大變革,取消 5:5 分流,升學規(guī)則將全面調(diào)整?

今朝牛馬
2026-03-26 20:22:18
柯文哲一審被判處有期徒刑17年 國臺辦回應

柯文哲一審被判處有期徒刑17年 國臺辦回應

新京報
2026-03-26 21:39:20
12年沒踢世界杯了 意大利晉級2026世界杯需連贏2場 概率僅63%

12年沒踢世界杯了 意大利晉級2026世界杯需連贏2場 概率僅63%

智道足球
2026-03-26 18:08:45
終于知道廣東人為啥不抑郁了!網(wǎng)友:西醫(yī)叫抑郁,中醫(yī)叫郁結(jié)

終于知道廣東人為啥不抑郁了!網(wǎng)友:西醫(yī)叫抑郁,中醫(yī)叫郁結(jié)

另子維愛讀史
2026-03-25 22:34:08
不可思議,德國人急了,日本急了,美國也急了,中國這下贏麻了。

不可思議,德國人急了,日本急了,美國也急了,中國這下贏麻了。

阿七說史
2026-03-09 16:01:03
沒想到,張雪峰的離開,意外讓藍盈瑩采訪火了,才懂她活得多清醒

沒想到,張雪峰的離開,意外讓藍盈瑩采訪火了,才懂她活得多清醒

林輕吟
2026-03-26 07:22:50
三次精準躲過斬首行動,卡尼突然現(xiàn)身反轉(zhuǎn)劇情,伊朗這局水太深了

三次精準躲過斬首行動,卡尼突然現(xiàn)身反轉(zhuǎn)劇情,伊朗這局水太深了

盛夏微涼
2026-03-24 18:10:08
烏克蘭打出400:1恐怖戰(zhàn)績,俄羅斯列寧格勒港口基本被打癱瘓

烏克蘭打出400:1恐怖戰(zhàn)績,俄羅斯列寧格勒港口基本被打癱瘓

史政先鋒
2026-03-26 16:17:12
梁安琪沒想到,兒子何猷君竟走上霍啟剛老路,狠狠為賭王家族長臉

梁安琪沒想到,兒子何猷君竟走上霍啟剛老路,狠狠為賭王家族長臉

墨印齋
2026-03-25 06:25:05
標普500指數(shù)和道瓊斯指數(shù)迅速收窄跌幅。道瓊斯指數(shù)跌0.03%

標普500指數(shù)和道瓊斯指數(shù)迅速收窄跌幅。道瓊斯指數(shù)跌0.03%

每日經(jīng)濟新聞
2026-03-26 22:16:04
華山醫(yī)院候診屏現(xiàn)“照顧號”引熱議,院方:為75歲以上老人等優(yōu)待群體提供便利

華山醫(yī)院候診屏現(xiàn)“照顧號”引熱議,院方:為75歲以上老人等優(yōu)待群體提供便利

上游新聞
2026-03-26 15:33:08
為啥沒第二人稱射擊游戲,因為玩過的人都瘋了

為啥沒第二人稱射擊游戲,因為玩過的人都瘋了

街機時代
2026-03-25 16:55:54
人體缺什么維生素會長白頭發(fā)呢?怎么防止白發(fā)出現(xiàn)?看完就明白了

人體缺什么維生素會長白頭發(fā)呢?怎么防止白發(fā)出現(xiàn)?看完就明白了

健康之光
2026-03-22 22:35:08
2026-03-27 00:07:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16491文章數(shù) 514798關(guān)注度
往期回顧 全部

科技要聞

美團發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

教育
本地
藝術(shù)
親子
公開課

教育要聞

天天學習|走進課堂的“大朋友”

本地新聞

救命,這只醬板鴨已經(jīng)在我手機復仇了一萬遍

藝術(shù)要聞

哪一座橋不是風景?

親子要聞

看看把孩子嚇得哈哈哈

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版