国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

LaPha:你的Agent軌跡其實(shí)嵌入在一個(gè)Poincaré球?

0
分享至



本文第一作者夏翰宸為上??茖W(xué)智能研究院強(qiáng)化學(xué)習(xí)研究員,碩士畢業(yè)于上海交通大學(xué),研究方向?yàn)?Agentic RL 和多模態(tài)擴(kuò)散語(yǔ)言模型。本文的通訊作者是復(fù)旦大學(xué)朱思語(yǔ)教授。

在經(jīng)典強(qiáng)化學(xué)習(xí)問題中,動(dòng)作空間通常是離散且有限的。例如在圍棋中,一步棋就是一次行動(dòng);在機(jī)器人控制或視覺 - 語(yǔ)言 - 行動(dòng)(VLA)模型中,動(dòng)作往往來(lái)自一個(gè)有限的控制指令集合。

這樣的設(shè)置使得搜索算法(如 MCTS)能夠在一個(gè)結(jié)構(gòu)清晰的決策空間中展開,每個(gè)分支都對(duì)應(yīng)一個(gè)真實(shí)且不同的決策。



但語(yǔ)言模型的情況截然不同。

如果把token 序列直接視為動(dòng)作,那么語(yǔ)言模型的動(dòng)作空間幾乎是無(wú)限的。同一個(gè)語(yǔ)義決策,可以被大量不同的字符串表達(dá)。

著名語(yǔ)言學(xué)家、哲學(xué)家維特根斯坦在《哲學(xué)研究》的開篇提出了一個(gè)著名的例子,用來(lái)說(shuō)明語(yǔ)言與行動(dòng)之間的關(guān)系:在一個(gè)建筑工地上,一名工人只需要喊出「Slab!」(石板),他的同伴就會(huì)把石板遞過來(lái)。在特定語(yǔ)境中,一句話的意義并不取決于它的字面形式,而取決于它在「語(yǔ)境」(context)中的功能。

對(duì) LLM Agent 來(lái)說(shuō),同一個(gè)語(yǔ)義動(dòng)作,可以被不同的字符串實(shí)現(xiàn):不同的措辭、格式變體、tool-call 寫法,看起來(lái)是不同分支,本質(zhì)上卻在做同一件事。這意味著,把 token sequence 直接當(dāng)成「策略」,會(huì)系統(tǒng)性地高估語(yǔ)言搜索樹的 branching factor。模型表面上在「廣泛探索」,實(shí)際上卻可能只是在不同 paraphrase 之間來(lái)回打轉(zhuǎn)。

語(yǔ)言推理的問題,不只是搜索樹太大,而是搜索樹里有大量「看起來(lái)不同、其實(shí)等價(jià)」的分支。

如果再疊加 RLVR 的稀疏獎(jiǎng)勵(lì)問題,情況會(huì)更糟。很多任務(wù)只有極少量終點(diǎn)路徑能被規(guī)則驗(yàn)證為正確,而且驗(yàn)證信號(hào)往往只在最后一步出現(xiàn)。于是,一邊是搜索預(yù)算被近重復(fù)分支大量消耗,另一邊是中間過程缺乏穩(wěn)定反饋,credit assignment 也就變得異常脆弱。

圍繞「對(duì)于 LLM 來(lái)說(shuō),何為 policy」這個(gè)本質(zhì)問題,上??茖W(xué)智能研究院聯(lián)合復(fù)旦大學(xué)提出 LaPha(Latent Poincaré Shaping for Agentic Reinforcement Learning):把智能體的行為樹映射到 LLM 自身的潛空間,用幾何距離定義勢(shì)函數(shù),構(gòu)造密集的過程獎(jiǎng)勵(lì),并訓(xùn)練類 AlphaZero 的 LLM Agent。



  • 論文鏈接:https://arxiv.org/pdf/2602.09375

先看最硬的結(jié)論

LaPha 的亮點(diǎn)可以用三句話概括:

  • 在隱空間分配公平、密集的過程獎(jiǎng)勵(lì);
  • 在隱空間進(jìn)行策略剪枝;
  • 在隱空間訓(xùn)練 Value Network,以極低的開銷換取大幅度 test-time scaling;

效果直接反映在基準(zhǔn)上:



  • Qwen2.5-Math-1.5B on MATH-500 / Gaokao'23 (En):66.0% →88.2%/ 46.5% →67.7%;
  • Qwen2.5-Math-7B on AIME'24/25:10.0% →60.0%/ 16.7% →53.3%。

輕量改造的核心:把「樹結(jié)構(gòu)」搬進(jìn)負(fù)曲率幾何

LaPha 的做法很直接:對(duì)每個(gè)搜索節(jié)點(diǎn),把 LLM 的最后一個(gè)隱層做平均池化,得到一個(gè)狀態(tài)向量;再以 prompt 的隱向量為原點(diǎn)做「平移中心化」,最后把所有狀態(tài)的隱向量映射到 Poincaré 球內(nèi)。此后搜索、獎(jiǎng)勵(lì)、價(jià)值、剪枝都在同一潛空間上完成。

為什么是雙曲(hyperbolic)空間?

  • 樹的分支數(shù)隨深度指數(shù)增長(zhǎng),而負(fù)曲率空間的有效容量也隨半徑指數(shù)擴(kuò)張,樹節(jié)點(diǎn)數(shù)量隨深度膨脹,歐式空間出現(xiàn)「粘連」,而雙曲空間上的節(jié)點(diǎn)因?yàn)榭臻g膨脹,節(jié)點(diǎn)仍能夠相互區(qū)分;
  • RMSNorm 后的隱層分布在高維超球面,球面向量不具備單調(diào)性,無(wú)法刻畫「進(jìn)展」;而 Poincaré 球上可以觀察到清晰的從根節(jié)點(diǎn)向邊界「生長(zhǎng)」的 Agent 行為樹。

用幾何勢(shì)函數(shù),把稀疏驗(yàn)證獎(jiǎng)勵(lì)「變密」



上圖可視化了 LaPha-Math-1.5B 搜索正確答案的過程,Agent 的「動(dòng)作」產(chǎn)生了一棵自「問題」向邊界生長(zhǎng)的搜索樹。LaPha 主要通過以下幾步將「終點(diǎn)對(duì)錯(cuò)」轉(zhuǎn)成每一步都可以學(xué)習(xí)的過程信號(hào)。

  • 雙曲測(cè)地距離(Poincaré 球的距離)



  • 構(gòu)造勢(shì)函數(shù)(取值在 [0,1]),離 root 越遠(yuǎn)、離最近「正確解」越近,勢(shì)能越高



  • 沿邊的過程獎(jiǎng)勵(lì)就是勢(shì)能差分。這一步很關(guān)鍵:用勢(shì)能差分做獎(jiǎng)勵(lì),能在理論上保持「最優(yōu)策略不變」的性質(zhì),同時(shí)把稀疏終點(diǎn)信號(hào)變成密集的中間獎(jiǎng)勵(lì)。



輕量 value head:把「幾何進(jìn)展」學(xué)成一個(gè)便宜的排序器

光有過程獎(jiǎng)勵(lì)還不夠 —— 推理端看不到「正確葉子集合」,怎么辦?



LaPha 在同一份 pooled hidden state 上掛了一個(gè)非常輕的 value head(線性 + sigmoid),去擬合上面勢(shì)函數(shù)定義出來(lái)的目標(biāo)。訓(xùn)練完成后,value head 直接作為 MCTS 的啟發(fā)式信號(hào),在 test-time 引導(dǎo)選擇與擴(kuò)展。

  • value head 形式



  • value loss(用勢(shì)函數(shù)做監(jiān)督)



訓(xùn)練中,self-guided Pass@1 逐漸超過葉子平均正確率,說(shuō)明 value head 學(xué)到了獨(dú)立于 policy head 的額外信息。



潛空間剪枝

語(yǔ)言動(dòng)作空間的最大浪費(fèi),是 MCTS 反復(fù)擴(kuò)展一堆幾乎等價(jià)的表達(dá)。

LaPha 在潛空間里按雙曲距離對(duì)非終止節(jié)點(diǎn)聚類,對(duì)每個(gè)簇禁用一部分近重復(fù)節(jié)點(diǎn),再重建 frontier 繼續(xù)搜。這樣能顯著減少「語(yǔ)義坍縮」,提升覆蓋率,讓同樣的模擬預(yù)算探索到更多真正不同的思路。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
一座副省級(jí)城市有多少位正廳級(jí)干部?——以青島為例

一座副省級(jí)城市有多少位正廳級(jí)干部?——以青島為例

據(jù)說(shuō)無(wú)據(jù)
2026-03-24 16:29:53
黃仁勛呼吁所有人使用AI提升自己:大學(xué)生畢業(yè)時(shí)都要成AI專家

黃仁勛呼吁所有人使用AI提升自己:大學(xué)生畢業(yè)時(shí)都要成AI專家

快科技
2026-03-24 22:46:04
3月26日俄烏最新:靴子終于落地了

3月26日俄烏最新:靴子終于落地了

西樓飲月
2026-03-26 19:48:54
張柏芝機(jī)場(chǎng)接大兒子,Lucas主動(dòng)幫媽媽拎包,母子相擁熱聊關(guān)系好

張柏芝機(jī)場(chǎng)接大兒子,Lucas主動(dòng)幫媽媽拎包,母子相擁熱聊關(guān)系好

白面書誏
2026-03-26 13:38:29
吳石犧牲后,蔣介石還不解恨,又處分了當(dāng)時(shí)已經(jīng)退隱狀態(tài)的白崇禧

吳石犧牲后,蔣介石還不解恨,又處分了當(dāng)時(shí)已經(jīng)退隱狀態(tài)的白崇禧

云霄紀(jì)史觀
2026-03-26 18:04:39
奧恰洛夫:我從圈內(nèi)聽說(shuō),樊振東明年甚至有可能再換一次俱樂部

奧恰洛夫:我從圈內(nèi)聽說(shuō),樊振東明年甚至有可能再換一次俱樂部

懂球帝
2026-03-26 11:24:21
就在今天!火箭創(chuàng)NBA歷史第一恥辱紀(jì)錄,輸球后蘇群王猛火力全開

就在今天!火箭創(chuàng)NBA歷史第一恥辱紀(jì)錄,輸球后蘇群王猛火力全開

米果說(shuō)識(shí)
2026-03-26 20:24:31
特朗普萬(wàn)萬(wàn)沒想到!第一個(gè)敢掀桌子的,竟然是馬來(lái)西亞

特朗普萬(wàn)萬(wàn)沒想到!第一個(gè)敢掀桌子的,竟然是馬來(lái)西亞

黑鷹觀軍事
2026-03-25 17:12:13
去了一趟伊朗才發(fā)現(xiàn):原來(lái)在伊朗人眼里,中國(guó)人是這樣的

去了一趟伊朗才發(fā)現(xiàn):原來(lái)在伊朗人眼里,中國(guó)人是這樣的

千秋文化
2026-03-24 21:40:40
中國(guó)最有名的9條家訓(xùn),讀懂一條旺家三代,建議收藏反復(fù)背誦

中國(guó)最有名的9條家訓(xùn),讀懂一條旺家三代,建議收藏反復(fù)背誦

長(zhǎng)風(fēng)文史
2026-03-25 17:58:23
闞清子產(chǎn)后現(xiàn)身機(jī)場(chǎng)!手上鴿子蛋大鉆戒搶鏡,富豪老公拎包似保姆

闞清子產(chǎn)后現(xiàn)身機(jī)場(chǎng)!手上鴿子蛋大鉆戒搶鏡,富豪老公拎包似保姆

老好人的憤怒
2026-03-26 18:02:04
薛之謙惹爭(zhēng)議!摯友張雪峰離世毫無(wú)表示,知情人曝原因!

薛之謙惹爭(zhēng)議!摯友張雪峰離世毫無(wú)表示,知情人曝原因!

古希臘掌管松餅的神
2026-03-25 22:39:53
曝字母哥雄鹿今夏大概率分手!4年2.7億美元不續(xù)了?雙方仍在僵持

曝字母哥雄鹿今夏大概率分手!4年2.7億美元不續(xù)了?雙方仍在僵持

羅說(shuō)NBA
2026-03-26 20:51:40
古代用長(zhǎng)槍最厲害的四大名將,趙子龍上榜,第一名恐怕無(wú)人能敵

古代用長(zhǎng)槍最厲害的四大名將,趙子龍上榜,第一名恐怕無(wú)人能敵

銘記歷史呀
2026-03-26 11:22:56
美伊沖突,已經(jīng)出現(xiàn)了3個(gè)贏家,10個(gè)輸家,都是誰(shuí)?

美伊沖突,已經(jīng)出現(xiàn)了3個(gè)贏家,10個(gè)輸家,都是誰(shuí)?

七號(hào)說(shuō)三國(guó)
2026-03-25 21:11:29
關(guān)于美伊和談,華爾街有些“冷水”要潑!

關(guān)于美伊和談,華爾街有些“冷水”要潑!

財(cái)聯(lián)社
2026-03-26 08:36:24
國(guó)防部:菲方侵權(quán)挑釁只會(huì)遭到更加堅(jiān)決應(yīng)對(duì)

國(guó)防部:菲方侵權(quán)挑釁只會(huì)遭到更加堅(jiān)決應(yīng)對(duì)

界面新聞
2026-03-26 16:00:27
為什么只有革命衛(wèi)隊(duì)與美以干,而伊朗40萬(wàn)國(guó)防軍沉默觀戰(zhàn)?

為什么只有革命衛(wèi)隊(duì)與美以干,而伊朗40萬(wàn)國(guó)防軍沉默觀戰(zhàn)?

廖保平
2026-03-17 09:04:38
伊朗:正在審議停火方案

亞太觀瀾
2026-03-26 20:35:03

車市太卷了!2026款鋒蘭達(dá)上市就降價(jià),油耗4.5L,9萬(wàn)開走

車市太卷了!2026款鋒蘭達(dá)上市就降價(jià),油耗4.5L,9萬(wàn)開走

念寒車評(píng)
2026-03-26 17:19:03
2026-03-26 21:11:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12608文章數(shù) 142594關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

家居
教育
健康
數(shù)碼
房產(chǎn)

家居要聞

傍海而居 靜觀蝴蝶海

教育要聞

來(lái)上課了——高考閱讀難題大綜合(細(xì)節(jié)+主旨+含義)(下)第1段

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

數(shù)碼要聞

小米Book Pro 14超薄設(shè)計(jì)引爆市場(chǎng)!這家國(guó)產(chǎn)廠商立功了

房產(chǎn)要聞

突發(fā),三亞又有大批征遷補(bǔ)償方案出爐!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版