国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

LLM-in-Sandbox:給大模型一臺(tái)電腦,激發(fā)通用智能體能力

0
分享至



大模型的能力正在被不同的范式逐步解鎖:In-Context Learning 展示了模型無(wú)需微調(diào)即可泛化到新任務(wù);Chain-of-Thought 通過(guò)引導(dǎo)模型分步推理來(lái)提升復(fù)雜問(wèn)題的求解能力;近期,智能體框架則賦予模型調(diào)用工具、多輪交互的能力。

沿著這條技術(shù)演進(jìn)路線,下一步是什么?

近日,來(lái)自中國(guó)人民大學(xué)高瓴人工智能學(xué)院、微軟研究院和清華大學(xué)的研究者提出了一個(gè)簡(jiǎn)潔而有效的范式:LLM-in-Sandbox——讓大模型在代碼沙盒(即虛擬電腦)中自由探索來(lái)完成任務(wù)。實(shí)驗(yàn)表明,這一范式不僅在代碼任務(wù)上有效,更能顯著提升模型在數(shù)學(xué)、物理、化學(xué)、生物醫(yī)學(xué)、長(zhǎng)文本理解、指令遵循等多個(gè)非代碼領(lǐng)域的表現(xiàn),且無(wú)需額外訓(xùn)練,同時(shí)顯著減少長(zhǎng)文本場(chǎng)景下的 token 消耗,并保持相當(dāng)水平的推理速度。

研究者已將 LLM-in-Sandbox 開(kāi)源為 Python 包,可與 vLLM、SGLang 等主流推理后端無(wú)縫集成。LLM-in-Sandbox 應(yīng)當(dāng)成為大模型的默認(rèn)部署范式,取代純 LLM 推理。



  • 論文標(biāo)題:LLM-in-Sandbox Elicits General Agentic Intelligence
  • 論文鏈接:https://arxiv.org/abs/2601.16206
  • 代碼鏈接:https://github.com/llm-in-sandbox/llm-in-sandbox
  • 項(xiàng)目主頁(yè):https://llm-in-sandbox.github.io

1. 核心思想:給大模型一臺(tái)電腦


電腦可能是人類創(chuàng)造的最通用的工具,幾乎任何任務(wù)都可以通過(guò)電腦完成。這種通用性源于三大元能力(Meta-Capabilities):

  • 外部資源訪問(wèn):通過(guò)網(wǎng)絡(luò)獲取信息和知識(shí)
  • 文件管理:持久化地讀寫和組織數(shù)據(jù)
  • 程序執(zhí)行:編寫并運(yùn)行任意程序

正如人類借助電腦完成各種任務(wù),研究者假設(shè):將大模型與虛擬電腦結(jié)合,或許能夠解鎖其通用智能的潛力。



2. LLM-in-Sandbox:

代碼沙盒激發(fā)通用能力


2.1 輕量級(jí)通用沙盒

與現(xiàn)有軟件工程智能體(SWE-Agent)需要為每個(gè)任務(wù)配置特定環(huán)境不同,LLM-in-Sandbox 采用輕量級(jí)、通用化的設(shè)計(jì):

  • 基于 Docker 的 Ubuntu 環(huán)境
  • 僅預(yù)裝 Python 解釋器和基礎(chǔ)科學(xué)計(jì)算庫(kù)
  • 將領(lǐng)域特定工具的獲取交給模型自主完成



這種設(shè)計(jì)帶來(lái)兩個(gè)優(yōu)勢(shì):泛化性(同一環(huán)境支持多種任務(wù))和可擴(kuò)展性(無(wú)需為每個(gè)任務(wù)維護(hù)獨(dú)立鏡像)。例如,當(dāng)擴(kuò)展到數(shù)千個(gè)任務(wù)時(shí),SWE 智能體可能需要高達(dá) 6TB 的存儲(chǔ)空間用于任務(wù)特定鏡像,而 LLM-in-Sandbox 僅需約 1.1GB 的共享鏡像。

2.2 最小化工具集

研究者為模型配備了三個(gè)基礎(chǔ)工具:

  • execute_bash:執(zhí)行任意終端命令
  • str_replace_editor:文件的創(chuàng)建、查看和編輯
  • submit:標(biāo)記任務(wù)完成

這三個(gè)工具共同實(shí)現(xiàn)了電腦的核心能力,足以支撐復(fù)雜任務(wù)的完成。

2.3 探索式工作流

LLM-in-Sandbox 采用多輪交互的工作流:模型在每一輪生成工具調(diào)用,接收?qǐng)?zhí)行結(jié)果作為反饋,然后決定下一步行動(dòng),直到調(diào)用 submit 或達(dá)到最大輪次限制。



2.4 實(shí)驗(yàn)結(jié)果:無(wú)需訓(xùn)練的顯著提升

研究者在六個(gè)非代碼領(lǐng)域進(jìn)行了實(shí)驗(yàn):數(shù)學(xué)、物理、化學(xué)、生物醫(yī)學(xué)、長(zhǎng)文本理解和指令遵循。



實(shí)驗(yàn)結(jié)果表明,強(qiáng)大的語(yǔ)言模型在 LLM-in-Sandbox 模式下獲得了一致性的提升。值得注意的是,這些提升完全無(wú)需額外訓(xùn)練:模型能夠自發(fā)地利用沙盒環(huán)境來(lái)增強(qiáng)任務(wù)表現(xiàn)。

2.5 涌現(xiàn)的工具使用能力

研究者通過(guò)案例分析揭示了模型如何自主利用沙盒的三大能力。

  • 外部資源訪問(wèn):在化學(xué)任務(wù)中,模型被要求根據(jù)化合物名稱預(yù)測(cè)分子性質(zhì)。為此,模型自主安裝了 Java 運(yùn)行環(huán)境,并下載了 OPSIN 庫(kù)來(lái)將化學(xué)名稱轉(zhuǎn)換為分子結(jié)構(gòu),這些工具并非預(yù)裝在基礎(chǔ)環(huán)境中。



  • 文件管理:在長(zhǎng)文本理解任務(wù)中,面對(duì)超過(guò) 100K tokens 的行業(yè)報(bào)告,模型并未嘗試在 prompt 中處理整個(gè)文檔,而是使用 grep、sed 等 shell 工具定位相關(guān)段落,然后編寫 Python 腳本系統(tǒng)性地提取信息。



  • 計(jì)算執(zhí)行:在指令遵循任務(wù)中,模型被要求生成三個(gè)滿足嚴(yán)格約束的句子:所有句子必須具有相同的字符數(shù),同時(shí)使用完全不同的詞匯。模型編寫了 Python 腳本來(lái)統(tǒng)計(jì)字符、檢測(cè)詞匯重疊,并迭代優(yōu)化候選句子。



3. LLM-in-Sandbox RL:

通過(guò)強(qiáng)化學(xué)習(xí)增強(qiáng)泛化能力

雖然強(qiáng)大的智能體模型能夠直接受益于 LLM-in-Sandbox,但較弱的模型(如 Qwen3-4B-Instruct)往往難以有效利用沙盒環(huán)境,甚至表現(xiàn)不如純 LLM 模式。

為此,研究者提出了LLM-in-Sandbox RL:使用非智能體數(shù)據(jù)在沙盒環(huán)境中訓(xùn)練模型。

3.1 方法設(shè)計(jì)



核心思想是采用基于上下文的任務(wù)(context-based tasks):每個(gè)任務(wù)包含背景材料和需要基于這些材料完成的目標(biāo)。由于完成目標(biāo)依賴于提供的材料,模型必須主動(dòng)探索沙盒以找到相關(guān)信息,從而自然地學(xué)會(huì)利用沙盒能力。

3.2 泛化能力



實(shí)驗(yàn)在 Qwen3-4B-Instruct 和 Qwen3-Coder-30B-A3B 兩個(gè)模型上進(jìn)行。關(guān)鍵發(fā)現(xiàn)是LLM-in-Sandbox RL 展現(xiàn)出強(qiáng)大的泛化能力:

  • 跨領(lǐng)域泛化:訓(xùn)練數(shù)據(jù)來(lái)自通用領(lǐng)域,但模型在數(shù)學(xué)、物理、化學(xué)、長(zhǎng)文本、指令遵循等多個(gè)下游任務(wù)上都獲得了一致的提升,甚至在軟件工程任務(wù)上也有改善。
  • 跨推理模式泛化:有趣的是,LLM-in-Sandbox RL 不僅提升了沙盒模式的表現(xiàn),還同時(shí)提升了純 LLM 模式的表現(xiàn)。這說(shuō)明在沙盒中學(xué)到的探索和推理能力可以遷移到非沙盒場(chǎng)景。
  • 跨模型能力泛化:無(wú)論是較弱的通用模型(Qwen3-4B-Instruct)還是較強(qiáng)的代碼專用模型(Qwen3-Coder-30B-A3B),LLM-in-Sandbox RL 都能帶來(lái)一致的提升,表明這一方法具有良好的模型通用性。

4. 效率分析:

LLM-in-Sandbox 的實(shí)際部署價(jià)值


4.1 Token 消耗



在長(zhǎng)文本場(chǎng)景下,LLM-in-Sandbox 將文檔存儲(chǔ)在沙盒中而非放入 prompt,可將 token 消耗降低最多 8 倍(100K → 13K tokens)。

4.2 推理速度



通過(guò)將計(jì)算卸載到沙盒,LLM-in-Sandbox 將工作負(fù)載從慢速的自回歸生成(decode)轉(zhuǎn)移到快速的并行預(yù)填充(prefill),在平均情況下保持有競(jìng)爭(zhēng)力的吞吐量(QPM):MiniMax 可實(shí)現(xiàn) 2.2 倍加速。

5. LLM-in-Sandbox 超越文本生成

前面的實(shí)驗(yàn)評(píng)估的是 LLM 和 LLM-in-Sandbox 都能完成的任務(wù)。然而,LLM-in-Sandbox 還能實(shí)現(xiàn)純 LLM 根本無(wú)法完成的能力。通過(guò)給 LLM 提供虛擬電腦,LLM-in-Sandbox 突破了 text-in-text-out 的范式,解鎖了新的可能性:

  • 跨模態(tài)能力:LLM 局限于文本輸入輸出,但 LLM-in-Sandbox 可以通過(guò)在沙盒中調(diào)用專業(yè)軟件來(lái)處理和生成圖像、視頻、音頻和交互式應(yīng)用
  • 文件級(jí)操作:不再是描述文件應(yīng)該包含什么,而是直接生成可用的文件 ——.png、.mp4、.wav、.html
  • 自主工具獲?。翰煌陬A(yù)定義的工具調(diào)用,LLM-in-Sandbox 使 LLM 能夠自主發(fā)現(xiàn)、安裝和學(xué)習(xí)使用任意軟件庫(kù)



這些案例揭示了一個(gè)有前景的方向:隨著 LLM 能力的增強(qiáng)和沙盒環(huán)境的完善,LLM-in-Sandbox 可能演化為真正的通用數(shù)字創(chuàng)作系統(tǒng)。

6. 總結(jié)與展望

LLM-in-Sandbox 提出了一個(gè)簡(jiǎn)潔而有效的范式:通過(guò)給大模型提供一臺(tái)虛擬電腦,讓其自由探索來(lái)完成任務(wù)。實(shí)驗(yàn)表明,這一范式能夠顯著提升模型在非代碼領(lǐng)域的表現(xiàn),且無(wú)需額外訓(xùn)練。

研究者認(rèn)為,LLM-in-Sandbox 應(yīng)當(dāng)成為大模型的默認(rèn)部署范式,取代純 LLM 推理。當(dāng)沙盒可以帶來(lái)顯著的性能提升,并且部署成本幾乎可以忽略不計(jì)時(shí),為什么還要用純 LLM?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
正式上任?楊鳴官宣,下家3選1,兩支是遼籃宿敵,薪水或破記錄

正式上任?楊鳴官宣,下家3選1,兩支是遼籃宿敵,薪水或破記錄

不凍港來(lái)了
2026-01-30 12:29:26
2年前,我朋友非得說(shuō)黃金漲價(jià),當(dāng)時(shí)400一克,他買了60萬(wàn)黃金

2年前,我朋友非得說(shuō)黃金漲價(jià),當(dāng)時(shí)400一克,他買了60萬(wàn)黃金

千秋文化
2026-01-21 21:08:57
民進(jìn)黨團(tuán)總召之爭(zhēng)現(xiàn)內(nèi)斗?陳鳳馨:賴清德要蔡其昌頂替柯建銘

民進(jìn)黨團(tuán)總召之爭(zhēng)現(xiàn)內(nèi)斗?陳鳳馨:賴清德要蔡其昌頂替柯建銘

海峽導(dǎo)報(bào)社
2026-01-30 16:46:03
江蘇一地發(fā)布領(lǐng)導(dǎo)干部任前公示

江蘇一地發(fā)布領(lǐng)導(dǎo)干部任前公示

黃河新聞網(wǎng)呂梁頻道
2026-01-30 09:30:24
上海為什么沒(méi)有一家能打的本土商場(chǎng)?

上海為什么沒(méi)有一家能打的本土商場(chǎng)?

奔流財(cái)經(jīng)社
2026-01-28 07:12:53
北京SKP老鋪黃金現(xiàn)搶購(gòu)熱潮,有人凌晨到商場(chǎng)排隊(duì),還有顧客排7小時(shí)沒(méi)買到“心儀款”,店員:部分暢銷款已斷貨

北京SKP老鋪黃金現(xiàn)搶購(gòu)熱潮,有人凌晨到商場(chǎng)排隊(duì),還有顧客排7小時(shí)沒(méi)買到“心儀款”,店員:部分暢銷款已斷貨

極目新聞
2026-01-30 12:45:15
伊朗已被包圍,美軍開(kāi)戰(zhàn)前,普京派人探中方口風(fēng),董軍斬釘截鐵

伊朗已被包圍,美軍開(kāi)戰(zhàn)前,普京派人探中方口風(fēng),董軍斬釘截鐵

霽寒飄雪
2026-01-30 16:14:01
唐嫣在國(guó)外很豪放!穿連體衣下面不系扣,難道不好好穿衣就時(shí)髦?

唐嫣在國(guó)外很豪放!穿連體衣下面不系扣,難道不好好穿衣就時(shí)髦?

章眽八卦
2026-01-05 12:27:07
古董DDR3內(nèi)存條暴漲!二手8G翻了幾倍,世界都瘋掉了

古董DDR3內(nèi)存條暴漲!二手8G翻了幾倍,世界都瘋掉了

閑搞機(jī)
2026-01-30 11:04:56
A股:又有消息來(lái)了,不出意外的話,下周一很可能要變盤了

A股:又有消息來(lái)了,不出意外的話,下周一很可能要變盤了

財(cái)經(jīng)大拿
2026-01-30 13:29:02
火鍋店向每位客人收取20元“辛苦費(fèi)”,重慶官方通報(bào):已責(zé)令涉事經(jīng)營(yíng)者停止該項(xiàng)收費(fèi)

火鍋店向每位客人收取20元“辛苦費(fèi)”,重慶官方通報(bào):已責(zé)令涉事經(jīng)營(yíng)者停止該項(xiàng)收費(fèi)

瀟湘晨報(bào)
2026-01-29 08:26:14
大爆冷門!愛(ài)德華茲26+5+5,森林狼完勝雷霆!亞歷山大30+8創(chuàng)神跡

大爆冷門!愛(ài)德華茲26+5+5,森林狼完勝雷霆!亞歷山大30+8創(chuàng)神跡

一將籃球
2026-01-30 14:06:06
央視怒批,國(guó)務(wù)院點(diǎn)名封殺!這幾位蒙騙老百姓的大網(wǎng)紅,徹底涼涼

央視怒批,國(guó)務(wù)院點(diǎn)名封殺!這幾位蒙騙老百姓的大網(wǎng)紅,徹底涼涼

大魚簡(jiǎn)科
2025-09-02 19:34:00
42歲范佩西心碎!19歲兒子在眼前重傷+哭著被抬走 攔下?lián)芩桶参?>
    </a>
        <h3>
      <a href=風(fēng)過(guò)鄉(xiāng)
2026-01-30 07:10:47
全國(guó)“掃黃打非”工作會(huì)議在京召開(kāi)  李書磊出席并講話

全國(guó)“掃黃打非”工作會(huì)議在京召開(kāi)  李書磊出席并講話

新華社
2026-01-29 19:40:44
14年兒子坐馬航失聯(lián),多年后父親收到回信,堅(jiān)信兒子去了平行世界

14年兒子坐馬航失聯(lián),多年后父親收到回信,堅(jiān)信兒子去了平行世界

史行途
2026-01-29 12:13:30
河北新娘拒婚鬧被仨表哥打暈后續(xù):打人母親撒潑,想要回4萬(wàn)賠償

河北新娘拒婚鬧被仨表哥打暈后續(xù):打人母親撒潑,想要回4萬(wàn)賠償

觀察鑒娛
2026-01-06 09:52:34
多家品牌金飾克價(jià)大幅回調(diào),周生生克價(jià)1662元

多家品牌金飾克價(jià)大幅回調(diào),周生生克價(jià)1662元

界面新聞
2026-01-30 09:44:53
談崩了,哈梅內(nèi)伊很緊張?。。?>
    </a>
        <h3>
      <a href=談崩了,哈梅內(nèi)伊很緊張?。?! 山河路口
2026-01-29 19:17:53
“仿佛是僵尸”!浙江兩家人接連中招,大人小孩皮膚“報(bào)廢”!元兇找到了

“仿佛是僵尸”!浙江兩家人接連中招,大人小孩皮膚“報(bào)廢”!元兇找到了

上觀新聞
2026-01-29 22:59:13
2026-01-30 17:47:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12223文章數(shù) 142554關(guān)注度
往期回顧 全部

科技要聞

意念控制機(jī)器人不是科幻 1-2年就落地

頭條要聞

媒體:賴清德最后一刻回函拒出席彈劾案審查 很沒(méi)出息

頭條要聞

媒體:賴清德最后一刻回函拒出席彈劾案審查 很沒(méi)出息

體育要聞

敢揍多爾特,此子必成大器?

娛樂(lè)要聞

金晨出事前 曾靈魂發(fā)問(wèn)未收到春晚邀請(qǐng)

財(cái)經(jīng)要聞

血鉛超標(biāo)工人,擋在“勞動(dòng)關(guān)系”門檻外

汽車要聞

合資品牌首搭800V/5C快充 東風(fēng)日產(chǎn)NX8將于3、4月上市

態(tài)度原創(chuàng)

健康
旅游
本地
親子
公開(kāi)課

耳石癥分類型,癥狀大不同

旅游要聞

春節(jié)期間,通州將推出十大精品路線、200余項(xiàng)活動(dòng)

本地新聞

云游中國(guó)|撥開(kāi)云霧,巫山每幀都是航拍大片

親子要聞

這些網(wǎng)紅毒零食正在摧毀孩子的健康

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版