網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

范式顛覆！LIMI憑78樣本完勝GPT-5，重塑AI能動(dòng)性

2025-10-14 19:11:46　來(lái)源: wisemodel開(kāi)源社區(qū)

北京舉報(bào)

分享至

始智AI wisemodel.cn社區(qū)是源自中國(guó)的中立開(kāi)放的AI開(kāi)源社區(qū)。正在，歡迎加入共同成長(zhǎng)。

從ChatGPT到Claude，從Codex到Claude Code，全球科技公司正在"能動(dòng)性"領(lǐng)域展開(kāi)激烈競(jìng)爭(zhēng)。這一趨勢(shì)反映了產(chǎn)業(yè)界的關(guān)鍵認(rèn)知：能動(dòng)性能力正成為AI系統(tǒng)的核心競(jìng)爭(zhēng)力，決定著AI能否從簡(jiǎn)單的對(duì)話(huà)工具演進(jìn)為真正的工作伙伴。具備能動(dòng)性的AI系統(tǒng)將重新定義人機(jī)協(xié)作模式，成為推動(dòng)各行各業(yè)智能化轉(zhuǎn)型的關(guān)鍵技術(shù)。

什么是"能動(dòng)性"？它是AI系統(tǒng)主動(dòng)發(fā)現(xiàn)問(wèn)題、制定假設(shè)，并通過(guò)與環(huán)境和工具的自主交互執(zhí)行解決方案的能力。這種能力的重要性在于，它使AI從被動(dòng)響應(yīng)工具轉(zhuǎn)變?yōu)橹鲃?dòng)執(zhí)行的智能助手，能夠獨(dú)立完成復(fù)雜的知識(shí)工作任務(wù)。例如，讓模型從零開(kāi)始開(kāi)發(fā)一個(gè)完整的五子棋游戲需要模型具備需求理解、架構(gòu)設(shè)計(jì)、代碼實(shí)現(xiàn)、調(diào)試優(yōu)化等完整的自主執(zhí)行能力。這種協(xié)作編程場(chǎng)景代表了現(xiàn)代知識(shí)工作的典型需求，而具備這種能力的AI系統(tǒng)將能夠承擔(dān)大量現(xiàn)實(shí)世界的復(fù)雜任務(wù)。

同樣，在科研工作流程中，模型需要完成從文獻(xiàn)調(diào)研到實(shí)驗(yàn)設(shè)計(jì)，從數(shù)據(jù)分析到洞察生成的完整鏈路。能動(dòng)性使AI能夠獨(dú)立推進(jìn)科學(xué)研究進(jìn)程，這對(duì)于加速科學(xué)發(fā)現(xiàn)具有重大意義。

能動(dòng)性能力的培養(yǎng)難度遠(yuǎn)超傳統(tǒng)AI能力，因?yàn)樗竽Ｐ途邆溟L(zhǎng)期規(guī)劃、多步推理、工具協(xié)調(diào)和自主糾錯(cuò)等高階認(rèn)知能力。當(dāng)前主流方法普遍認(rèn)為復(fù)雜的能動(dòng)性能力需要大量訓(xùn)練數(shù)據(jù)支撐，遵循傳統(tǒng)的規(guī)?；?。這導(dǎo)致了資源密集型的訓(xùn)練流程：收集數(shù)萬(wàn)甚至數(shù)十萬(wàn)個(gè)訓(xùn)練樣本，消耗大量計(jì)算資源，但效果往往不盡如人意。

LIMI的研究結(jié)果表明，僅使用78個(gè)復(fù)雜多輪交互軌跡樣本，模型就能在能動(dòng)性基準(zhǔn)測(cè)試AgencyBench上達(dá)到開(kāi)源模型的最佳表現(xiàn)，還超越了GPT-5的性能。相比使用10,000個(gè)樣本訓(xùn)練的模型，LIMI實(shí)現(xiàn)了53.7%的性能提升，數(shù)據(jù)使用量卻僅為其1/128。LIMI已上線(xiàn)始智AI-wisemodel開(kāi)源社區(qū)，歡迎大家前去體驗(yàn)。

模型地址

https://wisemodel.cn/models/GAIR/LIMI-106B

https://wisemodel.cn/models/GAIR/LIMI-355B

https://arxiv.org/abs/2509.17567

https://github.com/GAIR-NLP/LIMI

如圖展示了一個(gè)模型從頭開(kāi)發(fā)的完整可運(yùn)行的五子棋游戲，這種端到端的自主執(zhí)行能力正是未來(lái)AI系統(tǒng)的核心價(jià)值所在，證明了其在實(shí)際工作場(chǎng)景中的巨大應(yīng)用潛力。

LIMI的發(fā)現(xiàn)挑戰(zhàn)了"數(shù)據(jù)規(guī)模決定能力上限"的傳統(tǒng)認(rèn)知，提出了能動(dòng)性效率原則：模型能動(dòng)性的發(fā)展更依賴(lài)于對(duì)能動(dòng)性本質(zhì)的理解和高質(zhì)量數(shù)據(jù)的精準(zhǔn)構(gòu)造，而非簡(jiǎn)單的數(shù)據(jù)堆疊。這一發(fā)現(xiàn)為大規(guī)模部署具備真正工作能力的AI系統(tǒng)開(kāi)辟了可行路徑，表明理解能動(dòng)性的核心機(jī)制比簡(jiǎn)單擴(kuò)大數(shù)據(jù)規(guī)模更為重要。

01.

從被動(dòng)響應(yīng)到主動(dòng)工作

能動(dòng)性大語(yǔ)言模型（Agentic LLMs）的出現(xiàn)，那些能夠推理、行動(dòng)并自主交互的系統(tǒng)，代表著從被動(dòng)AI助手向具備主動(dòng)能力模型的范式轉(zhuǎn)變。研究團(tuán)隊(duì)將能動(dòng)性定義為AI系統(tǒng)作為自主代理運(yùn)作的新興能力：主動(dòng)發(fā)現(xiàn)問(wèn)題、制定假設(shè)，并通過(guò)與環(huán)境和工具的自主交互執(zhí)行解決方案。

這一根本能力標(biāo)志著"AI 能動(dòng)性時(shí)代"的到來(lái)，其驅(qū)動(dòng)力來(lái)自一個(gè)關(guān)鍵的行業(yè)轉(zhuǎn)變：迫切需要不僅會(huì)思考，更會(huì)工作的AI模型。雖然當(dāng)前AI在推理和生成響應(yīng)方面表現(xiàn)出色，但產(chǎn)業(yè)界需要能夠執(zhí)行任務(wù)、操作工具并推動(dòng)現(xiàn)實(shí)世界成果的能動(dòng)性模型。

然而，能動(dòng)性模型的訓(xùn)練面臨著關(guān)鍵挑戰(zhàn)。當(dāng)前方法普遍假設(shè)更多數(shù)據(jù)能讓模型產(chǎn)生更強(qiáng)的能動(dòng)性能力，遵循語(yǔ)言建模的傳統(tǒng)擴(kuò)展定律（scaling laws）。這種范式導(dǎo)致了日益復(fù)雜的訓(xùn)練流程和大量資源需求，但一個(gè)根本假設(shè)仍未得到檢驗(yàn)：模型的能動(dòng)性能力是否一定需要大量訓(xùn)練數(shù)據(jù)，還是可以通過(guò)精心構(gòu)造高質(zhì)量樣本更高效地涌現(xiàn)？

相鄰領(lǐng)域的新興證據(jù)暗示了一個(gè)令人信服的替代范式。LIMA僅用1,000個(gè)精心策劃的樣本就實(shí)現(xiàn)了有效的模型對(duì)齊，而LIMO證明復(fù)雜數(shù)學(xué)推理能力能夠從僅817個(gè)戰(zhàn)略性選擇的訓(xùn)練樣本中涌現(xiàn)。這些發(fā)現(xiàn)表明，精心構(gòu)造高質(zhì)量數(shù)據(jù)可能在培養(yǎng)復(fù)雜AI能力方面比數(shù)據(jù)集規(guī)模根本上更強(qiáng)大。

研究團(tuán)隊(duì)的LIMI給出了答案：模型的能動(dòng)性能力可以通過(guò)與傳統(tǒng)擴(kuò)展方法不同的發(fā)展原則進(jìn)行提升。通過(guò)戰(zhàn)略性聚焦協(xié)作軟件開(kāi)發(fā)和科學(xué)研究工作流程，這些領(lǐng)域涵蓋了大多數(shù)知識(shí)工作場(chǎng)景，研究表明復(fù)雜的能動(dòng)性能力可以從少量但精心構(gòu)造的高質(zhì)量數(shù)據(jù)中涌現(xiàn)。

如圖2所示，LIMI僅用78個(gè)訓(xùn)練樣本就讓模型在AgencyBench 上達(dá)到73.5%的性能，不僅超越了所有基線(xiàn)模型，而且相比使用10,000個(gè)樣本訓(xùn)練的模型實(shí)現(xiàn)了53.7%的性能提升，用128倍更少的數(shù)據(jù)讓模型獲得了卓越的能動(dòng)性能力，徹底顛覆了"更多數(shù)據(jù)=更強(qiáng)能動(dòng)性"的傳統(tǒng)認(rèn)知。

圖 2：LIMI 在 AgencyBench 超越 GPT-5 和眾多開(kāi)源模型

02.

協(xié)作編程與科學(xué)研究工作流

為了驗(yàn)證LIMI提出的戰(zhàn)略性數(shù)據(jù)構(gòu)造方法，該研究聚焦于兩個(gè)需要完整能動(dòng)性能力譜系并涵蓋大多數(shù)知識(shí)工作場(chǎng)景的基本領(lǐng)域。

協(xié)作編程代表LLMs與人類(lèi)開(kāi)發(fā)者在上下文豐富環(huán)境中協(xié)作的軟件開(kāi)發(fā)模式。這個(gè)領(lǐng)域需要：跨現(xiàn)有代碼庫(kù)的代碼理解和生成，通過(guò)復(fù)雜工具生態(tài)系統(tǒng)的開(kāi)發(fā)環(huán)境導(dǎo)航，通過(guò)調(diào)試和優(yōu)化循環(huán)的迭代問(wèn)題解決，以及技術(shù)協(xié)調(diào)的協(xié)作溝通。復(fù)雜性在于對(duì)開(kāi)發(fā)上下文的整體理解和在不斷變化需求下的原則性決策制定。

科學(xué)研究工作流程涵蓋復(fù)雜科學(xué)研究過(guò)程，包括文獻(xiàn)搜索、數(shù)據(jù)分析、實(shí)驗(yàn)設(shè)計(jì)和洞察生成。這些工作流程需要：對(duì)多樣化信息來(lái)源進(jìn)行綜合，采用適當(dāng)方法論的實(shí)驗(yàn)設(shè)計(jì)，復(fù)雜結(jié)果的數(shù)據(jù)分析和解釋?zhuān)约翱绮煌嫦嚓P(guān)者格式的知識(shí)溝通。

這些任務(wù)展現(xiàn)出顯著的時(shí)間復(fù)雜性，表現(xiàn)為需要連貫狀態(tài)跟蹤和累積推理的多輪交互。它們需要戰(zhàn)略規(guī)劃能力，將復(fù)雜目標(biāo)分解為可管理的子目標(biāo)，同時(shí)基于環(huán)境反饋適應(yīng)性調(diào)整策略。工具編排能力變得至關(guān)重要，因?yàn)楝F(xiàn)實(shí)世界的能動(dòng)性任務(wù)需要模型協(xié)調(diào)調(diào)用多個(gè)不同工具來(lái)完成復(fù)雜任務(wù)。

如圖3所示的用戶(hù)查詢(xún)示例展現(xiàn)了單個(gè)查詢(xún)的巨大復(fù)雜性——從基礎(chǔ)到專(zhuān)家級(jí)遞進(jìn)的五子棋開(kāi)發(fā)任務(wù)涵蓋Web前端開(kāi)發(fā)、數(shù)據(jù)過(guò)濾、狀態(tài)管理、規(guī)則啟發(fā)式AI和高級(jí)搜索算法等多個(gè)相互關(guān)聯(lián)的子任務(wù)。這種復(fù)雜性覆蓋了規(guī)劃、執(zhí)行和協(xié)作等維度，展現(xiàn)了高質(zhì)量演示中學(xué)習(xí)信號(hào)的密集性。

圖3：用戶(hù)查詢(xún)示例，展示了單個(gè)查詢(xún)?nèi)绾卧谝?guī)劃、執(zhí)行和協(xié)作維度上包含多個(gè)相互關(guān)聯(lián)的子任務(wù)，證明了高質(zhì)量數(shù)據(jù)中學(xué)習(xí)信號(hào)的密集性。

03.

精準(zhǔn)數(shù)據(jù)構(gòu)建的系統(tǒng)化方法

LIMI方法的有效性根本依賴(lài)于戰(zhàn)略性數(shù)據(jù)構(gòu)造，通過(guò)真實(shí)世界協(xié)作任務(wù)捕捉本質(zhì)的能動(dòng)性行為。該研究團(tuán)隊(duì)圍繞能動(dòng)性交互的基本要素形式化數(shù)據(jù)構(gòu)建過(guò)程，將每個(gè)完整交互定義為元組<用戶(hù)查詢(xún)，能動(dòng)性軌跡>，其中用戶(hù)查詢(xún)啟動(dòng)協(xié)作工作流程，軌跡捕獲完整交互序列。

如圖4所示，LIMI的訓(xùn)練數(shù)據(jù)展現(xiàn)了顯著的高質(zhì)量特征：軌跡長(zhǎng)度分布廣泛，平均達(dá)到42.4k tokens，最長(zhǎng)可達(dá)152k tokens，遠(yuǎn)超傳統(tǒng)訓(xùn)練樣本的長(zhǎng)度。右側(cè)的領(lǐng)域覆蓋圖顯示了數(shù)據(jù)在協(xié)作編程和科學(xué)研究工作流程兩個(gè)核心領(lǐng)域的廣泛分布，涵蓋了從前端開(kāi)發(fā)、調(diào)試、工具調(diào)用到論文搜索、深度學(xué)習(xí)、實(shí)驗(yàn)工作流程等多個(gè)細(xì)分方向。

圖4：LIMI訓(xùn)練數(shù)據(jù)的特征。左圖：軌跡長(zhǎng)度分布顯示交互復(fù)雜性（平均42.4k tokens）。右圖：涵蓋vibe編程和研究工作流的全面覆蓋。

1、用戶(hù)查詢(xún)池構(gòu)建：真實(shí)性與系統(tǒng)性的結(jié)合

查詢(xún)收集策略系統(tǒng)性地結(jié)合真實(shí)世界場(chǎng)景與戰(zhàn)略性覆蓋擴(kuò)展，確保生態(tài)有效性和充足的訓(xùn)練多樣性。

真實(shí)世界用戶(hù)查詢(xún)收集：LIMI從專(zhuān)業(yè)開(kāi)發(fā)者和研究者在協(xié)作環(huán)境中遇到的實(shí)際場(chǎng)景收集60個(gè)查詢(xún)。這些查詢(xún)代表跨兩個(gè)核心領(lǐng)域的真實(shí)挑戰(zhàn)，具有自然復(fù)雜性和上下文豐富性。值得注意的是，大量研究查詢(xún)來(lái)自真實(shí)學(xué)術(shù)論文，確保收集的用戶(hù)查詢(xún)具有可信的代表性。

基于GitHub PR的查詢(xún)合成：為了在保持真實(shí)性的同時(shí)系統(tǒng)性擴(kuò)展查詢(xún)池，團(tuán)隊(duì)開(kāi)發(fā)了使用GPT-5從GitHub Pull Requests合成額外查詢(xún)的流水線(xiàn)。這種方法利用真實(shí)代碼更改的豐富上下文，采用GPT-5的先進(jìn)推理能力生成反映真實(shí)開(kāi)發(fā)需求的協(xié)作場(chǎng)景。

系統(tǒng)性策劃過(guò)程涉及多個(gè)質(zhì)量保證階段：（1）選擇具有超過(guò)10,000 GitHub stars的高質(zhì)量代碼倉(cāng)庫(kù)，（2）確保軟件開(kāi)發(fā)領(lǐng)域的綜合覆蓋，（3）基于復(fù)雜性和實(shí)質(zhì)性進(jìn)行過(guò)濾，（4）采用四名計(jì)算機(jī)科學(xué)博士生作為專(zhuān)家標(biāo)注員評(píng)估合成查詢(xún)的質(zhì)量，確保語(yǔ)義對(duì)齊和上下文準(zhǔn)確性。

通過(guò)這種系統(tǒng)化方法，團(tuán)隊(duì)最終構(gòu)建了包含78個(gè)高質(zhì)量用戶(hù)查詢(xún)的綜合池，每個(gè)查詢(xún)都代表來(lái)自協(xié)作編程或科學(xué)研究工作流程的真實(shí)協(xié)作場(chǎng)景。

2、軌跡收集：捕獲最優(yōu)能動(dòng)性行為

為了生成展示最優(yōu)能動(dòng)性行為的訓(xùn)練軌跡，研究需要能夠支持真實(shí)人機(jī)協(xié)作的復(fù)雜執(zhí)行環(huán)境。這個(gè)環(huán)境必須支持復(fù)雜工具交互、維護(hù)詳細(xì)交互日志，并提供現(xiàn)實(shí)能動(dòng)性智能評(píng)估所需的操作上下文。

團(tuán)隊(duì)選擇SII CLI作為執(zhí)行環(huán)境，基于其幾個(gè)關(guān)鍵優(yōu)勢(shì)：（1）支持協(xié)作編程和研究工作流程的全面工具集成，（2）對(duì)高質(zhì)量訓(xùn)練數(shù)據(jù)收集至關(guān)重要的詳細(xì)軌跡日志能力，（3）啟用自然交互模式的靈活人機(jī)協(xié)作界面，（4）對(duì)需要協(xié)調(diào)工具使用的復(fù)雜多步任務(wù)的強(qiáng)大支持。

在SII CLI環(huán)境內(nèi)，四名博士生標(biāo)注員作為人類(lèi)協(xié)作者，與GPT-5作為能動(dòng)性模型協(xié)作，在真實(shí)協(xié)作場(chǎng)景中完成78個(gè)用戶(hù)查詢(xún)的軌跡收集。

對(duì)于每個(gè)查詢(xún)，采用迭代收集方法，持續(xù)收集軌跡直到任務(wù)成功完成。這種持續(xù)性方法確保收集的軌跡捕獲真實(shí)人機(jī)交互模式，包括自然的來(lái)回溝通、迭代細(xì)化過(guò)程和表征有效能動(dòng)性行為的協(xié)作問(wèn)題解決策略。

正如圖3左側(cè)軌跡長(zhǎng)度分布所示，這種方法產(chǎn)生了內(nèi)容極其豐富、交互高度復(fù)雜的高質(zhì)量訓(xùn)練軌跡數(shù)據(jù)，平均長(zhǎng)度達(dá)到42.4k tokens，遠(yuǎn)超常規(guī)訓(xùn)練數(shù)據(jù)的復(fù)雜度，為模型提供了密集的能動(dòng)性學(xué)習(xí)信號(hào)。

04.

突破性實(shí)驗(yàn)結(jié)果

1、實(shí)驗(yàn)設(shè)置與評(píng)估框架

為了驗(yàn)證LIMI假設(shè)并證明戰(zhàn)略性數(shù)據(jù)構(gòu)造方法的有效性，團(tuán)隊(duì)采用了全面的實(shí)驗(yàn)框架，跨多個(gè)評(píng)估維度將方法與強(qiáng)基線(xiàn)模型進(jìn)行比較。

基線(xiàn)模型評(píng)估：團(tuán)隊(duì)評(píng)估了多樣化的最先進(jìn)基礎(chǔ)模型，確保全面比較：GLM-4.5、GLM-4.5-Air、Qwen3-235B-A22B-Instruct、DeepSeek-V3.1、Kimi-K2-Instruct。這個(gè)選擇涵蓋了具有不同架構(gòu)設(shè)計(jì)和訓(xùn)練方法的開(kāi)源模型，支持對(duì)能動(dòng)性能力的嚴(yán)格評(píng)估。

模型訓(xùn)練與對(duì)比實(shí)驗(yàn)：為了系統(tǒng)評(píng)估策劃訓(xùn)練數(shù)據(jù)的影響，團(tuán)隊(duì)使用收集的數(shù)據(jù)對(duì)GLM-4.5和GLM-4.5-Air進(jìn)行微調(diào)。所有微調(diào)實(shí)驗(yàn)使用slime框架進(jìn)行，確保一致的訓(xùn)練條件、超參數(shù)優(yōu)化和公平比較。

此外，為了評(píng)估數(shù)據(jù)策劃策略的質(zhì)量和有效性，團(tuán)隊(duì)通過(guò)在三個(gè)替代數(shù)據(jù)集上微調(diào)GLM-4.5進(jìn)行比較實(shí)驗(yàn)：CC-Bench-trajectories、AFM-WebAgent-SFT-Dataset和AFM-CodeAgent-SFT-Dataset。這種實(shí)驗(yàn)設(shè)計(jì)支持戰(zhàn)略性策劃數(shù)據(jù)與現(xiàn)有大規(guī)模能動(dòng)性訓(xùn)練數(shù)據(jù)集的直接比較。

評(píng)估框架：評(píng)估包含兩個(gè)互補(bǔ)策略，全面驗(yàn)證LIMI方法的有效性：（1）在AgencyBench上的主要評(píng)估，專(zhuān)門(mén)設(shè)計(jì)用于評(píng)估協(xié)作場(chǎng)景中的能動(dòng)性能力；（2）在涵蓋工具使用、編程和科學(xué)計(jì)算的多個(gè)基準(zhǔn)上的泛化能力評(píng)估，確保發(fā)現(xiàn)能夠泛化到核心領(lǐng)域之外。

2、AgencyBench上的卓越表現(xiàn)

如表 1 所示，在AgencyBench基準(zhǔn)測(cè)試中，LIMI取得了令人震撼的成績(jī)：

表1： LIMI 系列模型在AgencyBench上的綜合比較。模型按評(píng)估目的分組：基線(xiàn)比較、泛化能力評(píng)估和數(shù)據(jù)效率驗(yàn)證。

LIMI達(dá)到了73.5%的平均得分，顯著超越了所有基線(xiàn)模型：GLM-4.5（45.1%）、Kimi-K2-Instruct（24.1%）、DeepSeek-V3.1（11.9%）和Qwen3-235B-A22B-Instruct（27.5%）。

性能差距在首輪功能完整性（FTFC）方面特別明顯，LIMI達(dá)到71.7%，相比GLM-4.5的最佳基線(xiàn)性能37.8%實(shí)現(xiàn)了顯著的33.9個(gè)百分點(diǎn)改進(jìn)。類(lèi)似地，LIMI以74.6%的成功率展示了卓越的任務(wù)完成可靠性，大幅超越了最強(qiáng)基線(xiàn)模型GLM-4.5的47.4%。

3、數(shù)據(jù)效率的極致體現(xiàn)

最震撼的發(fā)現(xiàn)是數(shù)據(jù)效率對(duì)比結(jié)果，為核心LIMI假設(shè)提供了令人信服的實(shí)證證據(jù)：戰(zhàn)略性數(shù)據(jù)策劃在開(kāi)發(fā)能動(dòng)性智能方面根本上比簡(jiǎn)單擴(kuò)展訓(xùn)練數(shù)據(jù)量更有效。

LIMI使用僅78個(gè)精心策劃的訓(xùn)練樣本就達(dá)到了卓越性能，大幅超越了在數(shù)量級(jí)更大數(shù)據(jù)集上訓(xùn)練的模型。最引人注目的是與在AFM-CodeAgent-SFT-Dataset上訓(xùn)練的GLM-4.5-Code的比較：LIMI的73.5%平均AgencyBench性能戲劇性地超越了大規(guī)模方法實(shí)現(xiàn)的47.8%，盡管使用的數(shù)據(jù)集小128倍（78 vs. 10,000樣本）。

關(guān)鍵數(shù)據(jù)效率對(duì)比：

LIMI (78樣本) vs GLM-4.5-Code (10,000樣本)：25.7個(gè)百分點(diǎn)優(yōu)勢(shì)，數(shù)據(jù)量?jī)H1/128

LIMI vs GLM-4.5-Web (7,610樣本)：23.5個(gè)百分點(diǎn)優(yōu)勢(shì)，數(shù)據(jù)量?jī)H1/97

LIMI vs GLM-4.5-CC (260樣本)：18.0個(gè)百分點(diǎn)優(yōu)勢(shì)，數(shù)據(jù)量?jī)H30%

這些一致的改進(jìn)證明了戰(zhàn)略性數(shù)據(jù)策劃能夠比大規(guī)模數(shù)據(jù)收集實(shí)現(xiàn)更有效的能力遷移，確立了能動(dòng)性智能開(kāi)發(fā)中"少即是多"范式的廣泛適用性。

4、跨領(lǐng)域泛化驗(yàn)證

如表2所示，LIMI的優(yōu)勢(shì)擴(kuò)展到涵蓋工具使用、編程和科學(xué)計(jì)算的多樣化基準(zhǔn)測(cè)試中，證明方法的廣泛適用性。LIMI達(dá)到57.2%的平均性能，超越所有基線(xiàn)模型，包括GLM-4.5（43.0%）、Kimi-K2-Instruct（37.3%）、DeepSeek-V3.1（29.7%）和Qwen3-235B-A22B-Instruct（36.7%）。

值得注意的是，LIMI在關(guān)鍵編程基準(zhǔn)上達(dá)到了最高性能（EvalPlus-HumanEval：92.1%，EvalPlus-MBPP：82.3%），并在工具使用任務(wù)上展示了競(jìng)爭(zhēng)性結(jié)果（TAU2-bench-airline：34.0%，TAU2-bench-retail：45.6%）。

表2：泛化基準(zhǔn)測(cè)試的綜合性能比較。HE代表EvalPlus-HumanEval，MP和SP分別代表SciCode的主要問(wèn)題和子問(wèn)題指標(biāo)。平均值包含了 AgencyBench 的表現(xiàn)。

不僅如此，LIMI方法出色的泛化能力還體現(xiàn)在跨規(guī)模泛化和跨架構(gòu)泛化兩個(gè)關(guān)鍵維度。在跨規(guī)模方面，Qwen3系列展現(xiàn)了顯著的改進(jìn)效果，從小型模型Qwen3-4B性能翻倍（從4.6%提升到8.6%，增幅達(dá)87%）、Qwen3-8B提升45.2%，到Qwen3-32B實(shí)現(xiàn)144%的大幅提升，GLM-4.5也達(dá)到63%的改進(jìn)，證明該方法在整個(gè)模型規(guī)模譜系上都持續(xù)有效；在跨架構(gòu)方面，無(wú)論是密集型transformer架構(gòu)（Qwen3系列）還是專(zhuān)家混合架構(gòu)（GLM系列）都表現(xiàn)出顯著改進(jìn)，證明該方法捕捉到的是與具體模型實(shí)現(xiàn)、參數(shù)分布或計(jì)算架構(gòu)無(wú)關(guān)的基本智能體行為模式，從而驗(yàn)證了戰(zhàn)略性數(shù)據(jù)策展在智能體開(kāi)發(fā)中具有廣泛的適用性和有效性。

圖5：不同模型在LIMI微調(diào)前后的性能對(duì)比。經(jīng)LIMI訓(xùn)練的模型在AgencyBench（左圖）和其他基準(zhǔn)測(cè)試（右圖）上均展現(xiàn)出一致的性能提升

05.

能動(dòng)性效率原則

基于實(shí)驗(yàn)結(jié)果，研究建立了能動(dòng)性效率原則：模型能動(dòng)性的涌現(xiàn)并非來(lái)自簡(jiǎn)單數(shù)據(jù)的堆砌，而是來(lái)自高質(zhì)量能動(dòng)性數(shù)據(jù)的精心構(gòu)造。

這一發(fā)現(xiàn)根本重塑了開(kāi)發(fā)能動(dòng)性大模型以及AI Agent的方式，表明掌握能動(dòng)性需要理解其本質(zhì)，而不是簡(jiǎn)單的擴(kuò)大訓(xùn)練數(shù)據(jù)規(guī)模。

LIMI促成了能動(dòng)性訓(xùn)練范式的根本性轉(zhuǎn)換：從"更多簡(jiǎn)單數(shù)據(jù)→更強(qiáng)能動(dòng)性"的舊范式，轉(zhuǎn)向"更高質(zhì)量的能動(dòng)性數(shù)據(jù)→更強(qiáng)能動(dòng)性"的新范式。LIMI認(rèn)為：能動(dòng)性本質(zhì)上是"潛伏"于預(yù)訓(xùn)練模型中的，關(guān)鍵挑戰(zhàn)不是訓(xùn)練新能力，而是找到激活路徑。

06.

產(chǎn)業(yè)影響與未來(lái)展望

1、對(duì)AI產(chǎn)業(yè)生態(tài)的重塑

LIMI的發(fā)現(xiàn)對(duì)整個(gè)AI產(chǎn)業(yè)生態(tài)具有深遠(yuǎn)影響：

研發(fā)效率革命：小團(tuán)隊(duì)?wèi){借精準(zhǔn)方法可以與大公司競(jìng)爭(zhēng)，降低了能動(dòng)性技術(shù)的門(mén)檻，促進(jìn)更多創(chuàng)新性方法的涌現(xiàn)。

資源配置優(yōu)化：將投入重點(diǎn)從數(shù)據(jù)收集轉(zhuǎn)向高質(zhì)量樣本設(shè)計(jì)和生成，從"資源競(jìng)賽"轉(zhuǎn)向"數(shù)據(jù)構(gòu)造方法競(jìng)賽"。

應(yīng)用落地加速：為實(shí)際能動(dòng)性系統(tǒng)的開(kāi)發(fā)提供了高效可行的路徑，在實(shí)際應(yīng)用中提供了具體的指導(dǎo)原則：專(zhuān)注核心場(chǎng)景、完整流程軌跡、質(zhì)量?jī)?yōu)先策略。

2、商業(yè)化前景與技術(shù)普惠

LIMI方法的商業(yè)化前景廣闊：降低開(kāi)發(fā)成本，減少對(duì)大規(guī)模數(shù)據(jù)和計(jì)算資源的依賴(lài)；縮短開(kāi)發(fā)周期，通過(guò)精準(zhǔn)方法快速獲得能動(dòng)性突破；提高應(yīng)用效果，在特定領(lǐng)域達(dá)到更好的性能表現(xiàn)；普惠化應(yīng)用，讓更多中小企業(yè)能夠負(fù)擔(dān)得起能動(dòng)性技術(shù)。

3、未來(lái)發(fā)展方向

雖然LIMI目前主要驗(yàn)證了協(xié)作軟件開(kāi)發(fā)和科學(xué)研究?jī)蓚€(gè)領(lǐng)域，但其原理有望擴(kuò)展到醫(yī)療診斷能動(dòng)性、教育輔導(dǎo)能動(dòng)性、商業(yè)分析能動(dòng)性等更廣闊的認(rèn)知領(lǐng)域。

未來(lái)的能動(dòng)性系統(tǒng)將發(fā)展為多模態(tài)能動(dòng)性，融合視覺(jué)、語(yǔ)言、行動(dòng)等多種模態(tài)；自主學(xué)習(xí)能動(dòng)性，從被動(dòng)激活發(fā)展到主動(dòng)進(jìn)化；以及更完善的理論體系，建立能動(dòng)性激活的數(shù)學(xué)模型和評(píng)估框架。

4、開(kāi)啟能動(dòng)性新時(shí)代

LIMI不僅是一項(xiàng)技術(shù)突破，更是AI發(fā)展理念的根本性轉(zhuǎn)變。它證明了在能動(dòng)性開(kāi)發(fā)中，理解本質(zhì)比擴(kuò)大規(guī)模更重要，質(zhì)量比數(shù)量更關(guān)鍵。

78個(gè)精心設(shè)計(jì)的樣本擊敗萬(wàn)級(jí)數(shù)據(jù)的事實(shí)，確立了能動(dòng)性發(fā)展的全新原則：模型能動(dòng)性來(lái)自精心構(gòu)造，而非數(shù)據(jù)堆砌。當(dāng)模型從思考型AI轉(zhuǎn)向工作型AI時(shí)，LIMI為真正能動(dòng)性的可持續(xù)培養(yǎng)提供了新范式，開(kāi)啟了能動(dòng)性發(fā)展的新紀(jì)元，未來(lái)充滿(mǎn)無(wú)限可能。

編輯丨趙雅鑫

----- END -----

wisemodel相關(guān)：

系列模型：

關(guān)于wisemodel更多

歡迎持續(xù)關(guān)注和支持

開(kāi)源社區(qū)建設(shè)需要長(zhǎng)期堅(jiān)持和投入，更需要廣大用戶(hù)的積極參與、貢獻(xiàn)和維護(hù)，歡迎大家加入wisemodel開(kāi)源社區(qū)的志愿者計(jì)劃和開(kāi)源共創(chuàng)計(jì)劃。期待更多開(kāi)發(fā)者將開(kāi)源成果，包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū)，共建中立、開(kāi)放的AI開(kāi)源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信，申請(qǐng)加入wisemodel社群，持續(xù)關(guān)注wisemodel.cn開(kāi)源社區(qū)動(dòng)態(tài)。

歡迎加盟wisemodel開(kāi)源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線(xiàn)以來(lái)，逐漸成為影響力日益擴(kuò)大的中立開(kāi)放的AI開(kāi)源社區(qū)，為了加快公司發(fā)展，我們長(zhǎng)期需要技術(shù)、運(yùn)營(yíng)等人才加盟，技術(shù)側(cè)重在AI infra、后端開(kāi)發(fā)，熟悉K8S、模型訓(xùn)練和推理等技術(shù)，以及熟悉開(kāi)發(fā)者生態(tài)運(yùn)營(yíng)的成員，歡迎感興趣的朋友加盟，可以通過(guò)添加wisemodel微信，或者將簡(jiǎn)歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果，鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等，在wisemodel平臺(tái)上分享各類(lèi)優(yōu)質(zhì)內(nèi)容，可以是AI領(lǐng)域最新論文解讀、最新開(kāi)源成果介紹，也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn，也可以?huà)叽a添加wisemodel微信。

關(guān)于wisemodel開(kāi)源社區(qū)

始智AI wisemodel.cn開(kāi)源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專(zhuān)委會(huì)副秘書(shū)長(zhǎng)劉道全創(chuàng)立，旨在打造和建設(shè)中立開(kāi)放的AI開(kāi)源創(chuàng)新社區(qū)，將打造成“HuggingFace”之外最活躍的AI開(kāi)源社區(qū)，匯聚主要AI開(kāi)源模型、數(shù)據(jù)集和代碼等，歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開(kāi)發(fā)者，以及政府部門(mén)、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等，還有投資機(jī)構(gòu)、科技媒體等，共同參與建設(shè)AI開(kāi)源創(chuàng)新生態(tài)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.