国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

范式顛覆!LIMI憑78樣本完勝GPT-5,重塑AI能動(dòng)性

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國(guó)的中立開(kāi)放的AI開(kāi)源社區(qū)。正在,歡迎加入共同成長(zhǎng)。

從ChatGPT到Claude,從Codex到Claude Code,全球科技公司正在"能動(dòng)性"領(lǐng)域展開(kāi)激烈競(jìng)爭(zhēng)。這一趨勢(shì)反映了產(chǎn)業(yè)界的關(guān)鍵認(rèn)知:能動(dòng)性能力正成為AI系統(tǒng)的核心競(jìng)爭(zhēng)力,決定著AI能否從簡(jiǎn)單的對(duì)話(huà)工具演進(jìn)為真正的工作伙伴。具備能動(dòng)性的AI系統(tǒng)將重新定義人機(jī)協(xié)作模式,成為推動(dòng)各行各業(yè)智能化轉(zhuǎn)型的關(guān)鍵技術(shù)。

什么是"能動(dòng)性"?它是AI系統(tǒng)主動(dòng)發(fā)現(xiàn)問(wèn)題、制定假設(shè),并通過(guò)與環(huán)境和工具的自主交互執(zhí)行解決方案的能力。這種能力的重要性在于,它使AI從被動(dòng)響應(yīng)工具轉(zhuǎn)變?yōu)橹鲃?dòng)執(zhí)行的智能助手,能夠獨(dú)立完成復(fù)雜的知識(shí)工作任務(wù)。例如,讓模型從零開(kāi)始開(kāi)發(fā)一個(gè)完整的五子棋游戲需要模型具備需求理解、架構(gòu)設(shè)計(jì)、代碼實(shí)現(xiàn)、調(diào)試優(yōu)化等完整的自主執(zhí)行能力。這種協(xié)作編程場(chǎng)景代表了現(xiàn)代知識(shí)工作的典型需求,而具備這種能力的AI系統(tǒng)將能夠承擔(dān)大量現(xiàn)實(shí)世界的復(fù)雜任務(wù)

同樣,在科研工作流程中,模型需要完成從文獻(xiàn)調(diào)研到實(shí)驗(yàn)設(shè)計(jì),從數(shù)據(jù)分析到洞察生成的完整鏈路。能動(dòng)性使AI能夠獨(dú)立推進(jìn)科學(xué)研究進(jìn)程,這對(duì)于加速科學(xué)發(fā)現(xiàn)具有重大意義。

能動(dòng)性能力的培養(yǎng)難度遠(yuǎn)超傳統(tǒng)AI能力,因?yàn)樗竽P途邆溟L(zhǎng)期規(guī)劃、多步推理、工具協(xié)調(diào)和自主糾錯(cuò)等高階認(rèn)知能力。當(dāng)前主流方法普遍認(rèn)為復(fù)雜的能動(dòng)性能力需要大量訓(xùn)練數(shù)據(jù)支撐,遵循傳統(tǒng)的規(guī)?;?。這導(dǎo)致了資源密集型的訓(xùn)練流程:收集數(shù)萬(wàn)甚至數(shù)十萬(wàn)個(gè)訓(xùn)練樣本,消耗大量計(jì)算資源,但效果往往不盡如人意。

LIMI的研究結(jié)果表明,僅使用78個(gè)復(fù)雜多輪交互軌跡樣本,模型就能在能動(dòng)性基準(zhǔn)測(cè)試AgencyBench上達(dá)到開(kāi)源模型的最佳表現(xiàn),還超越了GPT-5的性能。相比使用10,000個(gè)樣本訓(xùn)練的模型,LIMI實(shí)現(xiàn)了53.7%的性能提升,數(shù)據(jù)使用量卻僅為其1/128。LIMI已上線(xiàn)始智AI-wisemodel開(kāi)源社區(qū),歡迎大家前去體驗(yàn)。


模型地址

https://wisemodel.cn/models/GAIR/LIMI-106B

https://wisemodel.cn/models/GAIR/LIMI-355B

https://arxiv.org/abs/2509.17567

https://github.com/GAIR-NLP/LIMI

如圖展示了一個(gè)模型從頭開(kāi)發(fā)的完整可運(yùn)行的五子棋游戲,這種端到端的自主執(zhí)行能力正是未來(lái)AI系統(tǒng)的核心價(jià)值所在,證明了其在實(shí)際工作場(chǎng)景中的巨大應(yīng)用潛力。

LIMI的發(fā)現(xiàn)挑戰(zhàn)了"數(shù)據(jù)規(guī)模決定能力上限"的傳統(tǒng)認(rèn)知,提出了能動(dòng)性效率原則:模型能動(dòng)性的發(fā)展更依賴(lài)于對(duì)能動(dòng)性本質(zhì)的理解和高質(zhì)量數(shù)據(jù)的精準(zhǔn)構(gòu)造,而非簡(jiǎn)單的數(shù)據(jù)堆疊。這一發(fā)現(xiàn)為大規(guī)模部署具備真正工作能力的AI系統(tǒng)開(kāi)辟了可行路徑,表明理解能動(dòng)性的核心機(jī)制比簡(jiǎn)單擴(kuò)大數(shù)據(jù)規(guī)模更為重要。

01.

從被動(dòng)響應(yīng)到主動(dòng)工作

能動(dòng)性大語(yǔ)言模型(Agentic LLMs)的出現(xiàn),那些能夠推理、行動(dòng)并自主交互的系統(tǒng),代表著從被動(dòng)AI助手向具備主動(dòng)能力模型的范式轉(zhuǎn)變。研究團(tuán)隊(duì)將能動(dòng)性定義為AI系統(tǒng)作為自主代理運(yùn)作的新興能力:主動(dòng)發(fā)現(xiàn)問(wèn)題、制定假設(shè),并通過(guò)與環(huán)境和工具的自主交互執(zhí)行解決方案。

這一根本能力標(biāo)志著"AI 能動(dòng)性時(shí)代"的到來(lái),其驅(qū)動(dòng)力來(lái)自一個(gè)關(guān)鍵的行業(yè)轉(zhuǎn)變:迫切需要不僅會(huì)思考,更會(huì)工作的AI模型。雖然當(dāng)前AI在推理和生成響應(yīng)方面表現(xiàn)出色,但產(chǎn)業(yè)界需要能夠執(zhí)行任務(wù)、操作工具并推動(dòng)現(xiàn)實(shí)世界成果的能動(dòng)性模型。

然而,能動(dòng)性模型的訓(xùn)練面臨著關(guān)鍵挑戰(zhàn)。當(dāng)前方法普遍假設(shè)更多數(shù)據(jù)能讓模型產(chǎn)生更強(qiáng)的能動(dòng)性能力,遵循語(yǔ)言建模的傳統(tǒng)擴(kuò)展定律(scaling laws)。這種范式導(dǎo)致了日益復(fù)雜的訓(xùn)練流程和大量資源需求,但一個(gè)根本假設(shè)仍未得到檢驗(yàn):模型的能動(dòng)性能力是否一定需要大量訓(xùn)練數(shù)據(jù),還是可以通過(guò)精心構(gòu)造高質(zhì)量樣本更高效地涌現(xiàn)?

相鄰領(lǐng)域的新興證據(jù)暗示了一個(gè)令人信服的替代范式。LIMA僅用1,000個(gè)精心策劃的樣本就實(shí)現(xiàn)了有效的模型對(duì)齊,而LIMO證明復(fù)雜數(shù)學(xué)推理能力能夠從僅817個(gè)戰(zhàn)略性選擇的訓(xùn)練樣本中涌現(xiàn)。這些發(fā)現(xiàn)表明,精心構(gòu)造高質(zhì)量數(shù)據(jù)可能在培養(yǎng)復(fù)雜AI能力方面比數(shù)據(jù)集規(guī)模根本上更強(qiáng)大。

研究團(tuán)隊(duì)的LIMI給出了答案:模型的能動(dòng)性能力可以通過(guò)與傳統(tǒng)擴(kuò)展方法不同的發(fā)展原則進(jìn)行提升。通過(guò)戰(zhàn)略性聚焦協(xié)作軟件開(kāi)發(fā)和科學(xué)研究工作流程,這些領(lǐng)域涵蓋了大多數(shù)知識(shí)工作場(chǎng)景,研究表明復(fù)雜的能動(dòng)性能力可以從少量但精心構(gòu)造的高質(zhì)量數(shù)據(jù)中涌現(xiàn)。

如圖2所示,LIMI僅用78個(gè)訓(xùn)練樣本就讓模型在AgencyBench 上達(dá)到73.5%的性能,不僅超越了所有基線(xiàn)模型,而且相比使用10,000個(gè)樣本訓(xùn)練的模型實(shí)現(xiàn)了53.7%的性能提升,用128倍更少的數(shù)據(jù)讓模型獲得了卓越的能動(dòng)性能力,徹底顛覆了"更多數(shù)據(jù)=更強(qiáng)能動(dòng)性"的傳統(tǒng)認(rèn)知。


圖 2:LIMI 在 AgencyBench 超越 GPT-5 和眾多開(kāi)源模型

02.

協(xié)作編程與科學(xué)研究工作流

為了驗(yàn)證LIMI提出的戰(zhàn)略性數(shù)據(jù)構(gòu)造方法,該研究聚焦于兩個(gè)需要完整能動(dòng)性能力譜系并涵蓋大多數(shù)知識(shí)工作場(chǎng)景的基本領(lǐng)域。

協(xié)作編程代表LLMs與人類(lèi)開(kāi)發(fā)者在上下文豐富環(huán)境中協(xié)作的軟件開(kāi)發(fā)模式。這個(gè)領(lǐng)域需要:跨現(xiàn)有代碼庫(kù)的代碼理解和生成,通過(guò)復(fù)雜工具生態(tài)系統(tǒng)的開(kāi)發(fā)環(huán)境導(dǎo)航,通過(guò)調(diào)試和優(yōu)化循環(huán)的迭代問(wèn)題解決,以及技術(shù)協(xié)調(diào)的協(xié)作溝通。復(fù)雜性在于對(duì)開(kāi)發(fā)上下文的整體理解和在不斷變化需求下的原則性決策制定。

科學(xué)研究工作流程涵蓋復(fù)雜科學(xué)研究過(guò)程,包括文獻(xiàn)搜索、數(shù)據(jù)分析、實(shí)驗(yàn)設(shè)計(jì)和洞察生成。這些工作流程需要:對(duì)多樣化信息來(lái)源進(jìn)行綜合,采用適當(dāng)方法論的實(shí)驗(yàn)設(shè)計(jì),復(fù)雜結(jié)果的數(shù)據(jù)分析和解釋?zhuān)约翱绮煌嫦嚓P(guān)者格式的知識(shí)溝通。

這些任務(wù)展現(xiàn)出顯著的時(shí)間復(fù)雜性,表現(xiàn)為需要連貫狀態(tài)跟蹤和累積推理的多輪交互。它們需要戰(zhàn)略規(guī)劃能力,將復(fù)雜目標(biāo)分解為可管理的子目標(biāo),同時(shí)基于環(huán)境反饋適應(yīng)性調(diào)整策略。工具編排能力變得至關(guān)重要,因?yàn)楝F(xiàn)實(shí)世界的能動(dòng)性任務(wù)需要模型協(xié)調(diào)調(diào)用多個(gè)不同工具來(lái)完成復(fù)雜任務(wù)。

如圖3所示的用戶(hù)查詢(xún)示例展現(xiàn)了單個(gè)查詢(xún)的巨大復(fù)雜性——從基礎(chǔ)到專(zhuān)家級(jí)遞進(jìn)的五子棋開(kāi)發(fā)任務(wù)涵蓋Web前端開(kāi)發(fā)、數(shù)據(jù)過(guò)濾、狀態(tài)管理、規(guī)則啟發(fā)式AI和高級(jí)搜索算法等多個(gè)相互關(guān)聯(lián)的子任務(wù)。這種復(fù)雜性覆蓋了規(guī)劃、執(zhí)行和協(xié)作等維度,展現(xiàn)了高質(zhì)量演示中學(xué)習(xí)信號(hào)的密集性。


圖3:用戶(hù)查詢(xún)示例,展示了單個(gè)查詢(xún)?nèi)绾卧谝?guī)劃、執(zhí)行和協(xié)作維度上包含多個(gè)相互關(guān)聯(lián)的子任務(wù),證明了高質(zhì)量數(shù)據(jù)中學(xué)習(xí)信號(hào)的密集性。

03.

精準(zhǔn)數(shù)據(jù)構(gòu)建的系統(tǒng)化方法

LIMI方法的有效性根本依賴(lài)于戰(zhàn)略性數(shù)據(jù)構(gòu)造,通過(guò)真實(shí)世界協(xié)作任務(wù)捕捉本質(zhì)的能動(dòng)性行為。該研究團(tuán)隊(duì)圍繞能動(dòng)性交互的基本要素形式化數(shù)據(jù)構(gòu)建過(guò)程,將每個(gè)完整交互定義為元組<用戶(hù)查詢(xún),能動(dòng)性軌跡>,其中用戶(hù)查詢(xún)啟動(dòng)協(xié)作工作流程,軌跡捕獲完整交互序列。

如圖4所示,LIMI的訓(xùn)練數(shù)據(jù)展現(xiàn)了顯著的高質(zhì)量特征:軌跡長(zhǎng)度分布廣泛,平均達(dá)到42.4k tokens,最長(zhǎng)可達(dá)152k tokens,遠(yuǎn)超傳統(tǒng)訓(xùn)練樣本的長(zhǎng)度。右側(cè)的領(lǐng)域覆蓋圖顯示了數(shù)據(jù)在協(xié)作編程和科學(xué)研究工作流程兩個(gè)核心領(lǐng)域的廣泛分布,涵蓋了從前端開(kāi)發(fā)、調(diào)試、工具調(diào)用到論文搜索、深度學(xué)習(xí)、實(shí)驗(yàn)工作流程等多個(gè)細(xì)分方向。


圖4:LIMI訓(xùn)練數(shù)據(jù)的特征。左圖:軌跡長(zhǎng)度分布顯示交互復(fù)雜性(平均42.4k tokens)。右圖:涵蓋vibe編程和研究工作流的全面覆蓋。


1、用戶(hù)查詢(xún)池構(gòu)建:真實(shí)性與系統(tǒng)性的結(jié)合

查詢(xún)收集策略系統(tǒng)性地結(jié)合真實(shí)世界場(chǎng)景與戰(zhàn)略性覆蓋擴(kuò)展,確保生態(tài)有效性和充足的訓(xùn)練多樣性。

真實(shí)世界用戶(hù)查詢(xún)收集LIMI從專(zhuān)業(yè)開(kāi)發(fā)者和研究者在協(xié)作環(huán)境中遇到的實(shí)際場(chǎng)景收集60個(gè)查詢(xún)。這些查詢(xún)代表跨兩個(gè)核心領(lǐng)域的真實(shí)挑戰(zhàn),具有自然復(fù)雜性和上下文豐富性。值得注意的是,大量研究查詢(xún)來(lái)自真實(shí)學(xué)術(shù)論文,確保收集的用戶(hù)查詢(xún)具有可信的代表性。

基于GitHub PR的查詢(xún)合成為了在保持真實(shí)性的同時(shí)系統(tǒng)性擴(kuò)展查詢(xún)池,團(tuán)隊(duì)開(kāi)發(fā)了使用GPT-5從GitHub Pull Requests合成額外查詢(xún)的流水線(xiàn)。這種方法利用真實(shí)代碼更改的豐富上下文,采用GPT-5的先進(jìn)推理能力生成反映真實(shí)開(kāi)發(fā)需求的協(xié)作場(chǎng)景。

系統(tǒng)性策劃過(guò)程涉及多個(gè)質(zhì)量保證階段:(1)選擇具有超過(guò)10,000 GitHub stars的高質(zhì)量代碼倉(cāng)庫(kù),(2)確保軟件開(kāi)發(fā)領(lǐng)域的綜合覆蓋,(3)基于復(fù)雜性和實(shí)質(zhì)性進(jìn)行過(guò)濾,(4)采用四名計(jì)算機(jī)科學(xué)博士生作為專(zhuān)家標(biāo)注員評(píng)估合成查詢(xún)的質(zhì)量,確保語(yǔ)義對(duì)齊和上下文準(zhǔn)確性。

通過(guò)這種系統(tǒng)化方法,團(tuán)隊(duì)最終構(gòu)建了包含78個(gè)高質(zhì)量用戶(hù)查詢(xún)的綜合池,每個(gè)查詢(xún)都代表來(lái)自協(xié)作編程或科學(xué)研究工作流程的真實(shí)協(xié)作場(chǎng)景。


2、軌跡收集:捕獲最優(yōu)能動(dòng)性行為

為了生成展示最優(yōu)能動(dòng)性行為的訓(xùn)練軌跡,研究需要能夠支持真實(shí)人機(jī)協(xié)作的復(fù)雜執(zhí)行環(huán)境。這個(gè)環(huán)境必須支持復(fù)雜工具交互、維護(hù)詳細(xì)交互日志,并提供現(xiàn)實(shí)能動(dòng)性智能評(píng)估所需的操作上下文。

團(tuán)隊(duì)選擇SII CLI作為執(zhí)行環(huán)境,基于其幾個(gè)關(guān)鍵優(yōu)勢(shì):(1)支持協(xié)作編程和研究工作流程的全面工具集成,(2)對(duì)高質(zhì)量訓(xùn)練數(shù)據(jù)收集至關(guān)重要的詳細(xì)軌跡日志能力,(3)啟用自然交互模式的靈活人機(jī)協(xié)作界面,(4)對(duì)需要協(xié)調(diào)工具使用的復(fù)雜多步任務(wù)的強(qiáng)大支持。

在SII CLI環(huán)境內(nèi),四名博士生標(biāo)注員作為人類(lèi)協(xié)作者,與GPT-5作為能動(dòng)性模型協(xié)作,在真實(shí)協(xié)作場(chǎng)景中完成78個(gè)用戶(hù)查詢(xún)的軌跡收集。

對(duì)于每個(gè)查詢(xún),采用迭代收集方法,持續(xù)收集軌跡直到任務(wù)成功完成。這種持續(xù)性方法確保收集的軌跡捕獲真實(shí)人機(jī)交互模式,包括自然的來(lái)回溝通、迭代細(xì)化過(guò)程和表征有效能動(dòng)性行為的協(xié)作問(wèn)題解決策略。

正如圖3左側(cè)軌跡長(zhǎng)度分布所示,這種方法產(chǎn)生了內(nèi)容極其豐富、交互高度復(fù)雜的高質(zhì)量訓(xùn)練軌跡數(shù)據(jù),平均長(zhǎng)度達(dá)到42.4k tokens,遠(yuǎn)超常規(guī)訓(xùn)練數(shù)據(jù)的復(fù)雜度,為模型提供了密集的能動(dòng)性學(xué)習(xí)信號(hào)。

04.

突破性實(shí)驗(yàn)結(jié)果


1、實(shí)驗(yàn)設(shè)置與評(píng)估框架

為了驗(yàn)證LIMI假設(shè)并證明戰(zhàn)略性數(shù)據(jù)構(gòu)造方法的有效性,團(tuán)隊(duì)采用了全面的實(shí)驗(yàn)框架,跨多個(gè)評(píng)估維度將方法與強(qiáng)基線(xiàn)模型進(jìn)行比較。

基線(xiàn)模型評(píng)估團(tuán)隊(duì)評(píng)估了多樣化的最先進(jìn)基礎(chǔ)模型,確保全面比較:GLM-4.5、GLM-4.5-Air、Qwen3-235B-A22B-Instruct、DeepSeek-V3.1、Kimi-K2-Instruct。這個(gè)選擇涵蓋了具有不同架構(gòu)設(shè)計(jì)和訓(xùn)練方法的開(kāi)源模型,支持對(duì)能動(dòng)性能力的嚴(yán)格評(píng)估。

模型訓(xùn)練與對(duì)比實(shí)驗(yàn)為了系統(tǒng)評(píng)估策劃訓(xùn)練數(shù)據(jù)的影響,團(tuán)隊(duì)使用收集的數(shù)據(jù)對(duì)GLM-4.5和GLM-4.5-Air進(jìn)行微調(diào)。所有微調(diào)實(shí)驗(yàn)使用slime框架進(jìn)行,確保一致的訓(xùn)練條件、超參數(shù)優(yōu)化和公平比較。

此外,為了評(píng)估數(shù)據(jù)策劃策略的質(zhì)量和有效性,團(tuán)隊(duì)通過(guò)在三個(gè)替代數(shù)據(jù)集上微調(diào)GLM-4.5進(jìn)行比較實(shí)驗(yàn):CC-Bench-trajectories、AFM-WebAgent-SFT-Dataset和AFM-CodeAgent-SFT-Dataset。這種實(shí)驗(yàn)設(shè)計(jì)支持戰(zhàn)略性策劃數(shù)據(jù)與現(xiàn)有大規(guī)模能動(dòng)性訓(xùn)練數(shù)據(jù)集的直接比較。

評(píng)估框架評(píng)估包含兩個(gè)互補(bǔ)策略,全面驗(yàn)證LIMI方法的有效性:(1)在AgencyBench上的主要評(píng)估,專(zhuān)門(mén)設(shè)計(jì)用于評(píng)估協(xié)作場(chǎng)景中的能動(dòng)性能力;(2)在涵蓋工具使用、編程和科學(xué)計(jì)算的多個(gè)基準(zhǔn)上的泛化能力評(píng)估,確保發(fā)現(xiàn)能夠泛化到核心領(lǐng)域之外。


2、AgencyBench上的卓越表現(xiàn)

如表 1 所示,在AgencyBench基準(zhǔn)測(cè)試中,LIMI取得了令人震撼的成績(jī):


表1: LIMI 系列模型在AgencyBench上的綜合比較。模型按評(píng)估目的分組:基線(xiàn)比較、泛化能力評(píng)估和數(shù)據(jù)效率驗(yàn)證。

LIMI達(dá)到了73.5%的平均得分,顯著超越了所有基線(xiàn)模型:GLM-4.5(45.1%)、Kimi-K2-Instruct(24.1%)、DeepSeek-V3.1(11.9%)和Qwen3-235B-A22B-Instruct(27.5%)。

性能差距在首輪功能完整性(FTFC)方面特別明顯,LIMI達(dá)到71.7%,相比GLM-4.5的最佳基線(xiàn)性能37.8%實(shí)現(xiàn)了顯著的33.9個(gè)百分點(diǎn)改進(jìn)。類(lèi)似地,LIMI以74.6%的成功率展示了卓越的任務(wù)完成可靠性,大幅超越了最強(qiáng)基線(xiàn)模型GLM-4.5的47.4%。


3、數(shù)據(jù)效率的極致體現(xiàn)

最震撼的發(fā)現(xiàn)是數(shù)據(jù)效率對(duì)比結(jié)果,為核心LIMI假設(shè)提供了令人信服的實(shí)證證據(jù):戰(zhàn)略性數(shù)據(jù)策劃在開(kāi)發(fā)能動(dòng)性智能方面根本上比簡(jiǎn)單擴(kuò)展訓(xùn)練數(shù)據(jù)量更有效。

LIMI使用僅78個(gè)精心策劃的訓(xùn)練樣本就達(dá)到了卓越性能,大幅超越了在數(shù)量級(jí)更大數(shù)據(jù)集上訓(xùn)練的模型。最引人注目的是與在AFM-CodeAgent-SFT-Dataset上訓(xùn)練的GLM-4.5-Code的比較:LIMI的73.5%平均AgencyBench性能戲劇性地超越了大規(guī)模方法實(shí)現(xiàn)的47.8%,盡管使用的數(shù)據(jù)集小128倍(78 vs. 10,000樣本)。

關(guān)鍵數(shù)據(jù)效率對(duì)比:

  • LIMI (78樣本) vs GLM-4.5-Code (10,000樣本):25.7個(gè)百分點(diǎn)優(yōu)勢(shì),數(shù)據(jù)量?jī)H1/128

  • LIMI vs GLM-4.5-Web (7,610樣本):23.5個(gè)百分點(diǎn)優(yōu)勢(shì),數(shù)據(jù)量?jī)H1/97

  • LIMI vs GLM-4.5-CC (260樣本):18.0個(gè)百分點(diǎn)優(yōu)勢(shì),數(shù)據(jù)量?jī)H30%

這些一致的改進(jìn)證明了戰(zhàn)略性數(shù)據(jù)策劃能夠比大規(guī)模數(shù)據(jù)收集實(shí)現(xiàn)更有效的能力遷移,確立了能動(dòng)性智能開(kāi)發(fā)中"少即是多"范式的廣泛適用性。


4、跨領(lǐng)域泛化驗(yàn)證

如表2所示,LIMI的優(yōu)勢(shì)擴(kuò)展到涵蓋工具使用、編程和科學(xué)計(jì)算的多樣化基準(zhǔn)測(cè)試中,證明方法的廣泛適用性。LIMI達(dá)到57.2%的平均性能,超越所有基線(xiàn)模型,包括GLM-4.5(43.0%)、Kimi-K2-Instruct(37.3%)、DeepSeek-V3.1(29.7%)和Qwen3-235B-A22B-Instruct(36.7%)。

值得注意的是,LIMI在關(guān)鍵編程基準(zhǔn)上達(dá)到了最高性能(EvalPlus-HumanEval:92.1%,EvalPlus-MBPP:82.3%),并在工具使用任務(wù)上展示了競(jìng)爭(zhēng)性結(jié)果(TAU2-bench-airline:34.0%,TAU2-bench-retail:45.6%)。


表2:泛化基準(zhǔn)測(cè)試的綜合性能比較。HE代表EvalPlus-HumanEval,MP和SP分別代表SciCode的主要問(wèn)題和子問(wèn)題指標(biāo)。平均值包含了 AgencyBench 的表現(xiàn)。

不僅如此,LIMI方法出色的泛化能力還體現(xiàn)在跨規(guī)模泛化和跨架構(gòu)泛化兩個(gè)關(guān)鍵維度。在跨規(guī)模方面,Qwen3系列展現(xiàn)了顯著的改進(jìn)效果,從小型模型Qwen3-4B性能翻倍(從4.6%提升到8.6%,增幅達(dá)87%)、Qwen3-8B提升45.2%,到Qwen3-32B實(shí)現(xiàn)144%的大幅提升,GLM-4.5也達(dá)到63%的改進(jìn),證明該方法在整個(gè)模型規(guī)模譜系上都持續(xù)有效;在跨架構(gòu)方面,無(wú)論是密集型transformer架構(gòu)(Qwen3系列)還是專(zhuān)家混合架構(gòu)(GLM系列)都表現(xiàn)出顯著改進(jìn),證明該方法捕捉到的是與具體模型實(shí)現(xiàn)、參數(shù)分布或計(jì)算架構(gòu)無(wú)關(guān)的基本智能體行為模式,從而驗(yàn)證了戰(zhàn)略性數(shù)據(jù)策展在智能體開(kāi)發(fā)中具有廣泛的適用性和有效性。


圖5:不同模型在LIMI微調(diào)前后的性能對(duì)比。經(jīng)LIMI訓(xùn)練的模型在AgencyBench(左圖)和其他基準(zhǔn)測(cè)試(右圖)上均展現(xiàn)出一致的性能提升

05.

能動(dòng)性效率原則

基于實(shí)驗(yàn)結(jié)果,研究建立了能動(dòng)性效率原則:模型能動(dòng)性的涌現(xiàn)并非來(lái)自簡(jiǎn)單數(shù)據(jù)的堆砌,而是來(lái)自高質(zhì)量能動(dòng)性數(shù)據(jù)的精心構(gòu)造。

這一發(fā)現(xiàn)根本重塑了開(kāi)發(fā)能動(dòng)性大模型以及AI Agent的方式,表明掌握能動(dòng)性需要理解其本質(zhì),而不是簡(jiǎn)單的擴(kuò)大訓(xùn)練數(shù)據(jù)規(guī)模。

LIMI促成了能動(dòng)性訓(xùn)練范式的根本性轉(zhuǎn)換:從"更多簡(jiǎn)單數(shù)據(jù)→更強(qiáng)能動(dòng)性"的舊范式,轉(zhuǎn)向"更高質(zhì)量的能動(dòng)性數(shù)據(jù)→更強(qiáng)能動(dòng)性"的新范式。LIMI認(rèn)為:能動(dòng)性本質(zhì)上是"潛伏"于預(yù)訓(xùn)練模型中的,關(guān)鍵挑戰(zhàn)不是訓(xùn)練新能力,而是找到激活路徑。

06.

產(chǎn)業(yè)影響與未來(lái)展望


1、對(duì)AI產(chǎn)業(yè)生態(tài)的重塑

LIMI的發(fā)現(xiàn)對(duì)整個(gè)AI產(chǎn)業(yè)生態(tài)具有深遠(yuǎn)影響:

研發(fā)效率革命:小團(tuán)隊(duì)?wèi){借精準(zhǔn)方法可以與大公司競(jìng)爭(zhēng),降低了能動(dòng)性技術(shù)的門(mén)檻,促進(jìn)更多創(chuàng)新性方法的涌現(xiàn)。

資源配置優(yōu)化:將投入重點(diǎn)從數(shù)據(jù)收集轉(zhuǎn)向高質(zhì)量樣本設(shè)計(jì)和生成,從"資源競(jìng)賽"轉(zhuǎn)向"數(shù)據(jù)構(gòu)造方法競(jìng)賽"。

應(yīng)用落地加速:為實(shí)際能動(dòng)性系統(tǒng)的開(kāi)發(fā)提供了高效可行的路徑,在實(shí)際應(yīng)用中提供了具體的指導(dǎo)原則:專(zhuān)注核心場(chǎng)景、完整流程軌跡、質(zhì)量?jī)?yōu)先策略。


2、商業(yè)化前景與技術(shù)普惠

LIMI方法的商業(yè)化前景廣闊:降低開(kāi)發(fā)成本,減少對(duì)大規(guī)模數(shù)據(jù)和計(jì)算資源的依賴(lài);縮短開(kāi)發(fā)周期,通過(guò)精準(zhǔn)方法快速獲得能動(dòng)性突破;提高應(yīng)用效果,在特定領(lǐng)域達(dá)到更好的性能表現(xiàn);普惠化應(yīng)用,讓更多中小企業(yè)能夠負(fù)擔(dān)得起能動(dòng)性技術(shù)。


3、未來(lái)發(fā)展方向

雖然LIMI目前主要驗(yàn)證了協(xié)作軟件開(kāi)發(fā)和科學(xué)研究?jī)蓚€(gè)領(lǐng)域,但其原理有望擴(kuò)展到醫(yī)療診斷能動(dòng)性、教育輔導(dǎo)能動(dòng)性、商業(yè)分析能動(dòng)性等更廣闊的認(rèn)知領(lǐng)域。

未來(lái)的能動(dòng)性系統(tǒng)將發(fā)展為多模態(tài)能動(dòng)性,融合視覺(jué)、語(yǔ)言、行動(dòng)等多種模態(tài);自主學(xué)習(xí)能動(dòng)性,從被動(dòng)激活發(fā)展到主動(dòng)進(jìn)化;以及更完善的理論體系,建立能動(dòng)性激活的數(shù)學(xué)模型和評(píng)估框架。


4、開(kāi)啟能動(dòng)性新時(shí)代

LIMI不僅是一項(xiàng)技術(shù)突破,更是AI發(fā)展理念的根本性轉(zhuǎn)變。它證明了在能動(dòng)性開(kāi)發(fā)中,理解本質(zhì)比擴(kuò)大規(guī)模更重要,質(zhì)量比數(shù)量更關(guān)鍵。

78個(gè)精心設(shè)計(jì)的樣本擊敗萬(wàn)級(jí)數(shù)據(jù)的事實(shí),確立了能動(dòng)性發(fā)展的全新原則:模型能動(dòng)性來(lái)自精心構(gòu)造,而非數(shù)據(jù)堆砌。當(dāng)模型從思考型AI轉(zhuǎn)向工作型AI時(shí),LIMI為真正能動(dòng)性的可持續(xù)培養(yǎng)提供了新范式,開(kāi)啟了能動(dòng)性發(fā)展的新紀(jì)元,未來(lái)充滿(mǎn)無(wú)限可能。

編輯丨趙雅鑫

----- END -----


wisemodel相關(guān):

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開(kāi)源社區(qū)建設(shè)需要長(zhǎng)期堅(jiān)持和投入,更需要廣大用戶(hù)的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開(kāi)源社區(qū)的志愿者計(jì)劃和開(kāi)源共創(chuàng)計(jì)劃。期待更多開(kāi)發(fā)者將開(kāi)源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開(kāi)放的AI開(kāi)源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請(qǐng)加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開(kāi)源社區(qū)動(dòng)態(tài)。

2

歡迎加盟wisemodel開(kāi)源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線(xiàn)以來(lái),逐漸成為影響力日益擴(kuò)大的中立開(kāi)放的AI開(kāi)源社區(qū),為了加快公司發(fā)展,我們長(zhǎng)期需要技術(shù)、運(yùn)營(yíng)等人才加盟,技術(shù)側(cè)重在AI infra、后端開(kāi)發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開(kāi)發(fā)者生態(tài)運(yùn)營(yíng)的成員,歡迎感興趣的朋友加盟,可以通過(guò)添加wisemodel微信,或者將簡(jiǎn)歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺(tái)上分享各類(lèi)優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開(kāi)源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以?huà)叽a添加wisemodel微信。

4

關(guān)于wisemodel開(kāi)源社區(qū)

始智AI wisemodel.cn開(kāi)源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專(zhuān)委會(huì)副秘書(shū)長(zhǎng)劉道全創(chuàng)立,旨在打造和建設(shè)中立開(kāi)放的AI開(kāi)源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開(kāi)源社區(qū),匯聚主要AI開(kāi)源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開(kāi)發(fā)者,以及政府部門(mén)、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開(kāi)源創(chuàng)新生態(tài)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
為什么全世界最瘦的是日本人?評(píng)論區(qū)的回答笑暈了,簡(jiǎn)直一針見(jiàn)血

為什么全世界最瘦的是日本人?評(píng)論區(qū)的回答笑暈了,簡(jiǎn)直一針見(jiàn)血

另子維愛(ài)讀史
2026-03-06 20:14:42
張雪峰女兒面臨跟后媽爭(zhēng)產(chǎn),二婚妻子履歷遭深扒,海量生活照曝光

張雪峰女兒面臨跟后媽爭(zhēng)產(chǎn),二婚妻子履歷遭深扒,海量生活照曝光

壹月情感
2026-03-26 19:26:34
上海凈資產(chǎn)2000萬(wàn)以上家庭有多少?

上海凈資產(chǎn)2000萬(wàn)以上家庭有多少?

巢客HOME
2026-03-28 09:40:07
美媒靈魂拷問(wèn):連著三任總統(tǒng)都要對(duì)付中國(guó),最后卻全都斷送在中東

美媒靈魂拷問(wèn):連著三任總統(tǒng)都要對(duì)付中國(guó),最后卻全都斷送在中東

福建平子
2026-03-29 08:44:13
我就不信張一山?jīng)]有后悔過(guò)嗎?這么美的前任拱手讓出去了

我就不信張一山?jīng)]有后悔過(guò)嗎?這么美的前任拱手讓出去了

陳意小可愛(ài)
2026-03-27 10:38:38
A股:信號(hào)非常明確,不用等了,3月30日,下周一或許這樣走:

A股:信號(hào)非常明確,不用等了,3月30日,下周一或許這樣走:

風(fēng)風(fēng)順
2026-03-29 06:50:01
女婿伺候岳母10年,妻子提離婚他笑著答應(yīng),出民政局后妻子懵了

女婿伺候岳母10年,妻子提離婚他笑著答應(yīng),出民政局后妻子懵了

曉艾故事匯
2025-08-07 17:10:25
真是U23?朝鮮3天2場(chǎng)首發(fā)不變?nèi)辕偱苋珗?chǎng)+壓制國(guó)足 8塊腹肌引熱議

真是U23?朝鮮3天2場(chǎng)首發(fā)不變?nèi)辕偱苋珗?chǎng)+壓制國(guó)足 8塊腹肌引熱議

我愛(ài)英超
2026-03-28 22:57:12
核桃立大功!國(guó)際頂刊證實(shí):可降低全身炎癥,4周壽命延長(zhǎng)45%

核桃立大功!國(guó)際頂刊證實(shí):可降低全身炎癥,4周壽命延長(zhǎng)45%

思思夜話(huà)
2026-03-28 13:00:30
別被“某音”前凸后翹的網(wǎng)紅騙了

別被“某音”前凸后翹的網(wǎng)紅騙了

健身S叔
2026-03-22 11:12:04
斯諾克紅包賽:首日決出第5席8強(qiáng),小鋼炮拒絕3連敗,NO.1或翻車(chē)

斯諾克紅包賽:首日決出第5席8強(qiáng),小鋼炮拒絕3連敗,NO.1或翻車(chē)

劉姚堯的文字城堡
2026-03-29 07:59:15
上萬(wàn)民眾自發(fā)趕來(lái)送別張雪峰!祭品中的黃桃罐頭和餃子,讓人淚目

上萬(wàn)民眾自發(fā)趕來(lái)送別張雪峰!祭品中的黃桃罐頭和餃子,讓人淚目

火山詩(shī)話(huà)
2026-03-28 11:57:22
左手諾貝爾,右手奧斯卡,怎么做到的?

左手諾貝爾,右手奧斯卡,怎么做到的?

中國(guó)新聞周刊
2026-03-28 07:31:04
48小時(shí)最后通牒變16日拉鋸戰(zhàn) 美國(guó)上演“狼來(lái)了”

48小時(shí)最后通牒變16日拉鋸戰(zhàn) 美國(guó)上演“狼來(lái)了”

中國(guó)能源網(wǎng)
2026-03-28 12:16:02
李采娜1米65身材太吸睛,大骨架臉氣質(zhì)非凡!網(wǎng)友:傲人胸圍?

李采娜1米65身材太吸睛,大骨架臉氣質(zhì)非凡!網(wǎng)友:傲人胸圍?

娛樂(lè)領(lǐng)航家
2026-03-18 21:30:03
央視主持人集體大哭,朱迅流淚康輝掩面痛哭,真相是什么?

央視主持人集體大哭,朱迅流淚康輝掩面痛哭,真相是什么?

落雪聽(tīng)梅a
2026-03-28 09:14:37
張雪峰家族信托沒(méi)完成,員工回應(yīng)其二婚傳聞,曝付幸離異帶一兒子

張雪峰家族信托沒(méi)完成,員工回應(yīng)其二婚傳聞,曝付幸離異帶一兒子

壹月情感
2026-03-28 11:33:24
重磅!2年7500萬(wàn),哈登與騎士續(xù)約協(xié)議曝光,更炸裂的還在后面…

重磅!2年7500萬(wàn),哈登與騎士續(xù)約協(xié)議曝光,更炸裂的還在后面…

煙潯渺渺
2026-03-28 17:03:40
1951年,戴笠的兒子戴善武被執(zhí)行死刑,被槍斃的時(shí)候才36歲

1951年,戴笠的兒子戴善武被執(zhí)行死刑,被槍斃的時(shí)候才36歲

百年歷史老號(hào)
2026-03-28 20:32:38
張雪峰離世,紐約時(shí)報(bào)的評(píng)價(jià)戳中人心,這才是最真實(shí)的他

張雪峰離世,紐約時(shí)報(bào)的評(píng)價(jià)戳中人心,這才是最真實(shí)的他

喜歡歷史的阿繁
2026-03-29 05:43:42
2026-03-29 09:20:49
wisemodel開(kāi)源社區(qū) incentive-icons
wisemodel開(kāi)源社區(qū)
始智AI wisemodel.cn開(kāi)源社區(qū),打造中國(guó)版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

華為盤(pán)古大模型負(fù)責(zé)人王云鶴確認(rèn)離職

頭條要聞

牛彈琴:特朗普親口對(duì)沙特說(shuō)出傲慢的話(huà) 全世界不敢相信

頭條要聞

牛彈琴:特朗普親口對(duì)沙特說(shuō)出傲慢的話(huà) 全世界不敢相信

體育要聞

全球第二大車(chē)企,也救不了這支德甲隊(duì)?

娛樂(lè)要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

財(cái)經(jīng)要聞

臥底"科技與狠活"培訓(xùn):化工調(diào)味劑泛濫

汽車(chē)要聞

置換補(bǔ)貼價(jià)4.28萬(wàn)起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

教育
親子
家居
時(shí)尚
數(shù)碼

教育要聞

喬會(huì)龍:請(qǐng)不要強(qiáng)迫他們做“大人”

親子要聞

全國(guó)學(xué)前教育專(zhuān)家齊聚深圳,共探美育與體育深度融合落地路徑

家居要聞

曲線(xiàn)華爾茲 現(xiàn)代簡(jiǎn)約

和田曦薇一樣嫩嘟嘟,這3個(gè)變美技巧你一定不能錯(cuò)過(guò)!

數(shù)碼要聞

小心假冒偽劣硬盤(pán):山寨版三星990 Pro SSD已能偽造讀寫(xiě)速度

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版