国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AAAI 2026 | 面向數(shù)據(jù)分析智能體的能力解構(gòu)與思維鏈合成探究

0
分享至

當(dāng)今大語(yǔ)言模型(LLM)在眾多領(lǐng)域展現(xiàn)出強(qiáng)大的能力,但在數(shù)據(jù)分析這一需要嚴(yán)謹(jǐn)邏輯和多步推理的任務(wù)上,開(kāi)源模型與頂尖閉源模型之間仍存在顯著的性能差距。這一現(xiàn)象引出一個(gè)核心問(wèn)題:究竟是什么因素限制了開(kāi)源模型的數(shù)據(jù)分析能力?是數(shù)據(jù)理解的深度、代碼生成的質(zhì)量,還是更深層次的推理機(jī)制?

為了探索這些問(wèn)題,本文從一個(gè)“能力解構(gòu)”的視角切入,通過(guò)系統(tǒng)性的實(shí)證研究,追蹤并剖析了模型在數(shù)據(jù)分析任務(wù)中的行為模式。研究不僅探索了開(kāi)源LLM面臨的核心瓶頸,更基于此提出了一套高效的數(shù)據(jù)合成方法,提升了模型的分析推理能力。


論文題目: Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study 論文鏈接: https://arxiv.org/abs/2506.19794 代碼鏈接: https://github.com/zjunlp/DataMind
一、分析與發(fā)現(xiàn) 1.1 核心分析框架

傳統(tǒng)的分析思路往往將數(shù)據(jù)分析失敗歸因于模型單一的能力缺陷,而本文則從一個(gè)更系統(tǒng)、更綜合的“能力感知”(Capability-Aware)視角展開(kāi)研究。

首先,本研究將復(fù)雜的數(shù)據(jù)分析任務(wù)清晰地解構(gòu)為三個(gè)環(huán)環(huán)相扣的核心能力:

  • 數(shù)據(jù)理解 (Data Comprehension):模型從原始數(shù)據(jù)(如CSV文件)中提取和理解信息的能力。

  • 代碼生成 (Code Generation):模型將分析思路轉(zhuǎn)化為可執(zhí)行Python代碼的能力。

  • 策略規(guī)劃 (Strategic Planning):模型為解決一個(gè)復(fù)雜分析問(wèn)題,制定、執(zhí)行并調(diào)整多步計(jì)劃的能力。

基于該框架,本文設(shè)計(jì)了一系列控制變量實(shí)驗(yàn)。為確保評(píng)估的客觀性,本文首先收集并構(gòu)建了一個(gè)不與評(píng)測(cè)集重疊的高質(zhì)量數(shù)據(jù)集,其場(chǎng)景源自DAEval、DSBench等多個(gè)基準(zhǔn)。隨后,通過(guò)對(duì)Qwen、GPT-4o、DeepSeek等一系列模型的行為進(jìn)行細(xì)致評(píng)估,本研究得以精準(zhǔn)分析不同因素對(duì)模型最終表現(xiàn)的影響。

本文的分析由表及里,從三個(gè)層面展開(kāi):

  • 單點(diǎn)能力評(píng)估:數(shù)據(jù)理解和代碼生成能力是否是性能的決定性因素?

  • 交互模式影響:多輪交互的長(zhǎng)度、推理內(nèi)容的詳略如何影響模型的規(guī)劃能力?

  • 數(shù)據(jù)特性權(quán)衡:訓(xùn)練數(shù)據(jù)的難度和領(lǐng)域多樣性,哪一個(gè)對(duì)模型泛化更重要?

1.2 三大核心發(fā)現(xiàn)

通過(guò)對(duì)模型行為的深入剖析,本文揭示了三個(gè)關(guān)于如何高效提升LLM數(shù)據(jù)分析能力的關(guān)鍵發(fā)現(xiàn)。

發(fā)現(xiàn)一:首要瓶頸在于策略規(guī)劃,而非執(zhí)行能力



本文的首要核心發(fā)現(xiàn)是,限制開(kāi)源大模型在數(shù)據(jù)分析任務(wù)中表現(xiàn)的主要瓶頸在于策略規(guī)劃能力,而非是數(shù)據(jù)理解或代碼生成等執(zhí)行能力。在數(shù)據(jù)理解層面,本研究的實(shí)驗(yàn)表明,無(wú)論是為模型提供詳盡的表格上下文信息,還是引入無(wú)關(guān)數(shù)據(jù)文件作為干擾,模型的最終性能均未出現(xiàn)顯著波動(dòng),這表明模型已具備穩(wěn)健的基礎(chǔ)數(shù)據(jù)理解能力。同時(shí),對(duì)錯(cuò)誤案例的分析(如圖2所示)發(fā)現(xiàn),絕大多數(shù)失敗并非源于代碼執(zhí)行缺陷(如語(yǔ)法或語(yǔ)義錯(cuò)誤),而是歸因于更高維度的規(guī)劃失誤,例如制定了錯(cuò)誤的分析假設(shè)或過(guò)早地結(jié)束了探索流程。

發(fā)現(xiàn)二:交互模式存在最優(yōu)區(qū)間



在交互模式層面,本研究發(fā)現(xiàn)其有效性存在一個(gè)最優(yōu)區(qū)間(Optimal Range)。

  • 交互輪次:訓(xùn)練數(shù)據(jù)并非越長(zhǎng)或越短越好,4-5輪的中等長(zhǎng)度交互在大多數(shù)情況下能引導(dǎo)模型學(xué)習(xí)到最穩(wěn)定、高效的推理模式。

  • 推理質(zhì)量:直接使用冗長(zhǎng)、完整的“思維鏈”進(jìn)行訓(xùn)練,反而會(huì)因信息過(guò)載導(dǎo)致性能下降。相反,將思維鏈總結(jié)為精煉的核心邏輯(Summarized Reasoning)后,模型表現(xiàn)最佳。這說(shuō)明,推理的質(zhì)量和信息密度比形式上的長(zhǎng)度更為重要。

發(fā)現(xiàn)三:數(shù)據(jù)質(zhì)量的決定性作用遠(yuǎn)超多樣性




在數(shù)據(jù)選擇層面,本研究發(fā)現(xiàn),訓(xùn)練數(shù)據(jù)的質(zhì)量遠(yuǎn)比其多樣性更為關(guān)鍵。實(shí)驗(yàn)結(jié)果(如表7)清晰地表明,簡(jiǎn)單地通過(guò)平衡采樣來(lái)增加訓(xùn)練數(shù)據(jù)覆蓋的問(wèn)題領(lǐng)域多樣性,并不能帶來(lái)顯著的性能提升。相反,對(duì)數(shù)據(jù)質(zhì)量的精細(xì)把控——例如提升任務(wù)的難度——?jiǎng)t能有效促進(jìn)模型能力的增長(zhǎng)(如表6)。更有趣的是,如圖5所示,隨著訓(xùn)練數(shù)據(jù)難度的增加,模型傾向于在更少的交互輪次內(nèi)給出更精煉的答案,這表明高質(zhì)量的難題能促使模型內(nèi)化推理過(guò)程,提升其分析效率。這些發(fā)現(xiàn)共同證明,與其盲目追求數(shù)據(jù)的廣度,不如通過(guò)精心篩選,確保訓(xùn)練數(shù)據(jù)具備合適的難度、高質(zhì)量的推理過(guò)程和優(yōu)化的交互結(jié)構(gòu)。即使數(shù)據(jù)總量不大,這種“質(zhì)量?jī)?yōu)先”的策略也能實(shí)現(xiàn)更好的微調(diào)效果。

策略引導(dǎo)的數(shù)據(jù)合成

基于上述核心發(fā)現(xiàn),本文將其轉(zhuǎn)化為一套行之有效的策略引導(dǎo)的數(shù)據(jù)合成(Strategy-Guided Data Synthesis)方法,并驗(yàn)證了其效果。



第一步:答案生成 (Prompt-Based Answer Generation)

首先,通過(guò)生成式方法為每個(gè)問(wèn)題創(chuàng)造一個(gè)包含多種可能解法的初始候選池。

第二步:目標(biāo)實(shí)例選擇 (Targeted Instance Selection)

接著,本文將研究的核心發(fā)現(xiàn)作為篩選準(zhǔn)則,進(jìn)行目標(biāo)實(shí)例選擇。這一步通過(guò)多維度的過(guò)濾,只保留那些具有中等交互長(zhǎng)度和中高任務(wù)難度的正確軌跡,從而將訓(xùn)練資源精確地聚焦于最高效的學(xué)習(xí)區(qū)間。

第三步:推理驅(qū)動(dòng)的數(shù)據(jù)富化 (Reasoning-Driven Data Enrichment)

最后,通過(guò)推理驅(qū)動(dòng)的數(shù)據(jù)富化,本文將冗長(zhǎng)的思考過(guò)程提煉為精煉的推理摘要,旨在讓模型直接學(xué)習(xí)解決問(wèn)題的核心策略與抽象邏輯。通過(guò)這套從6.4k個(gè)初始正確軌跡中進(jìn)行層層篩選的嚴(yán)格流程,本文最終精煉出一個(gè)僅包含2.8k個(gè)高質(zhì)量實(shí)例的最終數(shù)據(jù)集。微調(diào)后的7B模型在各項(xiàng)基準(zhǔn)上性能大幅超越其基線版本。而14B模型的表現(xiàn)也達(dá)到了與GPT-4o相當(dāng)甚至更好的水平。

二、總結(jié)

本文通過(guò)對(duì)大語(yǔ)言模型在數(shù)據(jù)分析任務(wù)中的能力進(jìn)行系統(tǒng)性解構(gòu)和實(shí)證分析,由表及里地揭示了其性能瓶頸和優(yōu)化路徑。本研究的核心結(jié)論是:策略規(guī)劃能力是限制模型表現(xiàn)的核心短板,而高質(zhì)量、結(jié)構(gòu)化的訓(xùn)練數(shù)據(jù)是解鎖其分析潛能的關(guān)鍵。

本研究表明,深入剖析大語(yǔ)言模型在特定任務(wù)上的能力構(gòu)成,是實(shí)現(xiàn)從粗放式訓(xùn)練到精準(zhǔn)能力塑造轉(zhuǎn)變的關(guān)鍵。這項(xiàng)工作所揭示的規(guī)律和提出的方法,為構(gòu)建更可靠、更高效的開(kāi)源數(shù)據(jù)分析智能體提供了參考方向。本工作的延續(xù)之作“Scaling Generalist Data-Analytic Agents”進(jìn)一步擴(kuò)大合成數(shù)據(jù)規(guī)模并采用強(qiáng)化學(xué)習(xí)來(lái)提升了性能。

作者:朱雨琦 來(lái)源:公眾號(hào)【知識(shí)引擎實(shí)驗(yàn)室-ZJU】

llustration From IconScout By IconScout Store

-The End-

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線上交流活動(dòng),不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛(ài)的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長(zhǎng)。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //

// 前沿資訊解說(shuō)/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過(guò)連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。

將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門”:

bp@thejiangmen.com


點(diǎn)擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美國(guó)為什么死保以色列?根本不是猶太財(cái)團(tuán),而是藏著深層利益

美國(guó)為什么死保以色列?根本不是猶太財(cái)團(tuán),而是藏著深層利益

超人強(qiáng)動(dòng)物俱樂(lè)部
2026-03-12 15:58:06
2026款LG gram Pro筆記本上架:Ultra X7 358H + 32G + 1T

2026款LG gram Pro筆記本上架:Ultra X7 358H + 32G + 1T

IT之家
2026-03-11 11:47:46
女人偷吃后晚上跟丈夫同房是什么體驗(yàn)?這位46歲出軌女人說(shuō)出答案

女人偷吃后晚上跟丈夫同房是什么體驗(yàn)?這位46歲出軌女人說(shuō)出答案

混音情感
2026-02-28 09:28:36
語(yǔ)音誤關(guān)大燈致撞車、Z20銷量暴跌92%,領(lǐng)克正在失去光環(huán)

語(yǔ)音誤關(guān)大燈致撞車、Z20銷量暴跌92%,領(lǐng)克正在失去光環(huán)

新浪新消費(fèi)
2026-03-11 19:55:04
他接受紀(jì)律審查和監(jiān)察調(diào)查

他接受紀(jì)律審查和監(jiān)察調(diào)查

錫望
2026-03-13 16:18:29
美國(guó)最擔(dān)心的事發(fā)生了,伊朗亮出中國(guó)“底牌”,中國(guó)或成最大贏家

美國(guó)最擔(dān)心的事發(fā)生了,伊朗亮出中國(guó)“底牌”,中國(guó)或成最大贏家

徐云流浪中國(guó)
2026-03-04 15:30:07
朱拉尼比阿薩德強(qiáng)太多,趁美伊以打成一團(tuán),在以軍后方干兩票大的

朱拉尼比阿薩德強(qiáng)太多,趁美伊以打成一團(tuán),在以軍后方干兩票大的

老吳教育課堂
2026-03-11 16:54:22
廣東哪些鎮(zhèn)在廣西很出名?連沒(méi)去過(guò)廣東打工的廣西人都知道。

廣東哪些鎮(zhèn)在廣西很出名?連沒(méi)去過(guò)廣東打工的廣西人都知道。

小鹿姐姐情感說(shuō)
2026-03-13 14:24:08
美威脅襲擊霍爾木茲海峽伊朗民用港口 伊朗回應(yīng):美若動(dòng)武 地區(qū)所有港口將成伊朗“合法目標(biāo)”

美威脅襲擊霍爾木茲海峽伊朗民用港口 伊朗回應(yīng):美若動(dòng)武 地區(qū)所有港口將成伊朗“合法目標(biāo)”

閃電新聞
2026-03-12 13:49:53
日本懵了:導(dǎo)彈剛瞄向中國(guó),就收到美國(guó)“戰(zhàn)書”,特朗普訪華有變

日本懵了:導(dǎo)彈剛瞄向中國(guó),就收到美國(guó)“戰(zhàn)書”,特朗普訪華有變

林子說(shuō)事
2026-03-12 20:11:19
“當(dāng)心砸了你兒子的飯碗”,無(wú)知母親曬公務(wù)員兒子做農(nóng)活,被群嘲

“當(dāng)心砸了你兒子的飯碗”,無(wú)知母親曬公務(wù)員兒子做農(nóng)活,被群嘲

妍妍教育日記
2026-02-24 18:13:37
阿德巴約:沒(méi)人會(huì)在那時(shí)申請(qǐng)下場(chǎng) 如果你因83分生氣我也不在乎

阿德巴約:沒(méi)人會(huì)在那時(shí)申請(qǐng)下場(chǎng) 如果你因83分生氣我也不在乎

北青網(wǎng)-北京青年報(bào)
2026-03-13 19:25:05
3月13日譯名發(fā)布:阿里·拉里賈尼

3月13日譯名發(fā)布:阿里·拉里賈尼

參考消息
2026-03-13 11:37:45
以色列滅門套餐送至,伊朗給美國(guó)開(kāi)出無(wú)條件投降?;饤l件

以色列滅門套餐送至,伊朗給美國(guó)開(kāi)出無(wú)條件投降?;饤l件

移光幻影
2026-03-12 23:29:18
去過(guò)香港我才知道:大家不愛(ài)背斜挎包、雙肩包,滿大街都背這3個(gè)

去過(guò)香港我才知道:大家不愛(ài)背斜挎包、雙肩包,滿大街都背這3個(gè)

冒泡泡的魚(yú)兒
2026-03-09 12:07:09
特朗普表態(tài)48小時(shí)內(nèi),朝鮮宣布參戰(zhàn),俄總統(tǒng)罕見(jiàn)發(fā)聲

特朗普表態(tài)48小時(shí)內(nèi),朝鮮宣布參戰(zhàn),俄總統(tǒng)罕見(jiàn)發(fā)聲

等風(fēng)上青云
2026-03-12 17:50:24
提醒:肺癌早期不是咳嗽,而是身上出現(xiàn)這5大異常,不要忽視

提醒:肺癌早期不是咳嗽,而是身上出現(xiàn)這5大異常,不要忽視

袁醫(yī)生課堂
2026-03-08 09:33:05
教師將過(guò)剩633.7萬(wàn)人,編制紅利迅速消退

教師將過(guò)剩633.7萬(wàn)人,編制紅利迅速消退

黯泉
2026-03-07 20:32:18
81歲潘迎紫:身段保養(yǎng)好年輕,曾拒絕前夫復(fù)合,離婚47年活得清醒

81歲潘迎紫:身段保養(yǎng)好年輕,曾拒絕前夫復(fù)合,離婚47年活得清醒

以茶帶書
2026-03-13 18:07:54
蘋果因“缺乏創(chuàng)新價(jià)值”否決翻蓋式iPhone Fold方案,最終鎖定書本式折疊設(shè)計(jì)

蘋果因“缺乏創(chuàng)新價(jià)值”否決翻蓋式iPhone Fold方案,最終鎖定書本式折疊設(shè)計(jì)

環(huán)球網(wǎng)資訊
2026-03-11 12:22:06
2026-03-14 02:39:00
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動(dòng)型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

龍蝦熱卷到AI硬件 “無(wú)腦”硬件或被淘汰

頭條要聞

穆杰塔巴"亮相"沒(méi)講話 伊朗學(xué)者:其處境可能非常危險(xiǎn)

頭條要聞

穆杰塔巴"亮相"沒(méi)講話 伊朗學(xué)者:其處境可能非常危險(xiǎn)

體育要聞

叕戰(zhàn)奧運(yùn),張雨霏要做回“小將”

娛樂(lè)要聞

廣電總局公布演員將用姓氏筆畫定番位

財(cái)經(jīng)要聞

“十五五”規(guī)劃綱要,全文來(lái)了!

汽車要聞

置換補(bǔ)貼價(jià)8.68萬(wàn) 五菱繽果S 525km旗艦款上市

態(tài)度原創(chuàng)

房產(chǎn)
本地
藝術(shù)
旅游
公開(kāi)課

房產(chǎn)要聞

不容易??!??诮K于又要賣地了!

本地新聞

坐標(biāo)北京,過(guò)敏季反向遷徒

藝術(shù)要聞

她的美,竟是用粉彩描繪的,太震撼了!

旅游要聞

春滿來(lái)鳳山,花開(kāi)迎客忙!騰沖茶花基地13萬(wàn)游人踏春“打卡”

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版