国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

工信部測試報(bào)告(全文)AI 大模型智能體哪家強(qiáng)?

0
分享至

作者|子川

來源|AI先鋒官

關(guān)于大模型智能體哪家強(qiáng)這個(gè)問題終于有一個(gè)明確的答案啦!最近,由國家工業(yè)信息安全發(fā)展研究中心賽昇實(shí)驗(yàn)室牽頭,給阿里云百煉、騰訊云智能體開發(fā)平臺(tái)、扣子及百度智能云千帆安排一場測試。不再是看數(shù)據(jù),而是測試實(shí)際場景的表現(xiàn)。

此次測試圍繞RAG、工作流和Agent三大核心維度展開,涵蓋政府、電商、電力等多個(gè)場景。

測試標(biāo)準(zhǔn)非常嚴(yán)謹(jǐn),統(tǒng)一采用DeepSeek R1進(jìn)行推理,DeepSeek V3進(jìn)行問答。數(shù)據(jù)上,30份文本(10萬字級(jí))、5張結(jié)構(gòu)化表格(1.5萬+記錄)、10組圖文,構(gòu)成600+問題的試卷,外加13條端到端流程,從網(wǎng)頁到API,全程監(jiān)控表現(xiàn)。得到的結(jié)論很直接。

  • RAG領(lǐng)域文本理解已基本定型,但結(jié)構(gòu)化數(shù)據(jù)分析和多模態(tài)協(xié)同仍是行業(yè)共同的“軟肋”。

  • 工作流領(lǐng)域功能基本可用,但仍需精細(xì)調(diào)優(yōu),參數(shù)的動(dòng)態(tài)捕獲和異;貪L機(jī)制,是衡量其智能程度的關(guān)鍵指標(biāo)。

  • Agent領(lǐng)域其能力的上限,在于工具生態(tài)的豐富度和工程實(shí)現(xiàn)的魯棒性。多工具的協(xié)同作戰(zhàn)能力和任務(wù)的閉環(huán)完成度,直接決定了用戶體驗(yàn)的高度。

四家平臺(tái)的測試結(jié)果成功出爐了,有人歡喜,有人愁。

阿里云百煉

優(yōu)勢:結(jié)構(gòu)化數(shù)據(jù)接入、參數(shù)提取和工作流流程控制穩(wěn)健,底層架構(gòu)成熟。

需提升:純文本RAG處理結(jié)構(gòu)化數(shù)據(jù)局限,圖文問答和部分工具調(diào)用穩(wěn)定性有待提高。

騰訊云智能體開發(fā)平臺(tái)

優(yōu)勢:端到端流程打通,原生工具鏈完善,在多工具協(xié)同、參數(shù)提取及流程容錯(cuò)上表現(xiàn)均衡領(lǐng)先。RAG在知識(shí)庫外問題拒答率高,圖文配圖回答率領(lǐng)先。

需提升:RAG多表查詢偶有偏差,工作流意圖識(shí)別精細(xì)度可優(yōu)化。

扣子

優(yōu)勢:輕量化插件系統(tǒng)與靈活工作流節(jié)點(diǎn)組合,開發(fā)效率高。

需提升:RAG多文檔信息有遺漏,結(jié)構(gòu)化數(shù)據(jù)問答和API調(diào)用穩(wěn)定性需補(bǔ)強(qiáng);工作流參數(shù)提取和意圖識(shí)別有待加強(qiáng);Agent圖表顯示存在技術(shù)瑕疵。

百度智能云千帆

優(yōu)勢:結(jié)構(gòu)化引擎與跨表聚合能力扎實(shí),自有生態(tài)工具整合度高。

需提升:R AG圖文問答存在流程bug,工作流參數(shù)提取仍需加強(qiáng);Agent圖表生成需用戶手動(dòng)轉(zhuǎn)化,多工具協(xié)同完整性及工具調(diào)用穩(wěn)定性有提升空間。

下面是完整的報(bào)告。


一、測試概述(1)測試背景與核心內(nèi)容

在產(chǎn)業(yè)智能化轉(zhuǎn)型加速的背景下,大模型驅(qū)動(dòng)的智能體(Agent)已形成多場景滲透態(tài)勢。智能體因其具備知識(shí)增強(qiáng)、流程編排和智能決策等核心能力,正重塑企業(yè)級(jí)服務(wù)的技術(shù)生態(tài)。

為用戶更好地了解大模型智能體典型場景應(yīng)用情況,對(duì)智能體開發(fā)平臺(tái)(以下簡稱“平臺(tái)”)技術(shù)實(shí)現(xiàn)路徑與行業(yè)適配機(jī)制進(jìn)行研究。

本次測試選取阿里云百煉、騰訊云智能體開發(fā)平臺(tái)、扣子及百度智能云千帆四個(gè)典型智能體開發(fā)平臺(tái)的個(gè)人電腦端,圍繞業(yè)務(wù)智能化的驅(qū)動(dòng)能力展開測試。

結(jié)合智能體的技術(shù)演進(jìn)態(tài)勢和行業(yè)應(yīng)用實(shí)踐,本報(bào)告確立RAG能力、工作流能力、智能體工具調(diào)用三個(gè)關(guān)鍵能力維度進(jìn)行測試評(píng)估。

1.RAG能力測試:RAG能力評(píng)估重點(diǎn)考察平臺(tái)的知識(shí)增強(qiáng)機(jī)制,旨在驗(yàn)證RAG在真實(shí)業(yè)務(wù)場景中的綜合表現(xiàn),包括知識(shí)檢索精度、邏輯推理能力以及用戶體驗(yàn)的平衡性。

重點(diǎn)評(píng)估三個(gè)維度:

一是多模態(tài)知識(shí)處理能力:包括文本、表格、圖文等不同類型載體的處理:

二是任務(wù)復(fù)雜度適應(yīng)能力:蓋從單點(diǎn)信息提取到跨文檔關(guān)聯(lián)推理的不同難度層級(jí);

三是交互機(jī)制完備性:包含拒處理、澄清反饋、湖源引用等關(guān)鍵功能。

2.工作流(Workflow)能力測試:工作流能力重點(diǎn)考察復(fù)雜場景下平臺(tái)的流程控制機(jī)制,評(píng)估多輪對(duì)話中的流程穩(wěn)定性與控制精度。

以智能客服典型業(yè)務(wù)場景的訂單咨詢、退換貨等能力為研究對(duì)象,聚焦參數(shù)動(dòng)態(tài)提取、異;赝恕⒁鈭D識(shí)別與容錯(cuò)處理等關(guān)鍵智能性。

3.Agent 能力測試:Agent能力圍繞工具調(diào)用智能化水平與復(fù)雜任務(wù)處理體驗(yàn),考察單工具邏輯判斷、多工具協(xié)同及提示詞指令執(zhí)行能力,驗(yàn)證智能體對(duì)內(nèi)外部工具調(diào)用協(xié)同的意圖識(shí)別、選擇科學(xué)性與答案整合效果。

(二)測試方法與數(shù)據(jù)說明

本節(jié)圍繞智能體開發(fā)平臺(tái)核心能力評(píng)估,系統(tǒng)闡述了測試方法與數(shù)據(jù)情況。

研究通過構(gòu)建貼合企業(yè)級(jí)服務(wù)典型業(yè)務(wù)場景的標(biāo)準(zhǔn)化框架,結(jié)合多態(tài)測試數(shù)據(jù)集、統(tǒng)一配置的智能體/工作流、綜合性問題集,以及多樣化調(diào)用與過程采集方式,實(shí)現(xiàn)對(duì)平臺(tái)核心能力的系統(tǒng)測試與分析;

同時(shí)明確了測試涉及的基礎(chǔ)知識(shí)數(shù)據(jù)與響應(yīng)結(jié)果數(shù)據(jù)的具體構(gòu)成、來源及特征,為后續(xù)研究的科學(xué)性與可靠性奠定了方法與數(shù)據(jù)基礎(chǔ)。

1.測試方法

本次測試基于模擬真實(shí)應(yīng)用場景,構(gòu)建標(biāo)準(zhǔn)化測試框架實(shí)現(xiàn)對(duì)大模型驅(qū)動(dòng)的智能體開發(fā)平臺(tái)核心能力的系統(tǒng)測試、比對(duì)、分析。

場景構(gòu)建方法。場景構(gòu)建選取企業(yè)級(jí)服務(wù)中的客戶服務(wù)、訂單處理、知識(shí)問答等典型業(yè)務(wù)場景,精準(zhǔn)還原真實(shí)業(yè)務(wù)流程中的交互邏輯與任務(wù)需求,以此保障測試場景與實(shí)際業(yè)務(wù)的高度貼合。

數(shù)據(jù)集構(gòu)建方法。數(shù)據(jù)集構(gòu)建針對(duì)多模態(tài)知識(shí)處理需求,構(gòu)建包含政策文檔、業(yè)務(wù)規(guī)范等純文本,訂單數(shù)據(jù)、客戶信息等結(jié)構(gòu)化表格,產(chǎn)品說明、操作指南等圖文數(shù)據(jù)的測試數(shù)據(jù)集,實(shí)現(xiàn)對(duì)不同知識(shí)載體類型與業(yè)務(wù)領(lǐng)域的全面覆蓋。

智能體/工作流配置方法。智能體/工作流配置依據(jù)各智能體的技術(shù)架構(gòu),在線配置相應(yīng)的智能體與工作流模塊。推理模型統(tǒng)一設(shè)定為DeepSeekRl,問答模型統(tǒng)一設(shè)定為 DeepSeekV3,其余參數(shù)采用系統(tǒng)默認(rèn)設(shè)置。

僅對(duì)影響核心能力評(píng)估的關(guān)鍵配置進(jìn)行必要對(duì)齊(若部分智能體默認(rèn)模型無法切換,則保留其默認(rèn)配置)。

測試問題及設(shè)計(jì)方法。測試問題集設(shè)計(jì)以行業(yè)真實(shí)業(yè)務(wù)流程和應(yīng)用場景為依托,圍繞三大核心能力維度,設(shè)計(jì)包含15個(gè)測試項(xiàng)、600+測試問題的綜合性問題集眚煩箏様企個(gè)銜匏屁問題均標(biāo)注對(duì)應(yīng)能力維度與預(yù)期輸出,作為評(píng)估基準(zhǔn)。

調(diào)用與過程采集方法。調(diào)用與過程采集通過網(wǎng)頁交互與API接口調(diào)用兩種方式,模擬用戶操作與系統(tǒng)集成場景,采集各智能體在問題處理過程中的響應(yīng)結(jié)果及流程軌跡,為后續(xù)的統(tǒng)計(jì)分析提供便利。

2.數(shù)據(jù)說明

本次測試使用及產(chǎn)生的數(shù)據(jù)主要包含基礎(chǔ)知識(shí)數(shù)據(jù)、響應(yīng)結(jié)果數(shù)據(jù)。

基礎(chǔ)知識(shí)數(shù)據(jù)說明。基礎(chǔ)知識(shí)涵蓋政府、電商、電力3個(gè)行業(yè)的業(yè)務(wù)資料,包括純文本文檔 30份(總字?jǐn)?shù)約10萬字)、結(jié)構(gòu)化表格5張(含15000+條記錄)、圖文內(nèi)容10組(含產(chǎn)品圖、流程圖等)。數(shù)據(jù)來源為公開政策文件、行業(yè)報(bào)告及模擬業(yè)務(wù)場景生成的標(biāo)準(zhǔn)化資料,確保數(shù)據(jù)的典型性與可控性。

響應(yīng)結(jié)果坼嗩軒據(jù)說明。響應(yīng)結(jié)果包括文本生成內(nèi)容、知識(shí)來源引用、流程參數(shù)變忸胄鴎堅(jiān)諍慰壕氹茂工?瞓殍具調(diào)用記錄等,數(shù)據(jù)記錄涵蓋時(shí)間戳、處理狀態(tài)、錯(cuò)誤信息等元數(shù)據(jù),為能力分析提供完整軌跡。

(三)免責(zé)聲明

測試時(shí)效性說明。本測試開展時(shí)間為2025年5月20日-2025年6月15日,所有準(zhǔn)確率計(jì)算方法見附件,所有計(jì)算結(jié)果限于測試時(shí)間內(nèi)成立。

測試限制性說明。本測試基于特定模型版本與測試場景,實(shí)際應(yīng)用效果可能因業(yè)務(wù)需求、配置調(diào)整及技術(shù)迭代產(chǎn)生差異。測試結(jié)果不構(gòu)成任何商業(yè)推薦,用戶需結(jié)合自身場景進(jìn)行獨(dú)立驗(yàn)證與選型決策,

測試缺陷性說明。本測試僅針對(duì)各平臺(tái)用戶終端小樣本體驗(yàn),有可能存在數(shù)據(jù)缺失、技術(shù)環(huán)境不完全、樣品版本 bug等缺陷限制。

本次測試最終解釋權(quán)歸國家工業(yè)信息安全發(fā)展研究中心賽昇實(shí)驗(yàn)室所有。

一、RAG 能力測試

RAG 定義:英文全稱是Retrieval-AugmentedGeneration,中文全稱是檢索增強(qiáng)生成。

是一種通過數(shù)據(jù)檢索改進(jìn)模型內(nèi)容生成效果的技術(shù)方案,它引入來自外掛向量數(shù)據(jù)庫、知識(shí)圖譜或網(wǎng)絡(luò)的數(shù)據(jù),對(duì)原始問題補(bǔ)充增強(qiáng)后輸入給大模型,有效緩解幻覺問題,并提高知識(shí)更新速度與生成可追溯性(來源:微軟研究院)。

(一)RAG 測試采用指標(biāo)

本次測試對(duì)RAG 能力的評(píng)估從檢索精準(zhǔn)度、知識(shí)覆蓋廣度等六大核心維度展開。

一是檢索精準(zhǔn)度,衡量召回相關(guān)文檔的準(zhǔn)確率與冗余信息過濾能力;

二是知識(shí)覆蓋廣度,評(píng)估對(duì)領(lǐng)域內(nèi)知識(shí)的覆蓋完整性及邊緣信息的處理能力;

三是推理融合度,考察將檢索結(jié)果與問題深度結(jié)合、生成邏輯連貫回答的水平;

四是時(shí)效性響應(yīng)關(guān)注檢索與生成的整體效率及動(dòng)態(tài)知識(shí)更新適配性;

五是多模態(tài)適配性,檢驗(yàn)對(duì)文本、表格、圖片等多元數(shù)據(jù)的處理能力;

六是魯棒性表現(xiàn),評(píng)估面對(duì)模糊問題、噪聲數(shù)據(jù)時(shí)的容錯(cuò)與修正能力。

(二)測試實(shí)施

本次測試重點(diǎn)探索RAG在深度行業(yè)場景中的落地能力,構(gòu)建了基于知識(shí)載體多樣性、任務(wù)復(fù)雜度與機(jī)制完備性的三維評(píng)估體系。選取政策咨詢、電商客服、銷售數(shù)據(jù)分析等6個(gè)典型場景,構(gòu)建500+個(gè)高質(zhì)量問題集。測試任務(wù)具體設(shè)計(jì)以文本問答、結(jié)構(gòu)化數(shù)據(jù)問答及圖文問答為主。

1.文本問答任務(wù)。在檢驗(yàn)RAG知識(shí)整合與意圖理解方面,綜合設(shè)置了包含單文檔查詢、多文檔交叉驗(yàn)證、邊緣案例等任務(wù)形式;在檢驗(yàn)智能體交互魯棒性方面融入語義模糊問題、知識(shí)庫外問題及多輪對(duì)話。

2.結(jié)構(gòu)化數(shù)據(jù)問答任務(wù)。為考察RAG結(jié)構(gòu)化數(shù)據(jù)處理能力,基于訂單數(shù)據(jù)表與SKU表,設(shè)計(jì)單表查詢、多表關(guān)聯(lián)統(tǒng)計(jì)等復(fù)雜任務(wù)。

3.圖文問答任務(wù)。為考察RAG的0CR圖片文字識(shí)別技術(shù)、多模態(tài)內(nèi)容關(guān)聯(lián)與配圖回答能力,設(shè)置圖片內(nèi)容識(shí)別、圖表關(guān)聯(lián)檢索、多態(tài)信息融合等任務(wù)。

(三)文本問答任務(wù)

實(shí)際測試時(shí),設(shè)計(jì)專精特新政策咨詢以及電商客服規(guī)定查詢兩種場景,問題設(shè)計(jì)聚焦單文檔精確定位、多文檔交叉驗(yàn)證與綜合、語義模糊意圖理解、知識(shí)庫外問題拒答機(jī)制等能力維度,旨在全面檢驗(yàn)RAG系統(tǒng)在純文本領(lǐng)域的檢索、理解、整合與生成能力。

1.文本處理能力表現(xiàn)優(yōu)異

各平臺(tái)在文本問題處理上展現(xiàn)出較強(qiáng)的準(zhǔn)確性,純文本問題得分普遍較高:均能實(shí)現(xiàn)意圖識(shí)別,并在知識(shí)庫中定位對(duì)應(yīng)文檔、合理組織反饋。單文檔問題少量丟分,主要源于回答不完整或存在少量“幻覺”信息。

多文檔文本問題表現(xiàn)良好,所有模型回復(fù)準(zhǔn)確率超 80%,丟分主因是多文檔結(jié)合時(shí)存在少量信息遺漏,導(dǎo)致回答不夠全面。個(gè)別平臺(tái)調(diào)用結(jié)果穩(wěn)定性不足,如扣子在進(jìn)行API調(diào)用時(shí),有一定比例的內(nèi)容無法從知識(shí)庫獲取,而其網(wǎng)頁端提問可正確回答。

2.拒答與澄清追問處理差異化

在采用同樣拒答配置情況下,騰訊云智能體開發(fā)平臺(tái)對(duì)知識(shí)庫中不存在的問題實(shí)現(xiàn) 100%拒答,其他平臺(tái)則出現(xiàn)不同程度基于模型知識(shí)而非知識(shí)庫內(nèi)容的回復(fù)。

面對(duì)需要澄清和追問的問題,各平臺(tái)均傾向于直接提供所有相關(guān)信息供用戶參考,其中扣子對(duì)于所有問題均未給出追問清,但在多數(shù)場景也可以符合用戶需求。


3.來源引用策略傾向提供全面信息

在默認(rèn)配置下,四個(gè)平臺(tái)在來源引用方面都傾向于盡可能提供全面的參考信息。特別是在處理多文檔問題時(shí),雖然這種做法可能導(dǎo)致一定程度的信息余,但能夠通過多源佐證幫助用戶更全面地理解信息背景。

(四)結(jié)構(gòu)化數(shù)據(jù)問答任務(wù)

本次測試圍繞銷售數(shù)據(jù)分析場景,基于實(shí)際訂單表與在售商品SKU表數(shù)據(jù),針對(duì)單表查詢、單表統(tǒng)計(jì)、多表匹配查詢、多表匹配統(tǒng)計(jì)4類典型任務(wù)展開,考察平臺(tái)結(jié)構(gòu)化數(shù)據(jù)處理能力。

鑒于RAG在復(fù)雜數(shù)據(jù)分析場景的局限性,當(dāng)前主流平臺(tái)均對(duì)結(jié)構(gòu)化數(shù)據(jù)分析場景進(jìn)行了優(yōu)化:阿里云百煉、百度智能云千帆與扣子均設(shè)置了獨(dú)立的結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入模塊,通過字段類型預(yù)定義、格式標(biāo)準(zhǔn)化等機(jī)制強(qiáng)化數(shù)據(jù)規(guī)范性。其中,阿里云百煉和扣子進(jìn)一步設(shè)計(jì)數(shù)據(jù)庫插件,支持多表關(guān)聯(lián)查詢與動(dòng)態(tài)計(jì)算。而騰訊云智能體開發(fā)平臺(tái)則采用后臺(tái)自動(dòng)化處理方案,簡化用戶操作但弱化了過程可控性。


根據(jù)測試數(shù)據(jù)分析,各平臺(tái)表現(xiàn)差異的關(guān)鍵因素在于其對(duì)處理流程的調(diào)優(yōu)精細(xì)程度。

從結(jié)果返回看,阿里云百煉仍然是基于文檔切片,在跨表關(guān)聯(lián)、多條件組合統(tǒng)計(jì)時(shí)易出現(xiàn)信息遺漏與聚合誤差,凸顯純文本檢索模式對(duì)結(jié)構(gòu)化分析場景的適配局限;

騰訊云智能體開發(fā)平臺(tái)單表查詢表現(xiàn)優(yōu)異,但在多表查詢時(shí)存在SL查詢未能正確執(zhí)行的情況,導(dǎo)致返回結(jié)果出現(xiàn)偏差;扣子在部分場景下存在自然語言到結(jié)構(gòu)化查詢的轉(zhuǎn)換問題,主要表現(xiàn)為邏輯條件遺漏或語義理解偏差,從而導(dǎo)致返回結(jié)果異常;

百度智能云千帆在單表統(tǒng)計(jì)、多表關(guān)聯(lián)等任務(wù)中表現(xiàn)穩(wěn)定,體現(xiàn)了其結(jié)構(gòu)化引擎能較好處理復(fù)雜條件篩選與跨表聚合。

通過自然語言交互實(shí)現(xiàn)對(duì)復(fù)雜數(shù)據(jù)的操作仍是行業(yè)共性挑戰(zhàn)。研究表明,各平臺(tái)在嵌套條件解析(如“銷售額前五且?guī)齑娴陀诰渲档纳唐贰?、字段格式容錯(cuò)(如中英文標(biāo)點(diǎn)混用)以及多表路徑推導(dǎo)等任務(wù)中均存在失誤,反映出語義理解與結(jié)構(gòu)化計(jì)算協(xié)同的不足。

此類問題暴露出當(dāng)前技術(shù)需進(jìn)一步優(yōu)化的方向:一方面需增強(qiáng)自然語言到查詢語句的精準(zhǔn)映射能力,建立上下文感知與模糊匹配機(jī)制;另一方面需強(qiáng)化字段格式兼容性校驗(yàn),通過預(yù)處理與后驗(yàn)證雙環(huán)節(jié)來保障數(shù)據(jù)分析的可靠性。

(五)圖文問答任務(wù)

圖文問答任務(wù)場景設(shè)計(jì)為風(fēng)電行業(yè)市場與技術(shù)資料分析,采用各平臺(tái)默認(rèn)推薦的多模態(tài)模型,主要考察圖片提問與配圖回答能力,以及顯式/非顯式調(diào)用情況下圖片輸出的準(zhǔn)確性與完整性。

1.具備圖片解析與文字識(shí)別的底層技術(shù)基礎(chǔ)

各平臺(tái)均具備成熟的 0CR圖片文字識(shí)別技術(shù),能夠有效解析圖片內(nèi)容并識(shí)別用戶提問意圖,但在研究場景下的實(shí)際表現(xiàn)存在一定差異:阿里云百煉(91.7%)、騰訊云智能體開發(fā)平臺(tái)(83.3%)、扣子(83.3%)對(duì)圖片提問的識(shí)別能力較強(qiáng),而百度智能云千帆識(shí)別率低的原因在于流程bug(3次不同時(shí)段測試綜合結(jié)果),未能成功調(diào)用已上傳的圖片,導(dǎo)致圖片解析鏈路斷裂。

在基于文檔的圖片定位任務(wù)中,所有平臺(tái)均無法準(zhǔn)確檢索儲(chǔ)能逆變器PCS等特定技術(shù)圖片的關(guān)聯(lián)信息,暴露多模態(tài)的場景優(yōu)化深度仍有提升空間。


2.多模態(tài)內(nèi)容關(guān)聯(lián)與配圖回答率分化

各平臺(tái)配圖回答率呈現(xiàn)梯度差異:騰訊云智能體開發(fā)平臺(tái)在顯式/非顯式調(diào)用場景下以 55%的正確回答率領(lǐng)先,百度智能云千帆存在圖片顯示故障但文檔定位邏輯正確,而阿里云百煉因網(wǎng)頁端圖片顯示異常導(dǎo)致配圖正確率為0%(3次不同時(shí)段測試綜合結(jié)果)。研究顯示,顯式調(diào)用圖片指令可提升輸出比率,表明用戶交互設(shè)計(jì)對(duì)多模態(tài)輸出效果存在直接影響。


3.圖片輸出質(zhì)量控制機(jī)制存在普遍性缺失

各平臺(tái)在圖片輸出環(huán)節(jié)均出現(xiàn)內(nèi)容校驗(yàn)失效問題,典型表現(xiàn)為返回與答案無關(guān)的頁面裝飾性圖片而非業(yè)務(wù)場景所需的技術(shù)圖表,反映當(dāng)前平臺(tái)缺乏對(duì)輸出圖片內(nèi)容相關(guān)性和準(zhǔn)確性的有效校驗(yàn)機(jī)制。


三、工作流能力測試

工作流定義:一類能夠完全自動(dòng)執(zhí)行的經(jīng)營過程,根據(jù)一系列預(yù)設(shè)的過程規(guī)則,將文檔、信息或任務(wù)在不同的執(zhí)行者之間進(jìn)行傳遞與執(zhí)行(來源:國際工作流管理聯(lián)盟(Workflow Management Coalition,WfMC)。其本質(zhì)是為復(fù)雜任務(wù)提供標(biāo)準(zhǔn)化、可預(yù)測的執(zhí)行框架,尤其在需要嚴(yán)格步驟控制的業(yè)務(wù)場景中展現(xiàn)不可替代的價(jià)值。

(一)工作流測試采用指標(biāo)

本次測試對(duì)工作流能力的評(píng)估從參數(shù)動(dòng)態(tài)提取、異常回退等四大核心維度展開一是參數(shù)動(dòng)態(tài)提取,評(píng)估從對(duì)話中精準(zhǔn)識(shí)別訂單號(hào)、地址等關(guān)鍵信息的能力;二是異常回退,檢驗(yàn)參數(shù)修改或意圖切換時(shí)流程回復(fù)與狀態(tài)恢復(fù)的穩(wěn)定性;三是意圖識(shí)別,考察區(qū)分咨詢、操作等用戶真實(shí)意圖的準(zhǔn)確性;四是容錯(cuò)處理,驗(yàn)證對(duì)模糊表述、混淆信息等異常輸入的包容與修正能力。同時(shí)關(guān)注端到端流程準(zhǔn)確率、參數(shù)提取成功率等指標(biāo),全面衡量復(fù)雜場景下的流程控制精度。

(二)測試實(shí)施

工作流能力測試以訂單修改為核心場景,基于包含13條端到端工作流、共計(jì)80+個(gè)問題的問題集,全面覆蓋參數(shù)提取、回退、意圖識(shí)別及流程容錯(cuò)四個(gè)關(guān)鍵環(huán)節(jié)。測試通過模擬用戶在多輪對(duì)話中的多樣化需求,如一般咨詢、修改配送地址、訂單退貨等,同時(shí)故意引入“盡快送達(dá)”等模糊表述以及“放棄修改并取消訂單”等意圖切換情況,著重驗(yàn)證系統(tǒng)在參數(shù)動(dòng)態(tài)管理與流程控制方面的穩(wěn)定性。在測試過程中,詳細(xì)記錄了端到端流程準(zhǔn)確率、參數(shù)提取成功率及意圖識(shí)別率等關(guān)鍵指標(biāo)深入分析不同平臺(tái)在異常輸入下的容錯(cuò)能力與恢復(fù)能力。

各平臺(tái)工作流核心能力表現(xiàn)如下:


測試數(shù)據(jù)顯示,各平臺(tái)在意圖識(shí)別環(huán)節(jié)均保持較高水平,流程終止節(jié)點(diǎn)判斷準(zhǔn)確率達(dá)100%。

參數(shù)提取環(huán)節(jié)表現(xiàn)分化,阿里云百煉與騰訊云智能體開發(fā)平臺(tái)提取準(zhǔn)確率為 75.0%,高于百度智能云千帆與扣子,差異主要體現(xiàn)在混淆信息中訂單號(hào)等關(guān)鍵字段的識(shí)別效果。

端到端流程準(zhǔn)確率方面,阿里云百煉和騰訊云智能體開發(fā)平臺(tái)準(zhǔn)確率接近 70%,扣子和百度智能云千帆略低,這一差異主要源于參數(shù)提取節(jié)點(diǎn)的影響。

整體來看,各平臺(tái)在工作流節(jié)點(diǎn)執(zhí)行層面均能達(dá)成基礎(chǔ)功能要求,但在復(fù)雜信息處理場景下的技術(shù)實(shí)現(xiàn)深度與節(jié)點(diǎn)細(xì)節(jié)調(diào)優(yōu)水平存在一定差異。

結(jié)合典型錯(cuò)誤案例進(jìn)一步分析,在意圖識(shí)別方面,除扣子外,其他平臺(tái)都會(huì)出現(xiàn)“什么情況下,可以退貨?”直接判定為退貨意圖并進(jìn)入退貨流程,而非輸出退貨相關(guān)流程信息,

這體現(xiàn)出部分平臺(tái)在意圖識(shí)別的精細(xì)度上存在不足,未能準(zhǔn)確區(qū)分咨詢意圖與操作意圖。

在參數(shù)提取方面,百度智能云千帆、扣子在面對(duì)復(fù)雜長段文字中存在混淆信息的情況,無法正確提取多處出現(xiàn)的訂單編號(hào),而是直接輸出提示詞中的示例訂單編號(hào),暴露出僅依賴大模型進(jìn)行參數(shù)提取在復(fù)雜場景下的局限性,


綜合以上數(shù)據(jù)分析結(jié)果,可以發(fā)現(xiàn):

1.工作流具備基礎(chǔ)可用性但仍有提升空間

各平臺(tái)工作流已具備基礎(chǔ)可用性,在合理配置下能滿足電商客服等復(fù)雜場景的基礎(chǔ)需求。各平臺(tái)整體得分差異不大,不過該得分基于基本一致的默認(rèn)配置得出,若經(jīng)過精細(xì)化調(diào)整,其表現(xiàn)仍有提升空間。例如百度智能云千帆和扣子在參數(shù)提取環(huán)節(jié)針對(duì)多訂單、地址等信息提取的失分項(xiàng),可通過整合代碼工具等方式加以改進(jìn)。

2.不同平臺(tái)在工作流配置上呈現(xiàn)多維度差異化設(shè)計(jì)

各平臺(tái)的工作流配置均根據(jù)自身產(chǎn)品特性進(jìn)行了深度優(yōu)化,通過個(gè)性化模塊設(shè)計(jì),重點(diǎn)圍繞大模型能力調(diào)用、工具集成適配和邏輯流程編排等關(guān)鍵維度展開。

一個(gè)典型差異體現(xiàn)在對(duì)于“任務(wù)流”和“對(duì)話流”的處理:

阿里云百煉和扣子從工作流創(chuàng)建階段就將對(duì)話管理系統(tǒng)與任務(wù)執(zhí)行引警分離,百度智能云千帆和騰訊云智能體開發(fā)平臺(tái)則采用融合設(shè)計(jì)。

其中,騰訊云智能體開發(fā)平臺(tái)通過全局Agent機(jī)制實(shí)現(xiàn)實(shí)時(shí)對(duì)話交互管理、上下文參數(shù)自動(dòng)提取、流程狀態(tài)智能監(jiān)控,并支持參數(shù)回退、對(duì)話終止等復(fù)雜場景的智能識(shí)別和處理,

另外一個(gè)典型差異體現(xiàn)在節(jié)點(diǎn)封裝方面:騰訊云智能體開發(fā)平臺(tái)將“參數(shù)提取”獨(dú)立抽象為單獨(dú)節(jié)點(diǎn):阿里云百煉與百度智能云千帆分別提供獨(dú)立的MCP(ModelContext Protocol,模型上下文協(xié)議)節(jié)點(diǎn)組件;扣子則構(gòu)建了包含9組近40個(gè)節(jié)點(diǎn)類型的豐富矩陣。

這些差異化設(shè)計(jì)既影響了用戶配置的操作門檻與使用體驗(yàn),也在場景適配性上形成了不同側(cè)重,使得各平臺(tái)在流程搭建、功能調(diào)試、場景落地等操作環(huán)節(jié)中,展現(xiàn)出各具特色的優(yōu)勢與局限性。


總之,當(dāng)前工作流系統(tǒng)仍定位為輔助決策工具,其運(yùn)行邏輯無法完全脫離業(yè)務(wù)人員的專業(yè)判斷,否則極易引發(fā)流程斷點(diǎn)或業(yè)務(wù)邏輯處理錯(cuò)誤。

從配置層面看,工作流的搭建需要操作人員同時(shí)具備業(yè)務(wù)場景理解能力與大模型技術(shù)認(rèn)知能力,這種雙重知識(shí)儲(chǔ)備的要求形成了較高的使用門檻。

即便在經(jīng)過抽象簡化的測試場景中,參數(shù)提取偏愀外差、意圖識(shí)別誤差等問題仍可能出現(xiàn),這進(jìn)一步凸顯了人工千預(yù)在復(fù)雜業(yè)務(wù)處理中的不可替代性--無論是流程規(guī)則的精細(xì)化調(diào)校,還是異常場景的柔性處置,均需專業(yè)人員結(jié)合業(yè)務(wù)經(jīng)驗(yàn)與技術(shù)特性進(jìn)行動(dòng)態(tài)校準(zhǔn)。

四、Agent 能力測試

智能體 Agent定義:Agent是由大語言模型動(dòng)態(tài)編排自身工作流并自主調(diào)用工具以實(shí)現(xiàn)目標(biāo)的系統(tǒng)。其核心包含三個(gè)特征:感知、決策與行動(dòng),強(qiáng)調(diào)其在運(yùn)行時(shí)的自主性與工具擴(kuò)展性(來源:Anthropic)。

(一)Agent 測試采用指標(biāo)

本次測試重點(diǎn)評(píng)估智能體 Agent的工具調(diào)用能力,從四大維度展開。

一是意圖理解深度,衡量智能體對(duì)模糊指令、隱含需求及復(fù)雜表述的解析能力,包括多輪對(duì)話中的上下文延續(xù)性、語義歧義消解精度等:

二是操作協(xié)同性,評(píng)估用戶與智能體在任務(wù)拆解、工具調(diào)用等環(huán)節(jié)的配合流暢度,涉及步驟銜接自然度、用戶干預(yù)成本等;

三是反饋有效性,考察智能體輸出結(jié)果的可理解性、錯(cuò)誤提示的明確性及操作引導(dǎo)的實(shí)用性:四是機(jī)制完備性,檢驗(yàn)交互過程中的異常處理(如操作回退、功能解釋)等關(guān)鍵功能的覆蓋度。

測試通過構(gòu)建包含日常咨詢、復(fù)雜任務(wù)處理等典型場景的測試集,模擬不同用戶操作習(xí)慣與需求類型,采集交互軌跡與用戶反饋數(shù)據(jù),實(shí)現(xiàn)對(duì)Agent能力的系統(tǒng)測試。

(二)測試實(shí)施

當(dāng)前,智能體技術(shù)仍處于發(fā)展初期,其功能生態(tài)與工具鏈尚未完全成熟。

在此背景下,工具調(diào)用能力成為衡量智能體實(shí)用性的核心指標(biāo)之一。本次測試以DeepSeek R1為基礎(chǔ)模型,集成天氣查詢、數(shù)據(jù)分析、圖表生成等6大類通用工具設(shè)計(jì)40+筅廼刑個(gè)問題集,重點(diǎn)考查以下工具調(diào)用維度:

  1. 單工具調(diào)用:驗(yàn)證基礎(chǔ)意圖識(shí)別與工具匹配準(zhǔn)確性。

  2. 多工具協(xié)同:檢驗(yàn)任務(wù)分解與工具鏈?zhǔn)秸{(diào)用的完整性。

  3. 提示詞顯式調(diào)用:明確在對(duì)話中顯式指定調(diào)用工具的執(zhí)行效果。

測試過程中,通過標(biāo)準(zhǔn)化流程記錄單工具調(diào)用完成率、多工具調(diào)用完成率及提示詞調(diào)用完成率,重點(diǎn)分析智能體在工具選擇合理性、調(diào)用完成度方面的表現(xiàn)。

各平臺(tái)智能體能力對(duì)比如下:


在統(tǒng)一推理模型支撐下,各平臺(tái)智能體均構(gòu)建了基礎(chǔ)工具調(diào)度機(jī)制,實(shí)現(xiàn)從用戶需求到工具調(diào)用的邏輯映射。

例如,面對(duì)“規(guī)劃5月14日從北京出發(fā)到山西的5日假期行程”的指令,所有智能體均能識(shí)別“路徑規(guī)劃+天氣查詢+聯(lián)網(wǎng)搜索”的工具組合需求,展現(xiàn)出標(biāo)準(zhǔn)化的任務(wù)分解能力。

基礎(chǔ)推理模型的強(qiáng)邏輯能力保障了工具意圖識(shí)別的一致性,各平臺(tái)智能體在工具調(diào)用效果上的差異主要源于平臺(tái)級(jí)生態(tài)支撐與流程優(yōu)化水平。其中,騰訊云智能體開發(fā)平臺(tái)在本項(xiàng)測試中表現(xiàn)突出,工具本身的功能完整性與響應(yīng)穩(wěn)定性直接提升了調(diào)用成功率。

1.插件/工具生態(tài)成熟度與集成深度,生態(tài)綁定決定能力邊界。

各家平臺(tái)普遍依托自身既有生態(tài)進(jìn)行工具接入與能力編排:百度智能云千帆優(yōu)先整合百度文庫、百科、地圖等內(nèi)容與數(shù)據(jù)資產(chǎn),強(qiáng)化智能體的信息調(diào)取與生成支撐:騰訊云智能體開發(fā)平臺(tái)通過與騰訊文檔、騰訊地圖等原生工具的深度打通,構(gòu)建了較為完整的工具鏈結(jié)構(gòu);扣子以輕量化工具生態(tài)見長,支持快速插件開發(fā)和嵌入;阿里云百煉則聯(lián)動(dòng)釘釘、高德地圖等業(yè)務(wù)模塊,嘗試將智能體嵌入辦公、生活等實(shí)際場景中。

2.技術(shù)穩(wěn)健性與細(xì)節(jié)打磨,非核心邏輯短板影響端到端能力和用戶體驗(yàn)。

各平臺(tái)智能體均存在不同程度的工具調(diào)用流程斷點(diǎn)問題。如百度智能云千帆盡管能通過代碼解釋器生成圖表繪制代碼,但未將代碼執(zhí)行結(jié)果轉(zhuǎn)化為可視化圖表并直接輸出,需用戶額外操作,降低了多工具協(xié)同的完整性。


技術(shù)實(shí)現(xiàn)層面的瑕疵導(dǎo)致調(diào)用失敗或結(jié)果異常,影響最終輸出質(zhì)量和用戶體驗(yàn)如阿里云百煉、百度智能云千帆均出現(xiàn)過三方天氣/地圖工具認(rèn)證失敗導(dǎo)致調(diào)用中斷的情況;扣子在繪制數(shù)據(jù)圖表時(shí),存在由于字體問題導(dǎo)致中文標(biāo)簽無法顯示的現(xiàn)象。這些問題雖未影響基礎(chǔ)工具調(diào)用邏輯,但對(duì)最終結(jié)果輸出和用戶體驗(yàn)造成一定影響。


總的來看,當(dāng)前各平臺(tái)智能體仍處于通用工具整合的初級(jí)階段,在基礎(chǔ)意圖識(shí)別與單工具調(diào)用上已具備可用性,但在多工具深度協(xié)同、行業(yè)垂直工具適配及端到端流程閉環(huán)上仍有顯著提升空間。各平臺(tái)已搭建智能體能力的技術(shù)框架,但真正實(shí)現(xiàn)“工具即服務(wù)”的智能化調(diào)度,仍需在生態(tài)建設(shè)、流程閉環(huán)與細(xì)節(jié)優(yōu)化上持續(xù)投入。研究表明當(dāng)前發(fā)展的瓶頸分為多工具深度協(xié)同與自動(dòng)化閉環(huán)能力不足、技術(shù)實(shí)現(xiàn)穩(wěn)健性亟待加強(qiáng)以及行業(yè)垂直工具適配與生態(tài)廣度深度不足三點(diǎn)。

一是多工具深度協(xié)同與自動(dòng)化閉環(huán)能力不足。流程斷點(diǎn)(如圖表代碼執(zhí)行與呈現(xiàn)分離)是普遍存在的短板,阻礙了復(fù)雜任務(wù)的無縫完成和用戶體驗(yàn)的提升。

二是技術(shù)實(shí)現(xiàn)穩(wěn)健性亟待加強(qiáng)。鑒權(quán)失敗、渲染錯(cuò)誤等技術(shù)瑕疵雖不否定核心架構(gòu),但對(duì)實(shí)用性和可靠性構(gòu)成顯著挑戰(zhàn),需在工程層面重點(diǎn)投入。

三是行業(yè)垂直工具適配與生態(tài)廣度深度不足。當(dāng)前集成工具多為通用型,針對(duì)金融、醫(yī)療、工業(yè)等垂直領(lǐng)域的專業(yè)工具適配深度和覆蓋廣度遠(yuǎn)遠(yuǎn)不夠,限制了智能體在專業(yè)場景的落地價(jià)值。

各平臺(tái)智能體已成功搭建底層技術(shù)框架,證明了其可行性。然而,從“能調(diào)用工具”到真正實(shí)現(xiàn)“工具即服務(wù)”的智能化、自動(dòng)化、高可靠的服務(wù)調(diào)度與交付,仍需在生態(tài)建設(shè)、流程閉環(huán)、技術(shù)穩(wěn)健性以及垂直場景深耕上持續(xù)投入與突破。當(dāng)前正處于智能體實(shí)用化能力構(gòu)建的關(guān)鍵爬坡期,解決上述瓶頸是邁向下一階段成熟應(yīng)用的必經(jīng)之路。

五、總結(jié)與展望

從三大核心維度測試結(jié)果可見,當(dāng)前智能體開發(fā)平臺(tái)能力呈現(xiàn)“基礎(chǔ)能力趨同產(chǎn)品路徑分化”的競爭格局。各平臺(tái)在文本處理、流程控制等基礎(chǔ)場景已形成標(biāo)準(zhǔn)化能力,但在復(fù)雜場景處理、多模態(tài)協(xié)同及工具生態(tài)建設(shè)上表現(xiàn)出一定差異。

各平臺(tái)差異性主要體現(xiàn)在技術(shù)路徑選擇與工程實(shí)現(xiàn)深度上。阿里云百煉在結(jié)構(gòu)化數(shù)據(jù)接入、參數(shù)提取穩(wěn)定性及工作流流程控制等方面表現(xiàn)穩(wěn)健,體現(xiàn)了其底層架構(gòu)設(shè)計(jì)的成熟性與系統(tǒng)響應(yīng)的魯棒性.

百度智能云千帆在數(shù)據(jù)庫集成等細(xì)分能力上展現(xiàn)出一定優(yōu)勢;

扣子則以輕量化插件系統(tǒng)和靈活工作流節(jié)點(diǎn)組合,提升了開發(fā)效率與定制適配能力;

騰訊云智能體開發(fā)平臺(tái)則憑借端到端的流程打通能力和完善的原生工具鏈支持,在多工具協(xié)同調(diào)用、參數(shù)自動(dòng)提取與流程容錯(cuò)處理等多個(gè)維度均實(shí)現(xiàn)較為均衡的表現(xiàn)。


智能體開發(fā)平臺(tái)間競爭力的實(shí)質(zhì)已逐步由單點(diǎn)能力比拼轉(zhuǎn)向體系能力構(gòu)建。未來的發(fā)展將取決于三個(gè)關(guān)鍵路徑的持續(xù)演進(jìn)。

首先,場景深度適配是實(shí)現(xiàn)價(jià)值落地的前提。僅具備技術(shù)能力遠(yuǎn)不足以支撐復(fù)雜場景的業(yè)務(wù)化部署,智能體必須進(jìn)一步提升模型與真實(shí)任務(wù)需求之間的耦合精度圍繞特定行業(yè)、細(xì)分任務(wù)構(gòu)建標(biāo)準(zhǔn)化知識(shí)單元與任務(wù)模板,成為“從能用到好用”的關(guān)鍵一環(huán)。

其次,技術(shù)鏈厚度構(gòu)建決定智能體的系統(tǒng)執(zhí)行能力。大模型能力的釋放必須依賴穩(wěn)定的調(diào)用機(jī)制與閉環(huán)的流程體系。當(dāng)前部分平臺(tái)在節(jié)點(diǎn)設(shè)計(jì)、狀態(tài)控制與工具響應(yīng)穩(wěn)定性方面仍存在中斷或冗余路徑,需通過組件顆粒度優(yōu)化與自動(dòng)化控制鏈路增強(qiáng)系統(tǒng)韌性。

最后,生態(tài)廣度拓展將成為智能體可持續(xù)發(fā)展的關(guān)鍵變量。智能體能力的邊界不止于自身,而取決于其與外部MCP合作體系及開發(fā)者社群的連接能力。隨著開發(fā)者需求走向定制化與多行業(yè)融合,平臺(tái)必須進(jìn)一步釋放底層能力接口,推動(dòng)第三方工具插件接入標(biāo)準(zhǔn)化,并建設(shè)完備的開放工具市場,打造“平臺(tái)+生態(tài)”的雙輪驅(qū)動(dòng)能力體系。

總的來看,智能體開發(fā)平臺(tái)正處于能力體系構(gòu)建的關(guān)鍵爬坡期。當(dāng)前競爭尚未形成不可逾越的技術(shù)壁壘,未來能否構(gòu)建穩(wěn)定、可用、可擴(kuò)展的智能體服務(wù)體系,將決定平臺(tái)在產(chǎn)業(yè)智能化轉(zhuǎn)型進(jìn)程中的角色位次。以場景適配為牽引,以技術(shù)鏈完善為支撐,以生態(tài)擴(kuò)展為保障,唯有實(shí)現(xiàn)從“任務(wù)完成”向“任務(wù)統(tǒng)籌”再到“服務(wù)自治”的跨越,方能真正走出實(shí)驗(yàn)性應(yīng)用,邁入生產(chǎn)級(jí)交付。

掃碼邀請(qǐng)進(jìn)群,我們帶你一起來玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學(xué)一些AI搞錢技能。

往期文章回顧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
閑魚不愧是全國最大的黑市,網(wǎng)民:只有你想不到,沒有你買不到

閑魚不愧是全國最大的黑市,網(wǎng)民:只有你想不到,沒有你買不到

小熊侃史
2026-01-16 07:40:07
TOP14位身高170以上的女神,有顏有燈有演技

TOP14位身高170以上的女神,有顏有燈有演技

素然追光
2026-01-02 02:45:02
在美國買了房,房子是你的不假一旦你無力負(fù)擔(dān)房產(chǎn)稅照樣無家可歸

在美國買了房,房子是你的不假一旦你無力負(fù)擔(dān)房產(chǎn)稅照樣無家可歸

忠于法紀(jì)
2025-12-23 21:02:38
醫(yī)生發(fā)現(xiàn):天冷堅(jiān)持戴口罩的人,用不了多久,身體或會(huì)有5大變化

醫(yī)生發(fā)現(xiàn):天冷堅(jiān)持戴口罩的人,用不了多久,身體或會(huì)有5大變化

霹靂炮
2025-12-04 22:54:47
海港跟山東泰山熱身賽大比分輸球!主要還是陣容不整

海港跟山東泰山熱身賽大比分輸球!主要還是陣容不整

80后體育大蜀黍
2026-01-27 17:13:04
思想配得上苦難

思想配得上苦難

求實(shí)處
2026-01-26 22:20:03
芬蘭訪華目的達(dá)成!在離開中國前,奧爾波送上了一份“重磅大禮”

芬蘭訪華目的達(dá)成!在離開中國前,奧爾波送上了一份“重磅大禮”

安珈使者啊
2026-01-27 20:08:30
馬斯克大兒子:首富長子不做,換姓又變性別,在父親心中“死了”

馬斯克大兒子:首富長子不做,換姓又變性別,在父親心中“死了”

半身Naked
2026-01-27 21:58:33
1976年,張耀祠率人前往毛遠(yuǎn)新的住處,向其宣布:依據(jù)中央的決定,對(duì)你實(shí)施保護(hù)審查

1976年,張耀祠率人前往毛遠(yuǎn)新的住處,向其宣布:依據(jù)中央的決定,對(duì)你實(shí)施保護(hù)審查

寄史言志
2026-01-26 11:58:21
庫頁島有“三不”:不屬于中國、不像俄羅斯、不承認(rèn)過去

庫頁島有“三不”:不屬于中國、不像俄羅斯、不承認(rèn)過去

壹知眠羊
2026-01-13 07:14:17
每天2包煙,頓頓8兩白酒,70歲李琦跟去世前楊少華狀態(tài)如出一轍

每天2包煙,頓頓8兩白酒,70歲李琦跟去世前楊少華狀態(tài)如出一轍

以茶帶書
2026-01-11 13:55:14
投資20億!同程中心總部大廈開工,蘇州未來新地標(biāo)!

投資20億!同程中心總部大廈開工,蘇州未來新地標(biāo)!

GA環(huán)球建筑
2026-01-26 18:02:24
哇塞!神級(jí)交易!湖人,老鐵太夠意思啦!

哇塞!神級(jí)交易!湖人,老鐵太夠意思啦!

體育新角度
2026-01-27 17:02:29
男子在路上看見陌生阿姨穿著印有寓意“死亡”字母的衣服便善意提醒,男子:“我們的父母可能也不認(rèn)識(shí)英文”

男子在路上看見陌生阿姨穿著印有寓意“死亡”字母的衣服便善意提醒,男子:“我們的父母可能也不認(rèn)識(shí)英文”

觀威海
2026-01-27 17:18:20
二婚在即?趙麗穎38歲生日,周放喊“好好愛她”,與林更新好事將近

二婚在即?趙麗穎38歲生日,周放喊“好好愛她”,與林更新好事將近

八卦王者
2026-01-27 14:04:27
172:233!高市重新洗牌,日本新首相人選出爐,對(duì)中國態(tài)度不簡單

172:233!高市重新洗牌,日本新首相人選出爐,對(duì)中國態(tài)度不簡單

榮亭小吏
2026-01-26 19:42:05
9年以后,再看王屹芝和章澤天的現(xiàn)狀,才知什么是“風(fēng)水輪流轉(zhuǎn)”

9年以后,再看王屹芝和章澤天的現(xiàn)狀,才知什么是“風(fēng)水輪流轉(zhuǎn)”

FancyMusic
2026-01-27 22:05:33
阿爾沙文:沒想到皇馬只落后巴薩1分,希望阿韋洛亞遭遇失敗

阿爾沙文:沒想到皇馬只落后巴薩1分,希望阿韋洛亞遭遇失敗

懂球帝
2026-01-27 21:08:06
為培養(yǎng)兒子踢進(jìn)國足,他賤賣上海8套房,如今兄弟倆都給他長臉

為培養(yǎng)兒子踢進(jìn)國足,他賤賣上海8套房,如今兄弟倆都給他長臉

一娛三分地
2026-01-24 16:14:55
三部門:對(duì)樹葬等不保留骨灰和土葬區(qū)遺體深埋不留墳頭等給予適當(dāng)獎(jiǎng)補(bǔ)

三部門:對(duì)樹葬等不保留骨灰和土葬區(qū)遺體深埋不留墳頭等給予適當(dāng)獎(jiǎng)補(bǔ)

新京報(bào)
2026-01-27 17:29:07
2026-01-27 22:43:00
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應(yīng)用精選與評(píng)測
421文章數(shù) 40關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會(huì)講話透露了哪些關(guān)鍵信息

頭條要聞

體大畢業(yè)生收費(fèi)教人騎自行車800元1次 網(wǎng)友直呼"離譜"

頭條要聞

體大畢業(yè)生收費(fèi)教人騎自行車800元1次 網(wǎng)友直呼"離譜"

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對(duì)手現(xiàn)學(xué)?

娛樂要聞

張雨綺風(fēng)波持續(xù)發(fā)酵,曝多個(gè)商務(wù)被取消

財(cái)經(jīng)要聞

多地對(duì)壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗(yàn)車下線

態(tài)度原創(chuàng)

房產(chǎn)
教育
親子
數(shù)碼
藝術(shù)

房產(chǎn)要聞

實(shí)景兌現(xiàn)在即!綠城,在海棠灣重新定義終極旅居想象!

教育要聞

高敏感,是因?yàn)楹⒆訐碛幸活w超能大腦

親子要聞

雙職工家庭,孩子上幼兒園后,無老人幫忙,夫妻倆能獨(dú)立帶娃嗎?

數(shù)碼要聞

華碩無畏Pro 14/16 2026款酷睿版發(fā)布,6999元起

藝術(shù)要聞

日本東京國立博物館中的100幅宋畫

無障礙瀏覽 進(jìn)入關(guān)懷版