国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

給阿里千問(wèn)一個(gè)“客觀估計(jì)”——圍繞QWen3的大模型橫評(píng)

0
分享至




導(dǎo)語(yǔ):Qwen3 旗艦?zāi)P鸵堰M(jìn)入全球第一梯隊(duì)、國(guó)內(nèi)Top 2–3的行列:綜合能力略低于Gemini3、GPT-5.1和Kimi K2 Thinking,但與Grok 4.1、Claude Opus 4.1屬于同檔。

阿里近期發(fā)布的千問(wèn)App引發(fā)了外界的關(guān)注,其背后的Qwen3大模型與國(guó)際和國(guó)內(nèi)幾大模型的性能對(duì)比,到底水平如何?對(duì)用戶(hù)來(lái)說(shuō)又該如何根據(jù)不同的任務(wù)來(lái)選擇不同的大模型?今天給大家做個(gè)對(duì)比與總結(jié)。

01 Qwen3的基本面

阿里在今年推出的第三代大模型Qwen3,是千問(wèn)App的核心底座。它有幾個(gè)關(guān)鍵特點(diǎn):

一、體量和架構(gòu)

Dense模型:從0.6B一直到32B;

MoE旗艦:Qwen3-235B-A22B(235B 總參數(shù)、22B 活躍參數(shù)),相當(dāng)于“參數(shù)巨艦+算力省電”。

二、訓(xùn)練規(guī)模

訓(xùn)練數(shù)據(jù)約36萬(wàn)億token,覆蓋119種語(yǔ)言/方言。對(duì)數(shù)學(xué)、代碼、STEM推理做了額外強(qiáng)化。提供“Thinking 模式”,類(lèi)似GPT-o1 / DeepSeek-R1那種顯式推理版。

三、應(yīng)用形態(tài)

包括文本對(duì)話、寫(xiě)作、代碼、多模態(tài)(圖像/文檔/表格),長(zhǎng)上下文版本能支持百萬(wàn)級(jí)token,對(duì)長(zhǎng)文檔場(chǎng)景很友好。

千問(wèn)App由于面向C端,通常會(huì)使用類(lèi)似“Qwen3-Max / Qwen3-235B旗艦+ Thinking版”的組合。

02 拿什么“尺子”來(lái)衡量Qwen3?

使用如下指標(biāo)來(lái)測(cè)評(píng)Qwen3的水平:

  • Artificial Analysis Intelligence Index(AA 指數(shù))

AA指數(shù)把MMLU-Pro、GPQA、HLE、LiveCodeBench、SciCode 等十幾個(gè)高含金量基準(zhǔn)融合,

最后給每個(gè)模型一個(gè)0–100 的綜合“智能分”。這個(gè)分?jǐn)?shù)目前是國(guó)際上最常被引用的大模型“總評(píng)分”之一。

  • LMArena / Text Arena(人類(lèi)盲評(píng)Elo榜)

采用大量真實(shí)用戶(hù)不看模型名,只看回答,投票哪一個(gè)更好的方法,用Elo評(píng)分來(lái)排名,更偏“真實(shí)使用體驗(yàn)”的維度。

除此以外,還會(huì)使用一些單項(xiàng)基準(zhǔn)來(lái)進(jìn)行評(píng)測(cè):

AIME2025:競(jìng)賽級(jí)數(shù)學(xué);HLE(Humanity’s Last Exam):極難綜合考試;LiveCodeBench/SciCode:偏實(shí)戰(zhàn)的軟件工程與科學(xué)代碼;以及其它經(jīng)典的MMLU、GSM8K、HumanEval 等。

本次評(píng)測(cè)主要圍繞AA榜+人類(lèi)盲評(píng)榜,再輔以少量專(zhuān)項(xiàng)基準(zhǔn),盡量做到客觀公正。

進(jìn)入“頂級(jí)區(qū)”,但天花板依舊。

AA指數(shù):按目前公開(kāi)信息,各主流大模型的AA指數(shù)得分可以見(jiàn)下表:



注:在AA《State of AI: China Q2 2025》里被列為“最佳非推理 LLM”之一,分?jǐn)?shù)帶星號(hào)表示部分基于廠商數(shù)據(jù)估計(jì)

就以上得分看,Qwen3的旗艦版本已經(jīng)站在Grok 4.1和Claude 4.1的身邊,但和Gemini3 Pro、GPT-5.1、K2 Thinking之間,還維持著7–10分左右的差距——這在頂尖模型之間,依然是能感知的差距。

人類(lèi)盲評(píng)Elo榜:評(píng)測(cè)結(jié)果是Gemini3 Pro和Grok4.1(Thinking)輪流占據(jù)榜首附近。GPT-5.1、Claude 4家族也穩(wěn)居頭部。Qwen3旗艦的打分雖然略低于這些“榜一大哥”,但確實(shí)已經(jīng)混在第一梯隊(duì)前列,和它們同一張榜單搶票。

更直觀的表述是:真正讓海外開(kāi)發(fā)者和研究者投票時(shí),用戶(hù)已經(jīng)可以感受到:“Qwen3是強(qiáng)模型,和GPT-5 / Gemini3這一線對(duì)比,體驗(yàn)上不會(huì)拉開(kāi)巨大差距?!?/strong>

再看幾個(gè)單項(xiàng)評(píng)測(cè):

  • AIME 2025:競(jìng)賽數(shù)學(xué)

測(cè)試結(jié)果大致排序是:GPT-5 Codex (high) ≈ GPT-5.1 > Kimi K2 Thinking > Grok 4 > Qwen3 235B > Gemini 2.5 / Claude 4 系列。

可以理解為,Qwen3在高難數(shù)學(xué)上是第一梯隊(duì),只是在“競(jìng)賽數(shù)學(xué)+推理特化”的場(chǎng)景中,GPT-5.1 / K2 / Grok 4這些“卷數(shù)學(xué)的怪物”更強(qiáng)。

  • HLE:超難綜合推理

在這個(gè)測(cè)試中,Kimi K2 Thinking和GPT-5家族在HLE里表現(xiàn)最扎眼。Qwen3和GPT-4.1/Grok-3/Gemini-2.5 Pro這一代差不多,略有提升。測(cè)試結(jié)果意味著,Qwen3在極限綜合推理上沒(méi)拉胯,但也不是拿第一的那個(gè)。

  • LiveCodeBench / SciCode:工程代碼&科學(xué)代碼

在工程代碼方面,GPT-5.1?K2 Thinking? Grok4≈Gemini2.5Pro> Qwen3≈DeepSeek-V3.2。在科學(xué)代碼(SciCode)測(cè)試中,差距更縮小,大家都在40%多一點(diǎn)的區(qū)間里擠。

也就是說(shuō),如果你用千問(wèn)寫(xiě)代碼,它的水平大致就是“略弱一點(diǎn)的GPT-5.1 / K2 / Grok4”,但絕不是上一代那種明顯掉隊(duì)。

03 中國(guó)四強(qiáng)對(duì)比:Kimi、Qwen3、DeepSeek、豆包

Kimi K2 Thinking的綜合智能得分約67分,在AA榜上直接沖進(jìn)全球前五,由于模型專(zhuān)門(mén)強(qiáng)調(diào)瀏覽、工具調(diào)用、Agent任務(wù),所以在HLE、BrowseComp等偏“代理”的基準(zhǔn)上特別強(qiáng)。

Qwen3的綜合智能得分60 分左右,各方面比較均衡。DeepSeek-V3.2-Exp的綜合智能約57分,特點(diǎn)是國(guó)產(chǎn)芯片適配、長(zhǎng)上下文性能、推理能效方面做了優(yōu)化,為中國(guó)算力環(huán)境量身定制。

豆包1.5 Pro(非推理版),AA China Q2 報(bào)告中給出的智能指數(shù)約 48*,在非推理模型里屬于頭部,且被列為“最佳非推理大模型”之一;但其推理版(Thinking)目前還沒(méi)有完整的AA綜合分公開(kāi)。

綜合分?jǐn)?shù)上:K2 Thinking > Qwen3 > DeepSeek-V3.2 >豆包1.5Pro。但如果從“算力成本+國(guó)產(chǎn)芯片環(huán)境”出發(fā),DeepSeek就有獨(dú)特位置,而Qwen3則在“生態(tài)+穩(wěn)健通用能力”上更加均衡。



04 用戶(hù)的視角

  • 日常問(wèn)答、寫(xiě)作與知識(shí)檢索

對(duì)中文/中英混合的日常用法來(lái)說(shuō),Qwen3 + 千問(wèn)App 基本已經(jīng)是世界級(jí)的體驗(yàn)之一?;卮鹚俣?、知識(shí)覆蓋、上下文記憶、寫(xiě)作風(fēng)格都很成熟。和GPT-5.1 / Gemini 3 Pro相比,差距主要在極限長(zhǎng)鏈推理和一些特定專(zhuān)業(yè)英文領(lǐng)域。豆包則在自然中文表達(dá)、口語(yǔ)化對(duì)話、社交媒體語(yǔ)境下的風(fēng)格更自然,適合做聊天、輕量問(wèn)答和內(nèi)容創(chuàng)作。

  • 數(shù)學(xué)&競(jìng)賽級(jí)題目

如果用戶(hù)的使用場(chǎng)景是:競(jìng)賽數(shù)學(xué)、高級(jí)邏輯題、極端復(fù)雜鏈?zhǔn)酵评淼?,GPT-5.1、Gemini 3 Pro、Kimi K2 Thinking、Grok 4.1 目前仍然略強(qiáng)。

  • 代碼開(kāi)發(fā)

Qwen3 在LiveCodeBench / SciCode 這類(lèi)基準(zhǔn)上的表現(xiàn),已經(jīng)是“工程可用”的一線水平。真正大規(guī)模做代碼重構(gòu)、復(fù)雜調(diào)試時(shí),GPT-5.1、K2 Thinking、Grok4在一些數(shù)據(jù)里略有優(yōu)勢(shì),但Qwen3+好的工具鏈(IDE插件、CI集成)足以支撐絕大多數(shù)團(tuán)隊(duì)的日常開(kāi)發(fā)工作。

  • 多模態(tài)、文檔和表格

這一塊是Qwen家族的強(qiáng)項(xiàng)之一:Qwen2.5-VL和Qwen3-Omni在圖像理解、PDF/文檔解析、表格/圖表任務(wù)上,經(jīng)常在論文和評(píng)測(cè)里拿高分。對(duì)用戶(hù)來(lái)說(shuō)意味著你把PPT、PDF、掃描件、復(fù)雜報(bào)表丟給千問(wèn),它一般能看得比較明白。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
馬文峰任廣東省外事辦公室主任

馬文峰任廣東省外事辦公室主任

中國(guó)經(jīng)濟(jì)網(wǎng)
2025-12-19 14:20:06
張震岳不慣著!一句話撕下朱孝天最后體面,李冰冰的臉被他丟盡了

張震岳不慣著!一句話撕下朱孝天最后體面,李冰冰的臉被他丟盡了

曉帝愛(ài)八卦
2025-12-20 06:34:39
國(guó)資委大消息!這些板塊迎重大利好,下周“這類(lèi)股”有望騰飛大漲

國(guó)資委大消息!這些板塊迎重大利好,下周“這類(lèi)股”有望騰飛大漲

虎哥閑聊
2025-12-20 08:13:29
上海著名百貨商場(chǎng)官宣改名、啟動(dòng)不停業(yè)改造!屋頂觀景平臺(tái)目測(cè)要火

上海著名百貨商場(chǎng)官宣改名、啟動(dòng)不停業(yè)改造!屋頂觀景平臺(tái)目測(cè)要火

新民晚報(bào)
2025-12-19 19:28:59
羅永浩又開(kāi)炮!開(kāi)通1000兆寬帶下載只有90多兆,上海電信壓力來(lái)了

羅永浩又開(kāi)炮!開(kāi)通1000兆寬帶下載只有90多兆,上海電信壓力來(lái)了

火山詩(shī)話
2025-12-19 06:40:20
新來(lái)的縣委書(shū)記是我大學(xué)時(shí)的男友,會(huì)議結(jié)束,他把我叫到了辦公室

新來(lái)的縣委書(shū)記是我大學(xué)時(shí)的男友,會(huì)議結(jié)束,他把我叫到了辦公室

五元講堂
2025-12-14 08:50:03
馬云預(yù)言或?qū)?yīng)驗(yàn)了?未來(lái)5年,比開(kāi)藥店還要暴利的4個(gè)方向

馬云預(yù)言或?qū)?yīng)驗(yàn)了?未來(lái)5年,比開(kāi)藥店還要暴利的4個(gè)方向

百態(tài)人間
2025-12-20 05:25:03
蔣萬(wàn)安又開(kāi)批了! 鈕則勛盤(pán)點(diǎn)其抗綠系列發(fā)言大贊:在野第一勇

蔣萬(wàn)安又開(kāi)批了! 鈕則勛盤(pán)點(diǎn)其抗綠系列發(fā)言大贊:在野第一勇

海峽導(dǎo)報(bào)社
2025-12-19 10:52:19
馬斯克贏得560億美元薪酬方案:如今價(jià)值1390億美元

馬斯克贏得560億美元薪酬方案:如今價(jià)值1390億美元

鞭牛士
2025-12-20 08:07:09
揭秘楊瀚森下放召回:兩座球館只有10分鐘車(chē)程 每天餐補(bǔ)150美元

揭秘楊瀚森下放召回:兩座球館只有10分鐘車(chē)程 每天餐補(bǔ)150美元

羅說(shuō)NBA
2025-12-20 11:21:17
下周可能會(huì)漲的板塊:

下周可能會(huì)漲的板塊:

風(fēng)風(fēng)順
2025-12-20 09:37:24
汕汕高鐵汕頭至汕頭南段12月22日將建成通車(chē)

汕汕高鐵汕頭至汕頭南段12月22日將建成通車(chē)

環(huán)球網(wǎng)資訊
2025-12-20 12:30:42
大量汽車(chē)材料進(jìn)入禁限用清單 車(chē)企出口歐盟將迎全面合規(guī)挑戰(zhàn)

大量汽車(chē)材料進(jìn)入禁限用清單 車(chē)企出口歐盟將迎全面合規(guī)挑戰(zhàn)

經(jīng)濟(jì)觀察報(bào)
2025-12-19 10:14:39
凌晨4點(diǎn)皇馬年度收官戰(zhàn)!姆巴佩進(jìn)2球=超C羅紀(jì)錄 4巨頭強(qiáng)攻

凌晨4點(diǎn)皇馬年度收官戰(zhàn)!姆巴佩進(jìn)2球=超C羅紀(jì)錄 4巨頭強(qiáng)攻

葉青足球世界
2025-12-20 09:05:22
渤海完全屬于中國(guó)!因當(dāng)年毛主席的一句話,如今沒(méi)有一艘外船敢進(jìn)

渤海完全屬于中國(guó)!因當(dāng)年毛主席的一句話,如今沒(méi)有一艘外船敢進(jìn)

抽象派大師
2025-12-11 17:05:41
賀江川落馬,在北京國(guó)企圈子里,妥妥是金字塔尖的大佬。

賀江川落馬,在北京國(guó)企圈子里,妥妥是金字塔尖的大佬。

百態(tài)人間
2025-12-19 16:54:12
膜拜歐皇!綠軍一球迷參加中場(chǎng)抽獎(jiǎng)活動(dòng),喜獲100萬(wàn)美元獎(jiǎng)金

膜拜歐皇!綠軍一球迷參加中場(chǎng)抽獎(jiǎng)活動(dòng),喜獲100萬(wàn)美元獎(jiǎng)金

懂球帝
2025-12-20 12:37:04
破案!狀態(tài)明顯很差,杜鋒卻不敢下胡明軒原因找到,關(guān)辛說(shuō)出實(shí)情

破案!狀態(tài)明顯很差,杜鋒卻不敢下胡明軒原因找到,關(guān)辛說(shuō)出實(shí)情

后仰大風(fēng)車(chē)
2025-12-20 07:47:07
51歲賈靜雯與高圓圓同框,一個(gè)臉緊致一個(gè)褶多,骨相皮相區(qū)別明顯

51歲賈靜雯與高圓圓同框,一個(gè)臉緊致一個(gè)褶多,骨相皮相區(qū)別明顯

小娛樂(lè)悠悠
2025-12-20 11:44:20
她相貌平平,卻拿捏兩位千億富豪,為老頭連生兩子,現(xiàn)是豪門(mén)董事

她相貌平平,卻拿捏兩位千億富豪,為老頭連生兩子,現(xiàn)是豪門(mén)董事

說(shuō)歷史的老牢
2025-12-19 10:57:14
2025-12-20 12:55:00
阿爾法工場(chǎng) incentive-icons
阿爾法工場(chǎng)
中國(guó)上市公司研究平臺(tái)
12582文章數(shù) 302621關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來(lái)

頭條要聞

克林頓與愛(ài)潑斯坦案受害者共浴照片披露:坐在浴缸里

頭條要聞

克林頓與愛(ài)潑斯坦案受害者共浴照片披露:坐在浴缸里

體育要聞

我開(kāi)了20年大巴,現(xiàn)在是一名西甲主帥

娛樂(lè)要聞

戚薇女兒大變樣,10歲就進(jìn)入“尷尬期”

財(cái)經(jīng)要聞

日本加息落地:暴跌沒(méi)有,麻煩在后頭

汽車(chē)要聞

嵐圖推進(jìn)L3量產(chǎn)測(cè)試 已完成11萬(wàn)公里實(shí)際道路驗(yàn)證

態(tài)度原創(chuàng)

健康
時(shí)尚
教育
親子
房產(chǎn)

這些新療法,讓化療不再那么痛苦

今年冬天流行的“露襪”穿法,時(shí)髦又減齡!

教育要聞

男孩在“看守所備戰(zhàn)高考”,網(wǎng)友:考上了有啥用?政審也過(guò)不了

親子要聞

泰蘭尼斯千元兒童“穩(wěn)跑鞋” ,加入碳板是割韭菜還是剛需?

房產(chǎn)要聞

廣州有態(tài)度,一座國(guó)際化社區(qū)給出的城市答案

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版