国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

參數(shù)破萬億!阿里Qwen3-Max-Thinking發(fā)布,編程能力“踢館”Gemini與Claude

0
分享至


作者|冬梅

阿里突發(fā)最強旗艦模型,總參數(shù)過萬億

就在剛剛,Qwen3-Max-Thinking 正式版突然發(fā)布,總參數(shù)規(guī)模超過 1 萬億(1T),位于目前全球最大規(guī)模 AI 模型行列,預訓練數(shù)據規(guī)模高達 36T Tokens,覆蓋大量高質量語料。

Qwen3-Max 是阿里通義團隊迄今規(guī)模最大、能力最強的語言模型,該版本包括 Base、Instruct 和 Thinking 多種形式。


在多項權威基準測試中表現(xiàn)優(yōu)異,Qwen3-Max-Thinking 性能可與 GPT-5.2-Thinking、Claude-Opus-4.5、Gemini-3 Pro 等閉源頂級模型競爭甚至超越。


具體而言,Qwen3-Max-Thinking 在多項關鍵 AI 基準測試中達到了或刷新了全球 SOTA 表現(xiàn):

  • 在包含事實科學知識、復雜推理和編程能力在內的 19 項權威基準測試中取得極高水平,有記錄顯示其綜合表現(xiàn)可媲美 GPT-5.2-Thinking、Claude-Opus-4.5 及 Gemini-3 Pro 等業(yè)內領先模型。

  • 在數(shù)學推理基準測試中,該模型曾在預覽階段實現(xiàn) AIME 25 和 HMMT 25 滿分(即 100% 準確率),這一表現(xiàn)被認為代表了高難度數(shù)學推理能力。

  • 相較于此前的 Instruct 版本,Thinking 版本在 Agent 工具調用、復雜邏輯和深度推理任務中表現(xiàn)出更優(yōu)的能力。

這些測試覆蓋了科學知識問答(如 GPQA Diamond)、數(shù)學推理(如 IMO 等級測試)、代碼編程(如 LiveCodeBench)等多個領域,是衡量大型語言模型綜合能力的重要指標。


為實現(xiàn)上述性能突破,千問團隊在官方博客中稱為 Qwen3-Max-Thinking 引入兩項核心創(chuàng)新:

  • 自適應工具調用能力,可按需調用搜索引擎和代碼解釋器,現(xiàn)已上線;

  • 測試時擴展技術(Test-Time Scaling),顯著提升推理性能,在關鍵推理基準上超越 Gemini 3 Pro。

那么,這兩項核心創(chuàng)新到底什么意思?

首先是自適應工具調用能力,據千問團隊介紹,與早期需要用戶手動選擇工具的方法不同,Qwen3-Max-Thinking 能在對話中自主選擇并調用其內置的搜索、記憶和代碼解釋器功能。

該能力源于專門設計的訓練流程:在完成初步的工具使用微調后,模型在多樣化任務上使用基于規(guī)則和模型的反饋進行了進一步訓練。實驗表明,搜索和記憶工具能有效緩解幻覺、提供實時信息訪問并支持更個性化的回復。代碼解釋器允許用戶執(zhí)行代碼片段并應用計算推理來解決復雜問題。這些功能共同提供了流暢且強大的對話體驗。

再來說說測試時擴展。該技術是指在推理階段分配額外計算資源以提升模型性能的技術。研發(fā)團隊提出了一種經驗累積式、多輪迭代的測試時擴展策略。

不同于簡單增加并行推理路徑數(shù)量 N(這往往導致冗余推理),團隊對并行軌跡數(shù)量進行限制并將節(jié)省的計算資源用于由“經驗提取”機制引導的迭代式自我反思。

該機制從過往推理輪次中提煉關鍵洞見,使模型避免重復推導已知結論,轉而聚焦于未解決的不確定性。關鍵在于,相比直接引用原始推理軌跡,該機制實現(xiàn)了更高的上下文利用效率,在相同上下文窗口內能更充分地融合歷史信息。在大致相同的 token 消耗下,該方法持續(xù)優(yōu)于標準的并行采樣與聚合方法:GPQA (90.3 → 92.8)、HLE (34.1 → 36.5)、LiveCodeBench v6 (88.0 → 91.4)、IMO-AnswerBench (89.5 → 91.5) 和 HLE (w/ tools) (55.8 → 58.3)。

這些技術改善了模型處理復雜任務時的自主規(guī)劃、推理鏈構建和決策能力。

千問 App PC 端和網頁端已經第一時間上新這一 Qwen 系列最強模型,現(xiàn)在即可免費體驗。API(qwen3-max-2026-01-23)也已開放。

體驗地址:https://chat.qwen.ai/?spm=a2ty_o06.30285417.0.0.1ef4c921OJuiXU

網友:中國大模型卷瘋了!

在模型發(fā)布消息傳出后,社交平臺上也迅速出現(xiàn)了大量討論。一部分網友的關注點集中在模型能力本身,語氣中帶著明顯的驚訝與認可。

有海外開發(fā)者在 X 上表示,自己已經習慣看到 Qwen 在多個榜單上“反超”其他模型。

“Qwen 總是能跑贏其他模型,”一位用戶調侃道,同時也提出了更偏產品層面的期待,希望 Qwen 能在 Android 端做出“更簡潔、更有辨識度的應用設計”,認為模型能力已經走在前面,產品體驗還有進一步打磨空間。


也有不少聲音將 Qwen 的發(fā)布節(jié)奏與國際頭部廠商作對比。一位網友直言,通義千問團隊在模型更新和能力披露上的頻率,甚至“已經超過了 OpenAI”。在他看來,這種持續(xù)、高密度的迭代和公開溝通,本身就是一種對開發(fā)者更友好的信號,至少讓外界清楚知道模型在什么階段、解決了哪些問題。


還有用戶的反饋則更為直接。一位名為 Harriett Solid 的網友在評論中寫道:“這正是我一直在等的 Qwen 發(fā)布版本?!边@類評價并未展開具體技術細節(jié),但從情緒上看,顯然將 Qwen3-Max-Thinking 視為一次“到位”的升級,而不是過渡性產品。


整體來看,網友評論呈現(xiàn)出兩個明顯特點:一方面,對 Qwen 在推理能力和更新速度上的認可度較高;另一方面,討論已經開始從“模型是否強”延伸到“產品體驗、生態(tài)建設是否匹配當前能力”。

這也從側面反映出,隨著模型能力逼近甚至進入全球第一梯隊,外界對通義千問的期待,正在從單點技術突破,轉向更完整的產品與平臺層面。

https://chat.qwen.ai/

https://qwen.ai/blog?id=qwen3-max-thinking

聲明:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載。

會議推薦

InfoQ 2026 全年會議規(guī)劃已上線!從 AI Infra 到 Agentic AI,從 AI 工程化到產業(yè)落地,從技術前沿到行業(yè)應用,全面覆蓋 AI 與軟件開發(fā)核心賽道!集結全球技術先鋒,拆解真實生產案例、深挖技術與產業(yè)落地痛點,探索前沿領域、聚焦產業(yè)賦能,獲取實戰(zhàn)落地方案與前瞻產業(yè)洞察,高效實現(xiàn)技術價值轉化。把握行業(yè)變革關鍵節(jié)點,搶占 2026 智能升級發(fā)展先機!

今日薦文

你也「在看」嗎?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
地面戰(zhàn)爭開始,伊朗擊落F-15E

地面戰(zhàn)爭開始,伊朗擊落F-15E

西樓飲月
2026-03-05 20:46:17
公共走廊被鄰居安廚房裝馬桶后續(xù):房主發(fā)聲,鄰居給2個解決方案

公共走廊被鄰居安廚房裝馬桶后續(xù):房主發(fā)聲,鄰居給2個解決方案

天天熱點見聞
2026-03-07 13:02:00
魯山舅舅娶亡姐后續(xù)!只手遮天勢力大,女孩被管控,更多猛料曝光

魯山舅舅娶亡姐后續(xù)!只手遮天勢力大,女孩被管控,更多猛料曝光

哄動一時啊
2026-03-06 12:09:33
古埃及法老亂倫,為何不覺得違背倫理?甚至覺得:一般人是沒機會

古埃及法老亂倫,為何不覺得違背倫理?甚至覺得:一般人是沒機會

扶蘇史記
2026-03-07 15:16:48
18歲亞馬爾復制梅西經典:彩虹球進死角 對手倒下!生涯50球

18歲亞馬爾復制梅西經典:彩虹球進死角 對手倒下!生涯50球

葉青足球世界
2026-03-08 08:32:15
伊朗宣布發(fā)射新一代導彈等,精準打擊以色列從北到南多個目標,“敵方雷達系統(tǒng)在前幾波行動中已遭摧毀,所有導彈均成功命中”

伊朗宣布發(fā)射新一代導彈等,精準打擊以色列從北到南多個目標,“敵方雷達系統(tǒng)在前幾波行動中已遭摧毀,所有導彈均成功命中”

每日經濟新聞
2026-03-08 00:00:00
再年輕也沒用!湖南34歲滕志強去世,死因曝光,曾多次為國征戰(zhàn)!

再年輕也沒用!湖南34歲滕志強去世,死因曝光,曾多次為國征戰(zhàn)!

霽寒飄雪
2026-03-07 09:40:07
成都蒲江縣將并入新津區(qū)?蒲江縣民政局回應

成都蒲江縣將并入新津區(qū)?蒲江縣民政局回應

黃河新聞網呂梁
2026-03-08 10:02:35
美媒:一架美國航班據稱受炸彈威脅,全副武裝執(zhí)法人員進入機艙內逮捕嫌疑人

美媒:一架美國航班據稱受炸彈威脅,全副武裝執(zhí)法人員進入機艙內逮捕嫌疑人

環(huán)球網資訊
2026-03-08 09:55:38
她是上海著名演員,巔峰時遠赴美國,嫁給資本巨鱷,69歲人生贏家

她是上海著名演員,巔峰時遠赴美國,嫁給資本巨鱷,69歲人生贏家

白面書誏
2026-03-07 17:18:19
偷往帽子倒螺螄粉湯的女子已經社死,正面照遭網友Ai修復后瘋傳

偷往帽子倒螺螄粉湯的女子已經社死,正面照遭網友Ai修復后瘋傳

映射生活的身影
2026-03-08 02:42:07
全文來了!王毅答中外記者21個提問,涉及中美關系、中日關系、構建人類命運共同體等

全文來了!王毅答中外記者21個提問,涉及中美關系、中日關系、構建人類命運共同體等

環(huán)球網資訊
2026-03-08 11:50:44
復星國際股價跌超80%再爆雷,2025年預虧超200億

復星國際股價跌超80%再爆雷,2025年預虧超200億

財經智多星
2026-03-08 08:23:17
印度出水116.9kg巨魾 ,跟成年豬一樣大!網友:吃了多少腐尸?

印度出水116.9kg巨魾 ,跟成年豬一樣大!網友:吃了多少腐尸?

貍貓之一的動物圈
2026-03-08 09:17:05
炸了!宮魯鳴要下課?李夢好友已抵達球隊,真相藏不住了!

炸了!宮魯鳴要下課?李夢好友已抵達球隊,真相藏不住了!

卿子書
2026-03-08 08:39:16
毛骨悚然!網傳西安二婚大專女,找月薪2萬985未婚男,全款車房…

毛骨悚然!網傳西安二婚大專女,找月薪2萬985未婚男,全款車房…

火山詩話
2026-03-08 06:10:43
崩了,公司全面停工停產,全員待崗半年!

崩了,公司全面停工停產,全員待崗半年!

黯泉
2026-03-07 20:34:42
B-52重返戰(zhàn)場:當美軍開始用二戰(zhàn)式轟炸,戰(zhàn)爭其實已經結束了一半

B-52重返戰(zhàn)場:當美軍開始用二戰(zhàn)式轟炸,戰(zhàn)爭其實已經結束了一半

斌聞天下
2026-03-07 07:30:03
毫無人性!伊朗65所學校、14個醫(yī)療中心和13個紅新月會所屬中心遭攻擊

毫無人性!伊朗65所學校、14個醫(yī)療中心和13個紅新月會所屬中心遭攻擊

臺州交通廣播
2026-03-07 18:40:58
中國駐伊朗女記者:爆炸中躲進衛(wèi)生間趕稿,不是最窘的事

中國駐伊朗女記者:爆炸中躲進衛(wèi)生間趕稿,不是最窘的事

上觀新聞
2026-03-07 15:07:07
2026-03-08 13:24:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學家,提供AI領域技術資訊。
1347文章數(shù) 133關注度
往期回顧 全部

科技要聞

OpenClaw最大的推手是閑魚和小紅書

頭條要聞

英國考慮向中東地區(qū)派遣航母 特朗普批評:不需要

頭條要聞

英國考慮向中東地區(qū)派遣航母 特朗普批評:不需要

體育要聞

大傷后被交易,他說:22歲的我已經死了

娛樂要聞

周迅新戀情曝光,李亞鵬等人已成過去

財經要聞

油價要失控?

汽車要聞

9分鐘充飽 全新騰勢Z9GT首搭閃充技術26.98萬起

態(tài)度原創(chuàng)

房產
家居
教育
游戲
本地

房產要聞

傳統(tǒng)學區(qū)房熄火?2月??诙址勘鸬陌鍓K竟然是…

家居要聞

暖棕撞色 輕法奶油風

教育要聞

父母留給子女最好的財富是什么?

《GTA6》首發(fā)不適配?傳下一代Xbox沒有原生系統(tǒng)

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

無障礙瀏覽 進入關懷版