国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

那個(gè)用半成品刷爆SOTA的Qwen3超大杯推理版,現(xiàn)在正式上線

0
分享至

魚羊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

新一年的基礎(chǔ)模型競(jìng)逐,沒想到是阿里千問率先出手了!

就在剛剛,Qwen3-Max-Thinking正式版突然發(fā)布,當(dāng)即刷新全球SOTA:

在涵蓋科學(xué)知識(shí)、數(shù)學(xué)推理、代碼編程的19項(xiàng)權(quán)威基準(zhǔn)測(cè)試中,趕上甚至超越GPT-5.2-Thinking、Claude-Opus-4.5和Gemini 3 Pro等TOP閉源模型。



p.s. 此前這一超大杯推理模型的“早期預(yù)覽版”,已經(jīng)在AIME 25和HMMT 25(哈佛-MIT數(shù)學(xué)競(jìng)賽)中達(dá)到100%的準(zhǔn)確率。

量子位了解到,完全體的Qwen3-Max-Thinking總參數(shù)超萬億(1T),預(yù)訓(xùn)練數(shù)據(jù)量高達(dá)36T Tokens,并且進(jìn)行了更大規(guī)模的強(qiáng)化學(xué)習(xí)后訓(xùn)練。

核心技術(shù)方面,通過引入自適應(yīng)工具調(diào)用測(cè)試時(shí)擴(kuò)展兩項(xiàng)技術(shù)創(chuàng)新,Qwen3-Max-Thinking的推理性能調(diào)用工具的原生Agent能力都有顯著提升。

千問APP PC端和網(wǎng)頁端已經(jīng)第一時(shí)間上新這一Qwen系列最強(qiáng)模型,現(xiàn)在即可免費(fèi)體驗(yàn)。API(qwen3-max-2026-01-23)也已開放。

Qwen3超大杯推理版實(shí)測(cè)

話不多說,Qwen3超大杯推理版到底有多強(qiáng),我們直接來看效果。

代碼能力

現(xiàn)場(chǎng)寫一個(gè)小游戲,對(duì)大模型們來說早已不是難事,什么貪食蛇、flappy bird基本都能輕松搞定。

如果再加上一點(diǎn)難度,讓Qwen3-Max-Thinking在網(wǎng)頁小游戲里加上手勢(shì)識(shí)別呢?

  • 創(chuàng)建一個(gè)基于瀏覽器的氣球射擊游戲,使用天空背景,并通過攝像頭跟蹤用戶的手部動(dòng)作來控制屏幕上的指針。

還真能work!并且在prompt的指導(dǎo)下,細(xì)節(jié)也都到位:

瞄準(zhǔn)動(dòng)作下,屏幕左上方會(huì)顯示“瞄準(zhǔn)中”的狀態(tài);雙指捏合觸發(fā)射擊時(shí),能瞬間轉(zhuǎn)換“射擊!”提示;如果手出框了,還會(huì)出現(xiàn)紅色高亮提醒。



完整prompt如下:

prompt:“Create a browser-based balloon shooter with a sky background, using the webcam to track a user’s hand and control an on-screen pointer.Core requirements1. Sky screen- Fullscreen sky backdrop (gradient + soft clouds OR skybox).- Subtle parallax and gentle cloud drift for depth.2. Balloons- Spawn balloons from the bottom and drift upward with slight side-to-side motion.- Different sizes (small = faster / worth more, large = slower / worth less).- Optional wind gusts that shift all balloons briefly.3. Hand pointer- Use real-time hand tracking from the camera.- Track index fingertip and map it to screen coordinates.- Render a crosshair/pointer at that position.- Add smoothing so the pointer doesn’t jitter (exponential moving average).4. Shooting- Shooting gesture: pinch (thumb + index) to fire.- Add a cooldown (e.g., 150–250ms) to prevent accidental rapid-fire.- When firing, do a raycast / hit-test from the pointer to balloons.- If hit: pop balloon + add score + combo streak feedback.5. Feedback- Pop VFX: quick burst particles + optional “rubber fragments.”- Small screen shake or micro “kick” on hit (subtle).- Sound toggle (pop + whoosh).6. UI (simple + modern)- Minimal HUD: score, combo, and a small “calibration” indicator.- Settings drawer: sensitivity, smoothing, spawn rate, difficulty, left/right hand selection.- Fallback controls: mouse pointer + click if camera isn’t available.7. Calibration & stabilityInclude a calibration step:- Ask the user to hold their hand in view and point to screen corners to fit mapping.- Handle low-confidence frames:- If hand not detected, fade crosshair and show “Hand not found” hint.prompt:“Create a browser-based balloon shooter with a sky background, using the webcam to track a user’s hand and control an on-screen pointer.Core requirements

再來一手經(jīng)典難度題:鵜鶘騎自行車。

  • An animated SVG of a pelican riding a bicycle.

emmm…談不上完美,但鑒于給出的提示詞比較簡略,至少確實(shí)是那么個(gè)意思了(doge)。



工具調(diào)用

此次更新,官方重點(diǎn)強(qiáng)調(diào)了兩方面的能力提升:推理能力和自主調(diào)用工具的原生Agent能力。

剛好最近在關(guān)注內(nèi)存漲價(jià)這事兒,不妨讓Qwen3-Max-Thinking直接幫我們分析一波,寫份研報(bào)。

提示詞:

  • 最近內(nèi)存價(jià)格瘋漲,幫我分析下哪些股票受到了影響,畫出相關(guān)股價(jià)走勢(shì)



從側(cè)邊欄顯示的思考細(xì)節(jié)可以看到,Qwen3-Max-Thinking先是自主上網(wǎng)收集好了資料,然后調(diào)用代碼解釋器做起了數(shù)據(jù)分析和繪圖,就像人類一樣是邊用工具邊思考的。

不到1分鐘時(shí)間,一份囊括漲價(jià)原因、受益/受損產(chǎn)業(yè)分析、下一階段存儲(chǔ)芯片產(chǎn)業(yè)走勢(shì)的完整報(bào)告,就新鮮出爐了。

技術(shù)解析

在模型上線的同時(shí),阿里千問團(tuán)隊(duì)也通過官方技術(shù)博客,透露了Qwen3-Max-Thinking的不少技術(shù)細(xì)節(jié)。

技術(shù)博客提到,Qwen3-Max-Thinking在事實(shí)知識(shí)、復(fù)雜推理、指令遵循、人類偏好對(duì)齊以及智能體能力等評(píng)估維度上都實(shí)現(xiàn)了顯著提升。

背后有兩項(xiàng)核心創(chuàng)新:

  • 自適應(yīng)工具調(diào)用能力,可按需調(diào)用搜索引擎和代碼解釋器;
  • 測(cè)試時(shí)擴(kuò)展技術(shù)(Test-Time Scaling),顯著提升推理性能。

來看具體細(xì)節(jié)。

自適應(yīng)工具調(diào)用

與早期需要用戶手動(dòng)選擇工具的方法不同,通過引入自適應(yīng)工具調(diào)用,Qwen3-Max-Thinking能在對(duì)話中自主選擇并調(diào)用其內(nèi)置的搜索、記憶和代碼解釋器功能。

比如,搜索《醉翁亭記》全文,并調(diào)用代碼解釋器把所有的“也”替換成“喵”。



最終的完成效果如下:



在此背后,阿里千問團(tuán)隊(duì)專門設(shè)計(jì)了一套訓(xùn)練流程:

在完成初步的工具使用微調(diào)后,模型在多樣化任務(wù)上使用基于規(guī)則和模型的反饋來做進(jìn)一步訓(xùn)練。

實(shí)驗(yàn)表明,搜索和記憶工具能有效緩解幻覺,提供實(shí)時(shí)信息訪問,并支持更個(gè)性化的回復(fù)。代碼解釋器允許用戶執(zhí)行代碼片段,并應(yīng)用計(jì)算推理來解決復(fù)雜問題。

測(cè)試時(shí)擴(kuò)展技術(shù)

測(cè)試時(shí)擴(kuò)展是指在推理階段分配額外計(jì)算資源,以提升模型性能的技術(shù)。

阿里千問團(tuán)隊(duì)提出了一種經(jīng)驗(yàn)積累式、多輪迭代的測(cè)試時(shí)擴(kuò)展策略。

不同于簡單增加并行推理路徑數(shù)量N(這往往會(huì)導(dǎo)致冗余推理),研究團(tuán)隊(duì)限制N并將節(jié)省的計(jì)算資源用于由“經(jīng)驗(yàn)提取”機(jī)制引導(dǎo)的迭代式自我反思。

這樣做的好處在于,模型不會(huì)推理著推理著又繞回到已經(jīng)得出的結(jié)論上去,瘋狂廢話浪費(fèi)token,而是會(huì)專注于未解決的不確定性。

更關(guān)鍵的是,相比于直接引用原始推理軌跡,該機(jī)制實(shí)現(xiàn)了更高的上下文利用效率,在相同上下文窗口內(nèi)能更充分地融合歷史信息。

實(shí)驗(yàn)證明,在大致相同的token消耗下,該方法優(yōu)于標(biāo)準(zhǔn)的并行采樣與聚合方法,推理性能和推理效率大幅提升。

比如,在啟用工具的“人類最后的測(cè)試”HLE中,Qwen3-Max-Thinking得分58.3,超過GPT-5.2-Thinking的45.5,以及Gemini 3 Pro的45.8,刷新SOTA。

在IMO難度級(jí)別的數(shù)學(xué)能力測(cè)試基準(zhǔn)IMO-AnswerBench上,Qwen3-Max-Thinking也以91.5的成績拿下全場(chǎng)最高分。



中國開源持續(xù)席卷世界

意料之中,2026年的第一個(gè)重量級(jí)模型更新,再次來自中國。

而有些意料之外但也在情理之中的是,這一次率先出手的,是阿里千問。

根據(jù)MIT-Hugging Face數(shù)據(jù),在全球22億次模型下載行為之中,中國開源AI模型的采用份額已經(jīng)躍升至17.1%,超過了美國的15.8%。

在過去一年內(nèi)新發(fā)布的模型中,中國模型的下載量穩(wěn)居第一。



在其中,從迭代頻率、下載量和社區(qū)影響力來看,千問系列拔得頭籌。



Hugging Face的最新數(shù)據(jù)顯示,阿里千問系列衍生模型數(shù)量突破20萬個(gè),成為全球首個(gè)達(dá)成此目標(biāo)的開源大模型。同時(shí),千問系列模型下載量突破10億次,平均每天被下載110萬次,完全超越Llama,實(shí)際上已經(jīng)成為全球AI開源界的新標(biāo)桿。



值得關(guān)注的是,在飛快壯大自身開源、頂級(jí)模型影響力的同時(shí),阿里也已在實(shí)踐中揭示了2026年模型廠商的新著力點(diǎn)——

將頂尖模型能力和應(yīng)用生態(tài)體系做更深入的結(jié)合。

日前,千問APP已全面接入淘寶、支付寶、淘寶閃購、飛豬、高德等阿里生態(tài)業(yè)務(wù)。

可以預(yù)見的是,2026基礎(chǔ)模型還將持續(xù)增強(qiáng),并且更深入地與各個(gè)垂直領(lǐng)域、與實(shí)際生活相結(jié)合,在落地實(shí)踐中展現(xiàn)更多應(yīng)用的可能。

第一炮已經(jīng)打響,期待中國開源延續(xù)2025年的勢(shì)頭,持續(xù)給世界帶來新驚喜~

官網(wǎng)地址:
https://chat.qwen.ai/

— 完 —

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
馮唐:我貪財(cái)好色!當(dāng)婦科醫(yī)生,就是為了光明正大地看女人

馮唐:我貪財(cái)好色!當(dāng)婦科醫(yī)生,就是為了光明正大地看女人

近史博覽
2025-11-23 19:22:45
老干部和女幼師的聊天記錄,竟然讓網(wǎng)友看得停不下來!

老干部和女幼師的聊天記錄,竟然讓網(wǎng)友看得停不下來!

特約前排觀眾
2026-01-27 00:20:03
女子因桃花眼走紅,訂婚兩年熱度依舊,網(wǎng)友喊話:88號(hào)快回來上班

女子因桃花眼走紅,訂婚兩年熱度依舊,網(wǎng)友喊話:88號(hào)快回來上班

梅子的小情緒
2025-12-19 14:04:18
再談李斯之死:最柔軟的臨終告別,藏著最平凡的人間遺憾

再談李斯之死:最柔軟的臨終告別,藏著最平凡的人間遺憾

劉步塵洞見未來
2026-01-26 13:53:10
大米江湖的暗戰(zhàn):那些超市里的“陷阱米”,正在偷走你的錢和健康

大米江湖的暗戰(zhàn):那些超市里的“陷阱米”,正在偷走你的錢和健康

富貴說
2026-01-18 20:36:10
92歲前法官獨(dú)居上海養(yǎng)老院,獨(dú)子留英40年開公司,他竟說不后悔

92歲前法官獨(dú)居上海養(yǎng)老院,獨(dú)子留英40年開公司,他竟說不后悔

王姐懶人家常菜
2026-01-23 16:05:13
中戲兩百年一遇美人曾黎,追求者站滿中戲操場(chǎng),50歲至今未婚

中戲兩百年一遇美人曾黎,追求者站滿中戲操場(chǎng),50歲至今未婚

攬星河的筆記
2026-01-22 16:49:20
以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會(huì)第一個(gè)翻臉

以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會(huì)第一個(gè)翻臉

八斗小先生
2025-12-26 09:33:27
中國股市大佬罕見發(fā)聲:如果散戶長期捂股不斬倉,莊家會(huì)怎么辦?

中國股市大佬罕見發(fā)聲:如果散戶長期捂股不斬倉,莊家會(huì)怎么辦?

股經(jīng)縱橫談
2025-12-17 20:54:54
巴圖:我不怨父親英達(dá),也不嫉妒弟弟英如鏑,更沒必要認(rèn)祖歸宗

巴圖:我不怨父親英達(dá),也不嫉妒弟弟英如鏑,更沒必要認(rèn)祖歸宗

呼呼歷史論
2026-01-26 12:26:42
繼丹麥之后,第二個(gè)拋售美債國家出現(xiàn),出手就是800億

繼丹麥之后,第二個(gè)拋售美債國家出現(xiàn),出手就是800億

戶外釣魚哥阿旱
2026-01-26 13:15:48
任澤平警告:三大信號(hào)暗示房價(jià)即將大變動(dòng)!

任澤平警告:三大信號(hào)暗示房價(jià)即將大變動(dòng)!

大川東山再起
2026-01-25 20:31:03
終于知道生兒子的真實(shí)體驗(yàn)了!這是我見過最通俗易懂的答案

終于知道生兒子的真實(shí)體驗(yàn)了!這是我見過最通俗易懂的答案

另子維愛讀史
2026-01-24 21:32:39
最新業(yè)績預(yù)增股名單,這3股增超10倍

最新業(yè)績預(yù)增股名單,這3股增超10倍

數(shù)據(jù)寶
2026-01-26 10:46:39
蘇聯(lián)讓中國生產(chǎn)AK47,廠長拿到圖紙眼前一亮,連喊幾句:好槍!

蘇聯(lián)讓中國生產(chǎn)AK47,廠長拿到圖紙眼前一亮,連喊幾句:好槍!

Ck的蜜糖
2026-01-27 01:49:30
國產(chǎn)香煙加了助燃劑?測(cè)試發(fā)現(xiàn)只能燒4分鐘,而日本煙能燒7分鐘

國產(chǎn)香煙加了助燃劑?測(cè)試發(fā)現(xiàn)只能燒4分鐘,而日本煙能燒7分鐘

回旋鏢
2026-01-01 21:00:24
你聽過最勁爆的瓜是啥?網(wǎng)友:被大八歲的補(bǔ)習(xí)班老師表白了

你聽過最勁爆的瓜是啥?網(wǎng)友:被大八歲的補(bǔ)習(xí)班老師表白了

帶你感受人間冷暖
2025-11-26 00:10:06
凍雨、中到大雪、局地暴雪!新一股冷空氣將襲湖北

凍雨、中到大雪、局地暴雪!新一股冷空氣將襲湖北

魯中晨報(bào)
2026-01-26 22:25:11
92年李先念去世,保外就醫(yī)的吳法憲聽聞噩耗,即刻病倒,高燒數(shù)日

92年李先念去世,保外就醫(yī)的吳法憲聽聞噩耗,即刻病倒,高燒數(shù)日

大運(yùn)河時(shí)空
2025-09-25 23:23:44
洪森最大的失誤:低估了西哈莫尼國王,高估了兒子洪瑪奈!

洪森最大的失誤:低估了西哈莫尼國王,高估了兒子洪瑪奈!

阿柒的訊
2025-12-23 18:22:55
2026-01-27 02:40:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12065文章數(shù) 176362關(guān)注度
往期回顧 全部

科技要聞

印奇再上牌桌,階躍融資50億

頭條要聞

印度尼帕病毒現(xiàn)跨區(qū)域傳播 世衛(wèi):或引起全球大流行

頭條要聞

印度尼帕病毒現(xiàn)跨區(qū)域傳播 世衛(wèi):或引起全球大流行

體育要聞

叛逆的大公子,要砸了貝克漢姆這塊招牌

娛樂要聞

張雨綺被抵制成功!遼視春晚已將她除名

財(cái)經(jīng)要聞

從美式斬殺線看中國社會(huì)的制度韌性構(gòu)建

汽車要聞

賓利第四臺(tái)Batur敞篷版發(fā)布 解鎖四項(xiàng)定制創(chuàng)新

態(tài)度原創(chuàng)

手機(jī)
親子
旅游
公開課
軍事航空

手機(jī)要聞

華為Pura X2、OPPO Find N6、榮耀Magic V6,選擇糾結(jié)了!

親子要聞

“生孩子老了就這下場(chǎng)”,母親用按摩機(jī)被女兒網(wǎng)暴,網(wǎng)友看不下去

旅游要聞

本市將打造中國入境旅游首選地

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

委代總統(tǒng)稱遭美威脅:馬杜羅已死

無障礙瀏覽 進(jìn)入關(guān)懷版