国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

千問版Gemini3,來了

0
分享至


作者 | Yoky
郵箱 | yokyliu@pingwest.com

第一個國產(chǎn)版Gemini3,來了。

1月26日,阿里正式發(fā)布千問旗艦推理模型Qwen3-Max-Thinking。

據(jù)介紹,Qwen3-Max-Thinking總參數(shù)超萬億、預訓練數(shù)據(jù)量高達36T Tokens,在科學知識(GPQA Diamond)、數(shù)學推理(IMO-AnswerBench)、代碼編程(LiveCodeBench)等多項權威評測中刷新了全球紀錄。它在數(shù)學推理AIME 25和HMMT 25上拿到了國內首個雙滿分,甚至在“人類最后的測試”HLE中得分58.3,大幅超過GPT-5.2-Thinking的45.5和Gemini 3 Pro的45.8。


更關鍵的是時間點。如果你最近關注AI圈,會發(fā)現(xiàn)各家大模型廠商都在憋大招,阿里搶在這個節(jié)骨眼上發(fā)布Qwen3-Max-Thinking,擺明了就是要搶“國產(chǎn)第一個Gemini 3”的名號。

榜單數(shù)據(jù)再好看,到底能不能媲美Gemini3?

試了幾次Qwen生成代碼,前幾次任務失敗率還挺高的,但只要碰到阿里擅長的場景,表現(xiàn)就完全不一樣。比如讓它做一個賣水果的電商網(wǎng)站,商品分類、加購物車、一起結算這些功能,基本一次就寫出來了,而且邏輯很完整,體驗也流暢。很明顯,電商這種場景它見得太多了,淘寶天貓的數(shù)據(jù)喂得夠飽,所以做起來特別順手。

但換成其他類型的任務,成功率就不太穩(wěn)定了。如果你的需求正好在它的舒適區(qū)里,那體驗確實要相對好;如果偏離了,可能得多試幾次調整提示詞。

我還專門測試了一個更復雜的交互案例:用攝像頭做體感控制的打氣球游戲,這也是Gemini 3展示過的經(jīng)典demo。具體需求是:用手勢控制屏幕上的準星,做捏合動作(拇指和食指并攏)來射擊從下往上飄的氣球,還要有天空背景、云層漂移、擊中特效、連擊反饋這些細節(jié)。

千問的表現(xiàn)讓我有點意外。整個游戲的框架它一次就搭出來了:天空漸變背景、氣球從底部生成往上飄、大小不同速度不同、UI顯示分數(shù)和連擊數(shù),這些基礎邏輯都沒問題。

交互效果做得挺有意思。伸出食指,屏幕上的準星就會跟著手移動,拇指和食指捏合就能開火。擊中氣球的瞬間,屏幕會輕微震動,氣球爆開時有粒子特效散開,還有“啵”的一聲音效,反饋感做得很足。連續(xù)擊中會顯示combo數(shù)字,這種即時反饋確實有代入感。

但實際玩起來有個明顯的問題:瞄不準。手指明明對著一個氣球,但準星位置總是偏的,打了好幾發(fā)才能碰巧打中。這應該是手部追蹤和屏幕坐標映射之間有偏差,或者校準算法不夠精確。雖然Qwen做出了體感控制的完整流程:攝像頭調用、手勢識別、射擊反饋這些環(huán)節(jié)都跑通了,但核心的“指哪打哪”這個精度沒做好,導致游戲性打了折扣。

不過,千問這次最厲害的地方,不是參數(shù)有多大,而是它“想問題”的方式變了。在關鍵的模型推理能力提升中,千問新模型采用了一種全新的測試時擴展(Test-time Scaling)機制,推理性能提升的同時還更經(jīng)濟。

打個比方,以前的AI做數(shù)學題是這樣的:同時寫10份答案,然后投票看哪個對的人多,就選哪個。這種方法很笨,浪費算力,而且10份答案里可能犯的都是同一個錯誤。

Qwen3改成了人類的做法:先做一遍,做完看看哪里不對,總結一下經(jīng)驗,再重新做。就像你做錯題本一樣,第二遍肯定比第一遍做得好。結果就是,在那個需要用工具解決問題的測試里,Qwen拿了58.3分,Gemini只有45.8分,差了一大截。

在調用工具層面,千問的做法是把工具使用能力“訓練進”模型里,在完成初步的工具使用微調后,通義團隊對模型進一步在大量多樣化任務上進行了基于規(guī)則獎勵與模型獎勵的聯(lián)合強化學習訓練,使得Qwen3-Max-Thinking擁有更智能結合工具進行思考的能力。

它用三步訓練法:先教會用工具,再在各種任務里強化練習,最后形成條件反射。好處很明顯:用起來又快又順,不用每次都去讀工具說明書,而且模型自己知道該在什么時候用什么工具。這就是為什么Qwen在HLE測試里比Gemini高出12分,特別是需要連續(xù)用好幾個工具解決復雜問題的時候,這種“肌肉記憶”優(yōu)勢就體現(xiàn)出來了。

對比之下,Gemini走的是傳統(tǒng)軟件工程的路子:模型只負責理解你要干什么,具體調工具靠外部API框架。這樣做最大的好處是靈活:Google想接入沃爾瑪?shù)馁徫锕δ?,不用重新訓練模型,插個API就行。但代價是每次用工具都要走“理解意圖—翻譯成API調用—執(zhí)行—解析結果”這一整套流程,慢而且容易出錯。

千問的代碼生成能力,已超越單純的“語法翻譯器”,更像一位理解你意圖的技術伙伴。它不僅能將需求轉化為可運行的代碼,更具備工程直覺:知道何時優(yōu)化性能、何時簡化實現(xiàn)、何時添加容錯機制。

這種“度”的把握,恰恰是AI從“工具”走向“協(xié)作者”的關鍵躍遷。


點個愛心,再走 吧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
天龍八部戰(zhàn)力前10排名,蕭峰第4,慕容博第10,榜首無敵了百年

天龍八部戰(zhàn)力前10排名,蕭峰第4,慕容博第10,榜首無敵了百年

武俠百曉生
2026-02-28 00:05:34
白宮:特朗普徹夜關伊朗局勢 并與內塔尼亞胡通電話

白宮:特朗普徹夜關伊朗局勢 并與內塔尼亞胡通電話

財聯(lián)社
2026-03-01 00:57:38
出大事了,特朗普話音剛落,伊朗首都發(fā)生爆炸,朝鮮也“認慫”

出大事了,特朗普話音剛落,伊朗首都發(fā)生爆炸,朝鮮也“認慫”

策略述
2026-02-28 16:23:21
這樣的教材,教出來的究竟是人才還是蠢材?

這樣的教材,教出來的究竟是人才還是蠢材?

作家加野
2026-02-06 10:01:56
褚時健到2002年才明白,原來當年是得罪了惹不起的那幾位

褚時健到2002年才明白,原來當年是得罪了惹不起的那幾位

阿柒的訊
2026-02-24 15:07:34
人不會無緣無故患帶狀皰疹!調查發(fā)現(xiàn):得帶狀皰疹,離不開這4點

人不會無緣無故患帶狀皰疹!調查發(fā)現(xiàn):得帶狀皰疹,離不開這4點

健康科普365
2026-02-27 19:05:05
2月1日起,這條法規(guī)正式施行,閱讀為何不再是“一個人的事”

2月1日起,這條法規(guī)正式施行,閱讀為何不再是“一個人的事”

每日經(jīng)濟新聞
2026-02-28 10:28:10
這次荷蘭沒話說了!中方正式宣布:更換國內供應商,從此不再合作

這次荷蘭沒話說了!中方正式宣布:更換國內供應商,從此不再合作

曉劗就是我
2026-02-26 15:50:07
打虎!韓嵩,主動投案

打虎!韓嵩,主動投案

農民日報
2026-02-28 20:17:51
慌了!東莞南城要跌破1字頭了……

慌了!東莞南城要跌破1字頭了……

樓市滅霸
2026-02-28 22:56:28
別再尬演白月光了!臉腫皮松,嘟嘴裝嫩,是迷倒男人該有的皮囊?

別再尬演白月光了!臉腫皮松,嘟嘴裝嫩,是迷倒男人該有的皮囊?

不似少年游
2026-02-24 19:46:25
24小時內,中方雙重警報拉響!一個跡象表明,美伊最后時刻或到來

24小時內,中方雙重警報拉響!一個跡象表明,美伊最后時刻或到來

娛樂小可愛蛙
2026-02-28 17:27:31
410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

深度報
2025-12-14 22:36:54
《乘風2026》最終陣容:29位姐姐名單出爐,沒有大咖支撐

《乘風2026》最終陣容:29位姐姐名單出爐,沒有大咖支撐

音樂鋼琴娛樂咖
2026-02-22 14:07:52
晚飯七分飽被推翻了?醫(yī)生調查:過了71歲,吃飯盡量要做到這3點

晚飯七分飽被推翻了?醫(yī)生調查:過了71歲,吃飯盡量要做到這3點

健康科普365
2026-02-28 19:40:03
鄭玄波已任全總副主席候選人、書記處書記人選、黨組成員

鄭玄波已任全總副主席候選人、書記處書記人選、黨組成員

澎湃新聞
2026-02-28 12:06:26
59歲宋祖英現(xiàn)身活動狀態(tài)驚艷!短發(fā)利落大氣,黑色套裝優(yōu)雅端莊

59歲宋祖英現(xiàn)身活動狀態(tài)驚艷!短發(fā)利落大氣,黑色套裝優(yōu)雅端莊

琴聲飛揚
2026-02-12 11:51:25
正兩折清倉的GUESS還有機會重返中國嗎?

正兩折清倉的GUESS還有機會重返中國嗎?

界面新聞
2026-02-28 12:16:23
中國總領事已發(fā)出提醒:當心普京!在俄中國人可能被“抓壯丁”

中國總領事已發(fā)出提醒:當心普京!在俄中國人可能被“抓壯丁”

混沌錄
2026-02-27 21:40:09
老人把自己的金手鐲做成5枚金戒指,在自己的80歲壽宴上送給4個兒媳和1個女兒!

老人把自己的金手鐲做成5枚金戒指,在自己的80歲壽宴上送給4個兒媳和1個女兒!

張曉磊
2026-02-26 11:21:08
2026-03-01 04:32:49
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎,歡迎來到這個星球。
2894文章數(shù) 10458關注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

伊朗媒體公布反擊美軍軍事行動結果

頭條要聞

伊朗媒體公布反擊美軍軍事行動結果

體育要聞

球隊主力全報銷?頂風擺爛演都不演了

娛樂要聞

周杰倫兒子正面照曝光,與父親好像

財經(jīng)要聞

沖突爆發(fā) 市場變天?

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

時尚
旅游
本地
健康
公開課

這6款發(fā)色居然這么火?50張圖可以直接給tony

旅游要聞

忻州古城×元宵節(jié) | “夯”爆了!看非遺社火解鎖忻州古城的超長年味!

本地新聞

津南好·四時總相宜

轉頭就暈的耳石癥,能開車上班嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版