国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

春節(jié)檔,Qwen3.5,壓軸登場!

0
分享至

今年這個春節(jié)檔,讓我覺得很幸運——

能在很近的距離,親眼見證,那么多優(yōu)秀的國產(chǎn)AI模型和產(chǎn)品的誕生。

就今天除夕,傳聞已久的Qwen3.5,終于來了。

說不清為什么,千問大模型這時候發(fā)布,有種壓軸出場、塵埃落定的很壓秤的感覺。

尤其是旗艦?zāi)P蚎wen3.5-397B-A17B,首次以開源權(quán)重亮相,最核心的概念是——原生多模態(tài)。

這個概念之前大家走的路線,大多是“拼接”。

想讓模型看懂圖,就在語言模型旁邊外掛一個視覺 encoder,把圖片轉(zhuǎn)成 token 再塞進去。

本質(zhì)上還是“看圖說話”和“文字理解”兩件事,最后把兩件事的理解湊在一起。


但Qwen3.5這次玩的是,從預(yù)訓(xùn)練第一天起,就讓文本、圖像、音頻、視頻這些數(shù)據(jù)在一個統(tǒng)一的底層空間里共同學(xué)習(xí),視覺和語言在早期就完成了深度融合。

這意味著什么?意味著模型不再是「看到」一張圖,而是「理解」一張圖,它理解圖中的空間關(guān)系、邏輯順序,甚至能結(jié)合上下文去做推理和執(zhí)行。

在處理 GUI 理解、視頻分析等多模態(tài)任務(wù)時,一個模型即可端到端完成,無需維護復(fù)雜的多模型 pipeline。

就在去年7月,黃仁勛跟王堅院士深談的時候就談過這個趨勢:

“我們已經(jīng)進入AI推理時代,下一波浪潮,是物理AI。”

現(xiàn)在回頭看,Qwen3.5這一步,似乎就是沖著“物理AI”去的。

讓AI從能說會道的聊天機器人,變成能觸碰、能感知、能執(zhí)行的智能體,去真正理解和操作那個三維的、實體的物理世界。

帶大家一起盤一盤,Qwen3.5這塊「原生多模態(tài)」的料,到底硬在哪兒。


01.當(dāng)AI有了眼睛和手

咱們以前聊智能體,大多是文本層面的交互。

你跟AI說“幫我訂個外賣”,它給你生成一段訂外賣的步驟說明,或者最多調(diào)用個API接口。

這離我們想象中的數(shù)字助手,還有一段距離。

而Qwen3.5這次放出來的能力,是讓模型自己有了眼睛和手,能直接像人一樣操作手機和電腦屏幕,也可以進行多形態(tài)的互動。

我測試了幾個例子,體驗很不一樣。


比如說我直接對Qwen3.5下達指令:“參考紅包雨視頻,做一個視覺捕捉手部動作的抓紅包的游戲?!?/p>


這在過去是一個需要拆解成很多步驟的流程:

得先用一個模型學(xué)習(xí)紅包雨視頻,一個模型提取手部動態(tài)關(guān)鍵幀,再用一個模型做紅包的視頻動效,還得用一個模型寫前端代碼……最后還得找個工程師把代碼跑起來看效果。

但在Qwen3.5這里,它就是一步到位。

它自己盯著屏幕看視頻,理解時序關(guān)系和事件演變,然后同時處理視覺理解和代碼生成,最后直接給出一個可運行的「新年抓紅包」小游戲。

這種能力的背后,是原生多模態(tài)帶來的「智能體推理」變化。

因為所有模態(tài)共享表征空間,它在看視頻里那個按鈕位置的同時,也在想這個按鈕對應(yīng)的代碼邏輯,視覺信息和行動決策之間沒有轉(zhuǎn)譯損耗。

在移動端,它能理解更復(fù)雜的跨應(yīng)用指令;

在PC端,它能處理的不是簡單的“打開網(wǎng)頁”,而是像“把上周的銷售數(shù)據(jù)從微信聊天記錄里截圖,提取數(shù)字做成表格,再貼進郵件發(fā)給老板”這種多步驟、跨應(yīng)用的流程。

我還做了一個「手勢音樂盒」,可以把不同的手指動作,和不同音符相對應(yīng)。

進階的版本是,可以把表格、數(shù)據(jù)、截圖,按照對應(yīng)關(guān)系下,都變成手勢舞和音樂,還能切換不同的音色。

和簡單的自動化映射還不一樣,這是AI在通過視覺觀察和理解,去驅(qū)動圖形界面完成工作。


比較經(jīng)典的場景,ORC識別,我直接用Qwen3.5做了一個弗蘭克翻譯器,可以識別任意圖片當(dāng)中的信息并翻譯,結(jié)果也很精準(zhǔn)。

Qwen3.5模型,總參數(shù)約400B的體量,加上混合注意力架構(gòu)的調(diào)度,讓它在這種強度的推理任務(wù)中,依然保持了足夠的流暢度。

Gartner的數(shù)據(jù)顯示,具備自主決策能力的AI Agent,其任務(wù)完成率已經(jīng)從去年的65%提升至今年的82%,而Qwen3.5顯然已經(jīng)站在了這個趨勢的前沿。

02.那道IMO幾何題,它真的會做

如果說操作屏幕是動手能力,那做數(shù)學(xué)題就是智力的體現(xiàn)。

去年很多模型在文字邏輯題上已經(jīng)能拿到高分,但一旦涉及到帶有復(fù)雜圖形的幾何題,尤其是那種需要添加輔助線、進行多步空間想象的競賽題,大多數(shù)模型就露怯了。

原因很簡單,視覺和邏輯在兩個系統(tǒng)里跑,圖像特征和數(shù)學(xué)符號對不上。

我給Qwen3.5出了一道難題——韋東奕當(dāng)年獲得金牌的題目,第50屆國際數(shù)學(xué)奧林匹克(IMO)題第6題。

請大家看這道題的題目:設(shè)a1,a2,…,an是互不相同的正整數(shù)。

M是有n-1個元素的正整數(shù)集,且不含數(shù)s=a1+az+…+an.一只蚱蜢沿著實數(shù)軸從原點0開始向右跳躍n步,它的跳躍距離是a1,a2…,an的某個排列。證明:可以選擇一種排列,使得蚱蜢跳躍落下的點所表示的數(shù)都不在集合M中。

Qwen3.5給出的答案非常長,說實話,我沒有完全看懂,大概能理解它的思路。


然后和標(biāo)準(zhǔn)答案一對,才發(fā)現(xiàn)解法很標(biāo)準(zhǔn)。

這道題在IMO競賽里,頁屬于難度高的一檔,需要建立坐標(biāo)系、設(shè)定變量、進行嚴謹邏輯推導(dǎo)的難題。

在沒有視頻只有文案的情況下,我盯著那道題的文字描述“s=a1+az+…+an”都看了半天,腦子里才勉強有點思路。

而Qwen3.5的解題過程,清晰地還原了它的推理鏈條。

還有一道圖形的題目,Qwen3.5解起來更是絲滑。

它先通過視覺系統(tǒng)識別了圖形中的點、線、角關(guān)系,然后迅速在腦子里建立了一個虛擬的坐標(biāo)系,把幾何問題代數(shù)化,接著一步步推導(dǎo),最終得出那個角度值。


這種能力的關(guān)鍵在于,它證明了模型在物理空間推理上的潛力。

王堅院士和黃仁勛對談時提到的那句“下一波浪潮是物理AI”,核心就是讓AI理解物理規(guī)律、空間邏輯。

Qwen3.5能解IMO幾何題,就意味著它能在更復(fù)雜的真實場景里發(fā)揮作用。

比如讓機器人理解“把這個箱子從那個架子后面繞過去,放在卡車的角落里”,它需要計算障礙物、承重面和運動軌跡。

這種從學(xué)科解題到任務(wù)規(guī)劃的延伸,是通往通用人工智能的一個臺階。


被稱為「數(shù)學(xué)莫扎特」的華人數(shù)學(xué)家陶哲軒,也一直對在IMO等數(shù)學(xué)競賽取得成績的AI模型,十分關(guān)注;他認為,人工智能技術(shù),現(xiàn)已迅速接近從定性到定量成果的轉(zhuǎn)型階段。

模型不再只是匹配答案,而是在進行多步邏輯推導(dǎo),這是過去那些外掛視覺模塊的模型不容易做到的。


從行業(yè)競爭的維度看,某種程度上,也揭示了中美大模型發(fā)展路徑的分化。

華泰證券的一份研報指出,在Scaling Law 2.0驅(qū)動下,海外重心由預(yù)訓(xùn)練轉(zhuǎn)向后訓(xùn)練與強化學(xué)習(xí),依靠算力堆砌取得性能優(yōu)勢;

而國內(nèi)在算力受限的背景下,更側(cè)重架構(gòu)與算法的精修,以注意力優(yōu)化技術(shù)提升訓(xùn)練推理的效率與性價比。

Qwen3.5在視覺推理上的突破,也是這種「精修路線」的成果——

用更合理的架構(gòu)設(shè)計,在復(fù)雜推理任務(wù)上實現(xiàn)了對更大參數(shù)規(guī)模模型的超越。

路透社最近的一篇觀察也印證了這一點:中國AI模型的推理能力不遜色于美國同行,但部署成本要低得多,這正在影響全球AI產(chǎn)業(yè)的成本效率曲線。

03.看電影、構(gòu)思視頻,不在話下

上下文窗口這個東西,以前我們關(guān)注它,是因為長篇小說翻譯、財報分析這些純文本任務(wù)。

但Qwen3.5這次直接把1M token的上下文能力和多模態(tài)視頻理解結(jié)合起來。

1M token能一口氣直接吃進去長達兩小時的視頻素材,不需要提前抽幀,不需要分段處理,就是完整地看完。

我拿了一部兩個多小時的《盜夢空間》去試,讓它分析“柯布心里那個關(guān)于梅爾的念想,在整個電影里是通過哪些視覺符號一步步呈現(xiàn)的?”。

這是個需要理解長時序關(guān)聯(lián)的問題。

Qwen3.5的回復(fù)讓我印象深刻。它不僅找到了陀螺第一次轉(zhuǎn)動的開場畫面,還捕捉到了不同層級夢境中“梅爾”出現(xiàn)時的光影變化、臺詞暗示。

甚至能對比現(xiàn)實世界和夢境中“戒指”這個道具出現(xiàn)的時機,最后生成了一篇既有細節(jié)截圖又有分析的影評。

基于對《盜夢空間》的情節(jié)理解,我讓Qwen3.5把電影轉(zhuǎn)化成一個夢境主題的推理密室,并做成一個小游戲。


這種能力的實現(xiàn),得益于它原生多模態(tài)架構(gòu)下的時序關(guān)系捕捉能力。

視頻不是圖像的簡單堆疊,而是有因果邏輯的時間序列。

Qwen3.5在處理視頻時,能分析不同時刻的事件演變,把碎片化的鏡頭語言,串聯(lián)成有邏輯的敘事整體。

這對于內(nèi)容創(chuàng)作者、視頻分析師,甚至是安防監(jiān)控領(lǐng)域來說,是一個實用的工具。

以前需要一幀一幀看的監(jiān)控錄像,以后可能只需要一句話:

“把昨天下午三點到五點,那個穿紅衣服的人出現(xiàn)的所有片段剪出來,并標(biāo)記出他每次出現(xiàn)的具體位置?!盦wen3.5已經(jīng)具備了這種潛力的雛形。


也許這也是一個更大的趨勢:中國AI在多模態(tài)領(lǐng)域的突破正從“單點”走向“全面”。

這個春節(jié)檔被外媒稱為“中國AI超級周”。

智譜發(fā)布了新一代旗艦?zāi)P虶LM-5,MiniMax也有M2.5的新動作,字節(jié)發(fā)布的Seedance 2.0同樣引發(fā)了業(yè)界關(guān)注……馬斯克都在社交媒體上感嘆進展很快。

咨詢公司Omdia的首席分析師蘇廉節(jié)評價道:“開源獲取、強大的推理能力與低部署成本的結(jié)合,已成為中國企業(yè)構(gòu)建和推廣基礎(chǔ)模型的標(biāo)志性模式”。

而Qwen3.5的視頻理解能力,正是這種模式下的又一例證。

04.視覺編程,潦草變藝術(shù)

最后這塊,是我覺得能觸動普通用戶和開發(fā)者爽點的功能——視覺編程能力。

文案里有個demo讓我印象很深:把手繪界面草圖直接轉(zhuǎn)為可用的前端代碼。


我在草稿紙上畫了一個潦草的App界面,畫了幾個框框?qū)憽皌itle”,打了個叉代表“商品主圖”,底下歪歪扭扭寫了“商品介紹”相關(guān)字。

拍照,發(fā)給Qwen3.5,給它指令:“做成一個網(wǎng)頁”。

幾秒鐘后,它真的給你一個HTML文件,打開一看,布局是對的,甚至給你配上了符合現(xiàn)代審美的色彩和圓角。

更進一步的,你還可以通過截圖告訴它“這里有個UI Bug,幫我修一下”,它能直接定位到代碼里的問題,生成修復(fù)方案。


這背后是像素級位置信息和代碼生成能力的融合。

模型在看那張草圖的時候,不僅識別出“這是個按鈕”,還能推理出這個按鈕在2D空間中的坐標(biāo)、大小、與周圍元素的距離。

然后,這個帶著空間屬性的“視覺理解”,直接流向“代碼生成”模塊,自動計算布局參數(shù),生成布局代碼。

它甚至可以在推理過程中,對圖像進行處理,比如自動裁剪局部區(qū)域放大細節(jié),或者通過標(biāo)注來強化關(guān)鍵特征,從而實現(xiàn)比傳統(tǒng)方法更精細的視覺推理。

但這種能力真正的價值,不只在代碼生成本身。把Qwen3.5放進阿里整個AI版圖里看,它的戰(zhàn)略意義才真正顯現(xiàn)。

國泰海通的一份研報點出了一個趨勢:阿里的頂層戰(zhàn)略正在發(fā)生變化,從“比模型”轉(zhuǎn)向“拼體系”,用“模型+生態(tài)+AI Infra”爭奪下一代平臺的主導(dǎo)權(quán)。

內(nèi)部提出的“通云哥”概念,將通義實驗室、阿里云、平頭哥綁定為一體化“黃金三角”,強調(diào)算力供給、模型能力與系統(tǒng)工程的協(xié)同。


這意味著Qwen3.5的能力,未來將直接注入到整個阿里數(shù)字經(jīng)濟體的毛細血管里。

你可以想象這樣的場景:在淘寶購物時,拍一張心儀的家具照片,Qwen3.5直接看懂你的風(fēng)格偏好,自動在商品庫中匹配,還能用AR能力幫你預(yù)覽擺放效果;

在高德地圖里,拍一下眼前的街景,它能識別地標(biāo)并規(guī)劃路線;在釘釘里,手繪一個流程圖,它直接轉(zhuǎn)成可執(zhí)行的自動化工作流。

平頭哥在底層提供算力支撐,阿里云負責(zé)規(guī)?;渴穑柲P痛蛲☉?yīng)用層——這種從AI基礎(chǔ)設(shè)施到上層應(yīng)用的全鏈路打通,正是其他廠商短期內(nèi)不容易復(fù)制的優(yōu)勢。

05.

測完Qwen3.5,我坐在電腦前想了很久。

當(dāng) AI 能夠替代越來越多大家過去認為 “只有人才能做” 的事情,我們也不得不解構(gòu)自己,被逼迫著回答 “自己作為人,到底還有什么獨特的價值”。

去年的DeepSeek R1讓大家看到了中國模型在單點推理能力上的突破,那是屬于一個階段的成果。

而今天的Qwen3.5,背靠阿里巴巴AI“大模型+云+芯片”的完整全棧陣型,向我們展示了一幅產(chǎn)業(yè)鏈協(xié)同作戰(zhàn)的圖景

終于,人工智能不只是單一的「語言腦」,還有了「視覺眼」和「行動手」。


從芯片在底層支撐海量多模態(tài)數(shù)據(jù)的訓(xùn)練,到模型本身原生支持圖像、視頻、代碼,再到未來打通手機、電腦、智能家居乃至工業(yè)機器人的生態(tài)——

阿里正在做的,是讓AI存在于對話框之外,慢慢滲透進生活的不同角落。

以開源為基礎(chǔ),衍生出種種不同的場景的模型和應(yīng)用。


那種感覺就像是,去年我們還在為造出了一臺跑得很快的引擎而高興;

今年卻發(fā)現(xiàn),有人已經(jīng)把這臺引擎,裝進了一輛可以適應(yīng)不同路況的車里,并且開始規(guī)劃更長遠的路線。

Qwen3.5證明了中國AI在模型架構(gòu)層面的創(chuàng)新能力,證明了我們不僅能跟跑,還能在「原生多模態(tài)」這個路徑上找到自己的方向。


中原證券的一份報告甚至指出,2026年國產(chǎn)AI大模型將形成對海外頭部模型的替代,或?qū)⒂绊懭駻I模型競爭格局。

回過頭看,從DeepSeek R1去年的亮相,到今天Qwen3.5的格局奠定,再到智譜、字節(jié)、騰訊在各自領(lǐng)域的進展,中國AI在2026年初呈現(xiàn)出的這股勢頭,比去年更加扎實。

我期待,未來當(dāng)我們拿起手機,或者走進辦公室,那個無處不在的AI助手,能真正看懂我們的手勢,預(yù)判我們的需求。

讓每個人的生活,因為這份源自中國的技術(shù),變得更加簡單而美好。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
51集諜戰(zhàn)大劇來襲,連續(xù)4天全國第一,這部諜戰(zhàn)作品值得一看

51集諜戰(zhàn)大劇來襲,連續(xù)4天全國第一,這部諜戰(zhàn)作品值得一看

樂楓電影
2026-04-09 14:10:12
三峽大壩收支出爐:運行20余年,總投資近2500億,如今回本了嗎?

三峽大壩收支出爐:運行20余年,總投資近2500億,如今回本了嗎?

丁丁鯉史紀
2026-04-07 10:44:35
1939年,一名波蘭女孩赤身露體被迫和德軍合影,低著頭一臉羞愧

1939年,一名波蘭女孩赤身露體被迫和德軍合影,低著頭一臉羞愧

浩舞默畫
2026-04-07 09:05:56
陪玩陪睡都是毛毛雨!王思聰前女友曝“丑聞”,王家徹底坐不住了

陪玩陪睡都是毛毛雨!王思聰前女友曝“丑聞”,王家徹底坐不住了

一曲一場談
2026-04-09 13:56:12
燈滅之后的砂砂舞廳:五塊錢的舊時光與二十塊的新江湖

燈滅之后的砂砂舞廳:五塊錢的舊時光與二十塊的新江湖

成都人的故事
2026-04-09 17:55:06
以色列空襲一天內(nèi)致上千人死傷 黎巴嫩宣布全國哀悼

以色列空襲一天內(nèi)致上千人死傷 黎巴嫩宣布全國哀悼

國際在線
2026-04-09 08:11:56
查了下資料,有點心疼遲重瑞了!

查了下資料,有點心疼遲重瑞了!

木子愛娛樂大號
2026-04-08 15:49:32
馬克龍簽涉臺聲明后,中方雙管齊下,朱鳳蓮強硬發(fā)聲,法國賭輸了

馬克龍簽涉臺聲明后,中方雙管齊下,朱鳳蓮強硬發(fā)聲,法國賭輸了

像夢一場a
2026-04-10 02:05:33
錯失最年輕147,中國17歲斯諾克少年橫空出世,10-5晉級第2輪

錯失最年輕147,中國17歲斯諾克少年橫空出世,10-5晉級第2輪

真理是我親戚
2026-04-09 11:14:21
小女孩玩“拼豆”不幸離世,這些安全隱患要警惕

小女孩玩“拼豆”不幸離世,這些安全隱患要警惕

大象新聞
2026-04-09 18:21:08
原來她已去世4年,曾穿旗袍滿身帝王綠,300間商鋪345套房隨便住

原來她已去世4年,曾穿旗袍滿身帝王綠,300間商鋪345套房隨便住

混沌錄
2026-04-09 18:24:16
美伊停戰(zhàn)內(nèi)幕曝光:特朗普被猶太人釣成了翹嘴

美伊停戰(zhàn)內(nèi)幕曝光:特朗普被猶太人釣成了翹嘴

木蹊說
2026-04-10 00:56:49
特別巨大是多大

特別巨大是多大

言立方
2026-04-07 12:02:41
CBA新排名!北京重返四強,廣東第五遼寧第九,深圳男籃連升三級

CBA新排名!北京重返四強,廣東第五遼寧第九,深圳男籃連升三級

中國籃壇快訊
2026-04-10 00:00:52
福建車輛墜河5死后續(xù),親戚澄清3條真相,尤其痛心是車外男子身份

福建車輛墜河5死后續(xù),親戚澄清3條真相,尤其痛心是車外男子身份

天天熱點見聞
2026-04-09 17:24:21
廣東男子掃墓發(fā)現(xiàn)巨型蛇蛻,腹鱗比手掌都寬!網(wǎng)友:不能亂拿!

廣東男子掃墓發(fā)現(xiàn)巨型蛇蛻,腹鱗比手掌都寬!網(wǎng)友:不能亂拿!

貍貓之一的動物圈
2026-04-09 09:00:30
四小時摧毀伊朗,法國提前動手,中方罕見表態(tài),伊朗:美國中計了

四小時摧毀伊朗,法國提前動手,中方罕見表態(tài),伊朗:美國中計了

云舟史策
2026-04-08 07:38:51
悲壯!美國或?qū)l(fā)動滅國之戰(zhàn),1400萬伊朗人甘愿為國犧牲

悲壯!美國或?qū)l(fā)動滅國之戰(zhàn),1400萬伊朗人甘愿為國犧牲

兵國大事
2026-04-08 00:05:08
“我們毫無勝算”本田社長來了趟中國,回國就把自家新車全給砍了

“我們毫無勝算”本田社長來了趟中國,回國就把自家新車全給砍了

半身Naked
2026-04-09 22:07:24
為什么WTO很少被提起了?中國入世談判花了15年,如今幾乎被架空

為什么WTO很少被提起了?中國入世談判花了15年,如今幾乎被架空

有范又有料
2026-04-07 16:45:46
2026-04-10 03:28:49
AI異類 incentive-icons
AI異類
從硅谷到中關(guān)村,AI信息與測評
148文章數(shù) 6關(guān)注度
往期回顧 全部

科技要聞

Meta凌晨首發(fā)閉源大模型 扎克伯格又行了?

頭條要聞

以色列總理:同意與黎巴嫩直接談判

頭條要聞

以色列總理:同意與黎巴嫩直接談判

體育要聞

8萬人面前心臟驟停 現(xiàn)在他還站在球場上

娛樂要聞

金莎官宣結(jié)婚 與老公孫丞瀟相差18歲

財經(jīng)要聞

停火又懸了,最糟糕的情況要來了?

汽車要聞

文飛掌舵,給神行者帶來了什么?

態(tài)度原創(chuàng)

游戲
藝術(shù)
家居
親子
公開課

Xbox手柄重大失誤!微軟補償方案出爐堪稱豪華

藝術(shù)要聞

戰(zhàn)亂中趕工?阿聯(lián)酋首個賭場度假村?,明年建成!

家居要聞

清新自然 復(fù)古風(fēng)尚

親子要聞

五個月的寶寶必須學(xué)溫伯格的宇宙學(xué)才不哭

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版