国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

阿里最強全模態(tài)模型登場!實測看懂50分鐘《老友記》,全球評測215項SOTA

0
分享至


智東西
作者 陳駿達
編輯 李水青

智東西3月31日報道,昨天,阿里推出了最新一代全模態(tài)大模型Qwen3.5-Omni,這是一款能原生理解文本、圖片、音頻及音視頻輸入的模型,并能以文本和音頻兩種模態(tài)輸出。

阿里上一次更新Omni系列模型還是在去年9月。昨天上線的Qwen3.5-Omni系列包含Plus、Flash、Light三種尺寸,支持256k長上下文超過10小時的音頻輸入,以及超過400秒的720P(1 FPS)音視頻輸入。

千問團隊在技術博客中稱,在215項音頻/音視頻的理解、推理和交互任務上,Qwen3.5-Omni-Plus取得了SOTA成績。這一模型的通用音頻理解、推理、識別、翻譯、對話超越了Gemini-3.1 Pro,音視頻理解能力總體達到Gemini-3.1 Pro水平。同時,視覺和文本能力與同尺寸Qwen3.5模型持平。


這些能力解鎖了不少有趣的用例,比如,你可以在realtime模式下拿著手機、打開攝像頭,對著草圖向Qwen3.5-Omni分享你的開發(fā)思路,而它能幫你生成對應的代碼,實現(xiàn)“用嘴編程”,快速輸出原型設計。


此外,Qwen3.5-Omni可以理解39種國內(nèi)方言和74種語言,并合成7種國內(nèi)方言和29種語言的音頻,在多語言支持上較上一代模型Qwen3-Omni有了明顯擴展。


我們試著用閩南話與Qwen3.5-Omni聊了會兒天,它對閩南語的理解準確,生成的語音也較為地道,不過仍然夾雜幾個普通話詞匯。從發(fā)送語音到返回音頻,Qwen3.5-Omni大概用了1-2秒,還調(diào)用了網(wǎng)絡搜索提供了正確的當日天氣信息。

目前,Qwen3.5-Omni系列模型可在阿里云百煉上通過API調(diào)用的方式使用,并支持offline和realtime兩種調(diào)用模式。此外,用戶也可在chat.qwen.ai、Hugging Face和魔搭上體驗這一模型。

這一模型的API調(diào)用價格采取階梯計費模式,在常用的輸入≤128k場景下,其音頻輸入價格為4.96元/百萬tokens,文本/圖片/視頻輸入價格為0.8元/百萬tokens。模型的輸出價格為61.322元/百萬tokens(文本+音頻),僅輸出文本時的價格為9.6元/百萬tokens。


模型發(fā)布后,智東西第一時間對Qwen3.5-Omni-Plus進行了體驗。這一模型在長視頻理解、多模態(tài)指令遵循方面展現(xiàn)了不錯的處理能力,同時其低延遲的實時交互與新增的語音控制功能,提升了交互體驗。

Qwen3.5-Omni-Plus-Realtime:

https://help.aliyun.com/zh/model-studio/realtime

Qwen3.5-Omni-Plus:

https://bailian.console.aliyun.com/cn-beijing?tab=model#/model-market/detail/qwen3.5-omni-plus

魔搭離線Demo:

https://modelscope.cn/studios/Qwen/Qwen3.5-Omni-Offline-Demo

魔搭實時Demo:

https://modelscope.cn/studios/Qwen/Qwen3.5-Omni-Online-Demo

一、1分鐘看完50分鐘視頻,還能實現(xiàn)“用嘴編程”

在技術博客中,千問團隊稱,Qwen3.5-Omni-Plus的一大能力是音視頻描述(Caption)。結(jié)合提示詞要求,Qwen3.5-Omni-Plus可以生成劇本級的細粒度描述,并進行自動切片、時間戳打標和人物與音頻關系的詳細介紹。

實測中,我們向Qwen3.5-Omni-Plus上傳了一集50分鐘左右的美劇《老友記》,并讓它按照系統(tǒng)提示詞的要求,輸出畫面內(nèi)容的準確描述。


Qwen3.5-Omni-Plus處理這集內(nèi)容大概用了1分鐘,速度還是較為理想的。它的描述完整覆蓋了視頻時間線,無跳躍或遺漏,符合“按時間描述”的核心要求。


具體內(nèi)容上,它的描述抓住了核心劇情轉(zhuǎn)折點,能識別重要人物關系和情緒變化,描述不是機械羅列,而是帶有輕微敘事感,效果比不少網(wǎng)盤中自動生成的AI視頻摘要可讀性強很多。


官方案例中,Qwen3.5-Omni-Plus收到了一段《舌尖上的中國》的切片,并對其進行音視頻描述。可以看到,Qwen3.5-Omni-Plus能按照畫面敘事和內(nèi)容自動切分合適的時間節(jié)點,對內(nèi)容的描述既包含了畫面,也包含了配音,結(jié)構清晰、細節(jié)豐富。

結(jié)合更為復雜的提示詞,Qwen3.5-Omni-Plus還可用于審核類任務,比如檢測游戲直播是否包含血腥暴力、危險行為、言語與欺凌和其他不當主題。

千問團隊還觀察到了全模態(tài)模型涌現(xiàn)出可以根據(jù)音視頻指令直接進行編程的能力,他們稱之為“Audio-Visual Vibe Coding”。

實測中,我們上傳了一段錄屏,要求千問根據(jù)其中的畫面和語音指令快速開發(fā)一個社交媒體的原型。拿到視頻后,Qwen3.5-Omni-Plus很快就開始編程,視頻內(nèi)容并未帶來明顯可感知的延遲。


其生成的網(wǎng)頁效果如下,基本符合小紅書網(wǎng)頁版的布局特點,各個界面的跳轉(zhuǎn)邏輯正確,手動插入圖片后,應該能達到80%的還原度。


官方Demo中,千問團隊還展示了Qwen3.5-Omni-Plus根據(jù)草圖生成網(wǎng)頁的能力。用戶只需在紙上畫出簡單的界面線框圖,拍照上傳并口述功能需求,模型便能理解設計意圖,直接輸出可運行的前端代碼。

二、實時交互能力加強,支持隨意打斷、語音克隆

除了基座能力的提升,Qwen3.5-Omni系列模型的交互能力也得到加強。

Qwen3.5-Omni如今支持了語義打斷,也就是說用戶可以在模型“說話”的時候隨意插話,補充信息,提供新指令等等。

這一交互體驗基于Qwen3.5-Omni自動識別turn-talking意圖能力,可避免附和和無意義背景音打斷,已在API已原生支持。

在官方Demo中,可以看到Qwen3.5-Omni不會被“嗯嗯”這些附和性的內(nèi)容打斷,而當用戶確實提出問題時,模型可以及時停止此前的回復并生成新內(nèi)容。


Qwen3.5-Omni原生支持了網(wǎng)絡搜索和復雜FunctionCall能力,模型可以自主判斷是否需要使用網(wǎng)絡搜索來回應用戶的即時問題。我們在文章伊始展示的方言對話案例中,模型能搜索實時天氣信息,靠的就是這一能力。

端到端的語音控制和對話能力也已經(jīng)整合至Qwen3.5-Omni中。模型可以像人一樣遵循指令來對聲音的大小、語速、情緒進行自由控制。

Qwen3.5-Omni支持音色克隆,用戶可以上傳音色來定制音色。官方Demo中,Qwen3.5-Omni能克隆說話者的音色,然后將其轉(zhuǎn)換為不同的語言,實現(xiàn)交替?zhèn)髯g。


三、延用Thinker-Talker分工架構,采用混合注意力機制

Qwen3.5-Omni系列模型是如何實現(xiàn)上述能力的?

Qwen3.5-Omni延續(xù)了上一代的Thinker-Talker分工架構——Thinker負責理解,Talker負責表達。但這一次,兩者都改為Hybrid-Attention MoE(混合注意力MoE),提升了模型效率和性能。


Thinker負責接收視覺和音頻信號,通過TMRoPE編碼位置信息,輸出文本。Hybrid-Attention讓它在處理10小時長音頻、1小時視頻時,依然能快速抓住重點。

Talker則接收Thinker的多模態(tài)輸出,進行contextual語音生成。還使用RVQ編碼替代繁重的DiT運算。

針對流式語音交互中由于文本與語音Token編碼效率差異導致的語音不穩(wěn)定性,如漏讀、誤讀或數(shù)字發(fā)音模糊等問題,千問團隊使用了ARIA(自適應速率交錯對齊,Adaptive Rate Interleave Alignment)技術、動態(tài)對齊文本與語音單元,可在保證實時性的前提下,提升語音合成的自然度與魯棒性。

Qwen3.5-Omni與Qwen3-Omni的詳細對比如下:


結(jié)語:全模態(tài)能力或?qū)⒔怄i更多AI應用場景

模型的全模態(tài)化已經(jīng)成為一大趨勢。從千問的Omni系列模型再到谷歌的Gemini,未來的模型將不再僅僅是文本、圖像或音頻能力的簡單疊加,而是具備統(tǒng)一的理解與生成架構,能夠像人類一樣自然地處理流式音視頻輸入。

隨著長上下文處理、方言和多語言適配及低延遲響應能力的不斷擴展,大模型的全模態(tài)能力有望在內(nèi)容審核、智能客服、實時翻譯發(fā)揮更大作用,提供更為自然的交互體驗。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
巴基斯坦大批預警機升空,給以色列上了一課:中方顯然背后指點了

巴基斯坦大批預警機升空,給以色列上了一課:中方顯然背后指點了

安安說
2026-04-11 11:30:55
A股:股民做好準備了,下周一,4月13日,很可能將迎來更大的轉(zhuǎn)變

A股:股民做好準備了,下周一,4月13日,很可能將迎來更大的轉(zhuǎn)變

虎哥閑聊
2026-04-11 09:19:16
俄軍坦言被炸得心驚膽戰(zhàn):烏克蘭啟用AI自殺無人機,自發(fā)收割目標

俄軍坦言被炸得心驚膽戰(zhàn):烏克蘭啟用AI自殺無人機,自發(fā)收割目標

日新現(xiàn)場
2026-04-09 14:50:23
賴清德收到了“參會通知”,一看身份欄那行標注當場破防:不去!

賴清德收到了“參會通知”,一看身份欄那行標注當場破防:不去!

聞識
2026-04-10 15:56:38
"我不要活了!"上海一阿婆崩潰,買了近30年的保險全被退!警方:若繼續(xù)持有價值百萬

"我不要活了!"上海一阿婆崩潰,買了近30年的保險全被退!警方:若繼續(xù)持有價值百萬

臺州交通廣播
2026-04-09 22:32:54
中國學霸赴美淪為妓女,嫁給白人賭鬼,說美國是世界上最棒的國家

中國學霸赴美淪為妓女,嫁給白人賭鬼,說美國是世界上最棒的國家

蕭鮖記錄風土人情
2026-04-09 19:33:39
我在朝鮮買了瓶啤酒,掏出手機那一刻,服務員看我的眼神都變了!

我在朝鮮買了瓶啤酒,掏出手機那一刻,服務員看我的眼神都變了!

天下霸奇
2026-04-10 09:06:32
福建車輛墜河5死后續(xù),親戚澄清3條真相,尤其痛心是車外男子身份

福建車輛墜河5死后續(xù),親戚澄清3條真相,尤其痛心是車外男子身份

有范又有料
2026-04-10 18:23:21
黃景瑜王玉雯戀情被曝光?兩人被拍到進入飯局,隨后一起到酒店,直到天亮了也沒離開。

黃景瑜王玉雯戀情被曝光?兩人被拍到進入飯局,隨后一起到酒店,直到天亮了也沒離開。

貼小君
2026-04-10 13:26:42
國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

比利
2026-01-23 12:41:53
嫁富二代明星后,她住進北京豪宅,開勞斯萊斯,如今40歲又懷3胎

嫁富二代明星后,她住進北京豪宅,開勞斯萊斯,如今40歲又懷3胎

不似少年游
2026-04-10 22:23:54
怕遭中方報復?巴拿馬搶在賠款前,主動放低姿態(tài),李嘉誠全面清倉

怕遭中方報復?巴拿馬搶在賠款前,主動放低姿態(tài),李嘉誠全面清倉

小俎娛樂
2026-04-11 06:39:16
伊朗僅用三天搶通遭美以襲擊的鐵路橋

伊朗僅用三天搶通遭美以襲擊的鐵路橋

極目新聞
2026-04-11 09:16:25
國乒用人失誤!剛公布世乒賽陣容就出問題,鄧亞萍卻點出王皓無奈

國乒用人失誤!剛公布世乒賽陣容就出問題,鄧亞萍卻點出王皓無奈

三十年萊斯特城球迷
2026-04-10 21:16:39
WTT太原站最新賽程出爐,林詩棟沖冠,溫瑞博出戰(zhàn),石洵瑤一天3賽

WTT太原站最新賽程出爐,林詩棟沖冠,溫瑞博出戰(zhàn),石洵瑤一天3賽

球盲百小易
2026-04-11 00:10:50
男人開口問你要這樣東西,證明他多半是有坑的

男人開口問你要這樣東西,證明他多半是有坑的

冷愛
2026-04-09 15:22:19
張雪奪冠賽車復刻版1分鐘拍出!500萬元將捐給嫣然天使基金,張雪:標哥捐了,我不捐不好意思

張雪奪冠賽車復刻版1分鐘拍出!500萬元將捐給嫣然天使基金,張雪:標哥捐了,我不捐不好意思

極目新聞
2026-04-10 20:58:02
鄭麗文的婚姻:女主外男主內(nèi),不生育孩子,事業(yè)理想置于家庭之上

鄭麗文的婚姻:女主外男主內(nèi),不生育孩子,事業(yè)理想置于家庭之上

芳芳歷史燴
2026-04-08 16:28:15
“留學回來,15次相親失敗”,杭州女孩被拆穿:連繁殖能力都沒有

“留學回來,15次相親失敗”,杭州女孩被拆穿:連繁殖能力都沒有

千言娛樂記
2026-04-09 09:17:50
李亞鵬心疼張雪拍賣獎杯:已找朋友拍下送回去

李亞鵬心疼張雪拍賣獎杯:已找朋友拍下送回去

快科技
2026-04-10 11:26:09
2026-04-11 12:11:00
智東西 incentive-icons
智東西
智東西,AI產(chǎn)業(yè)新媒體,專注報道人工智能的前沿技術發(fā)展,和技術應用帶來的千行百業(yè)產(chǎn)業(yè)變革。
11555文章數(shù) 117026關注度
往期回顧 全部

科技要聞

阿爾忒彌斯2號成功濺落,隔熱罩驚險過關

頭條要聞

"遲重瑞與陳麗華年輕時合影"熱傳 當事女子:張冠李戴

頭條要聞

"遲重瑞與陳麗華年輕時合影"熱傳 當事女子:張冠李戴

體育要聞

換帥之后,他們從降級區(qū)沖到升級區(qū)

娛樂要聞

浪姐7淘汰 該走的沒走,不該走的走了

財經(jīng)要聞

從日本翻身看:這次誰能扛住高油價?

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

親子
游戲
旅游
家居
教育

親子要聞

小朋友們在幼兒園上生活勞動課,忙著和面、縫紉、種菜

《eFootball》下載量突破10億次 經(jīng)典大師聯(lián)賽回歸

旅游要聞

貴州大山中發(fā)現(xiàn)最硬核的村寨,這里的男人都隨身帶槍,刀不離身

家居要聞

復古風格 自然簡約

教育要聞

電氣專業(yè)直接就業(yè)還是考研?

無障礙瀏覽 進入關懷版