国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Qwen3.5 還有高手,全模態(tài)大模型來了,實測很強(qiáng)

0
分享至

兄弟們,Qwen3.5 系列我寫過十幾篇了,涉及簡介、測評、本地部署、微調(diào)等等


本來以為可以收手了,沒想到還有高手!

它就是全面超越 Gemini 3.1 Pro 的全模態(tài)大模型——Qwen3.5-Omni

簡介

Qwen3.5-Omni 是 Qwen3-Omni 的全面進(jìn)化版,真正把“看、聽、說、想”放進(jìn)同一套開源底座里的模型,在海量文本、視覺,以及超過 1 億小時的音視頻數(shù)據(jù)上進(jìn)行原生多模態(tài)預(yù)訓(xùn)練,支持文本、圖片、音頻、音視 頻全模態(tài)理解與生成。

幾個關(guān)鍵數(shù)字:

  • 256k 超長上下文 ,可支持超過 10 小時 的音頻理解

  • 支持超過 400 秒的 720P 音視頻 對話

  • 113 種語種和方言 語音識別, 36 種語種和方言 語音生成

  • 音頻/音視頻的理解、推理和交互任務(wù)上取得了 215 項 子任務(wù) / Benchmark 的 SOTA

根據(jù)官方披露的數(shù)據(jù),Qwen3.5-Omni-Plus 在通用音頻理解、推理、識別、翻譯、對話能力上全面超越了 Gemini 3.1 Pro,在多語言語音識別/生成上也顯著優(yōu)于 Gemini 3.1 Pro,215 項音頻/音視頻子任務(wù)達(dá)到 SOTA 成績。


這次 Qwen3.5-Omni 分 Plus / Flash / Light 三檔:

版本

定位

Plus

旗艦,音頻/音視頻理解 215 項 SOTA,對標(biāo)頂級商業(yè)模型

Flash

平衡,速度與能力折中

Light

輕量,適合資源受限或高并發(fā)場景

API 接入分兩種:離線 API(文件級批量處理)和實時 API(流式語音對話、實時交互),根據(jù)場景選就行。

實測 1、音頻理解

輸入音頻讓其轉(zhuǎn)錄成字幕,實測有些錯別字,這點(diǎn)是任何模型都不可避免的,比如這個老張/老章。


我之前用剪映做字幕,那是相當(dāng)難受,先語音識別,再導(dǎo)出字幕文件用本地編輯器打開(剪映自帶的操作太難受了),逐個修改錯別字。

有了 Qwen 3.5-Omni-Plus 我感覺完全可以這樣:先用它錄音轉(zhuǎn)錄成字幕,然后把口播稿給它,修復(fù)其中所有錯別字,識別錯誤之處,然后給出的就是完美字幕文件了。

2、超長音頻轉(zhuǎn)錄

Qwen 3.5-Omni-Plus超過 10 小時的音頻輸入,這有點(diǎn)太誘人了,又臭又長的會議錄音有救了。但是網(wǎng)頁端處理不了,好在阿里云百煉平臺提供了 API,調(diào)用方式與之前一致。

我拿最近特別火的張小珺 7 小時馬拉松對話做測試


用我的 B 站音、視頻下載 skills 將其下載,抽取 MP3 音頻


我寫了一個腳本,用 Qwen3.5-Omni-Plus 將其完整,一口氣把這個將近 7 個小時的 MP3 轉(zhuǎn)成文字稿


# 代碼太長了,僅展示一下提示詞

PROMPT = (
"請將這段音頻完整逐字轉(zhuǎn)錄為文字稿。要求:\n"
"1. 保留所有對話內(nèi)容,不要遺漏或概括\n"
"2. 標(biāo)注不同說話人(如 說話人A、說話人B)\n"
"3. 保留口語化表達(dá)、語氣詞\n"
"4. 如果有明顯的話題轉(zhuǎn)換,用空行分隔"
)

結(jié)果如下,整整 14 萬字,如果加上一些提示詞會更好,比如人名:


3、聯(lián)網(wǎng)搜索+工具調(diào)用+可變音色音頻輸出

看簡介,Qwen 3.5-Omni-Plus 支持端到端語音控制,模型可以像人一樣遵循指令來對聲音的大小/語速/情緒等自由調(diào)節(jié);還支持音色克隆,可以上傳自己的聲音,定制 AI 的專屬音色。這個我很有興趣,大家看我的視頻配音,其實用的就是我的音色克隆,本地跑有點(diǎn)慢,不太穩(wěn)定,后面決定試試 Omni-Plus。

但是,我更加感興趣的是它的原生聯(lián)網(wǎng)搜索支持與工具調(diào)用能力,加上輸出音頻的音色支持,完全可以復(fù)刻出一個大模型支持的智能音箱了(Qwen 3.5-Omni 有實時版本,也支持聯(lián)網(wǎng)搜索),事實上,我正在做這個,把我那臺要退休的 M1 Macmini 改造成支持語音喚醒的智能音響,大家靜待佳音。

實際測試,它真的相當(dāng)可以


大家感受一下

而且還可以切換音色

4、語義打斷,視頻通話

傳統(tǒng)語音助手有個經(jīng)典問題:你還沒說完,它就搶話了;或者背景有點(diǎn)噪音,它以為你在叫它。Qwen3.5-Omni 支持語義打斷,自動識別turn-talking意圖,模型可以精準(zhǔn)判斷什么時候該接話,什么只是用戶無意識的附和、停頓或背景聲音。


也支持視頻通話,我的 macmini 沒有攝像頭,所以沒有測試


5、視頻理解

整個活兒,雞湯來了的視頻,它是真實看懂了的,幾個問題它都能精準(zhǔn)找到答案


我確認(rèn)了一下,看左下角時間軸,分秒不差


我還給了它我最近的一個視頻讓其總結(jié)


它對關(guān)鍵幀畫面的理解很不錯,而且對整理風(fēng)格和內(nèi)容也有總結(jié):


6、圖像理解

這個題目之前我測試過幾個號稱支持圖像輸入的旗艦大模型,都失敗了。

Qwen3.5-Omni-Plus 表現(xiàn)的確實像真實看過的樣子


意外發(fā)現(xiàn),它自帶 OCR 能力也相當(dāng)可以,比如我常需要的 latex 公式識別


它可以自動識別,并渲染


然后它的 OCR 能力不輸專業(yè) OCR 大模型,比如我這張測試專用圖片


核心內(nèi)容完成 get 到了,右下角那個表格也準(zhǔn)確識別


7、圖片生成

這沒什么好說的,應(yīng)該是全模態(tài)大模型的基本功了,我試了一個之前 Gemini 中用過的提示詞,Qwen3.5-Omni-Plus 表現(xiàn)也非常不錯,細(xì)節(jié)很多,人物也很自然。

生圖之后還支持局部修改,這種精準(zhǔn) PS 級別的操作,確實可以


8、文檔解析

提示詞:把這個 PDF 完整解析成結(jié)構(gòu)清晰的 markdown 文檔,翻譯成中文,doublecheck 翻譯質(zhì)量,不要總結(jié),不要遺漏

意外的是,它出奇的快,幾乎是我按下 Enter 之后立即便開始輸出了


對比了原文,質(zhì)量也沒問題


如何體驗 Qwen3.5-Omni

官方提供兩個正式渠道:

  1. 阿里云百煉 :API 調(diào)用,離線 API 和實時 API 分別適合批量處理和流式交互場景

    ● 非實時:https://help.aliyun.com/zh/model-studio/qwen-omni

    ● 實時:https://help.aliyun.com/zh/model-studio/realtime

  2. Qwen Chat :網(wǎng)頁/App 端直接對話,上手最快 https://chat.qwen.ai/

總結(jié)

Qwen3.5-Omni 給我的整體感覺是,野心很大,完成度也不低。它真正有意思的地方,在于把文本、圖像、音頻、視頻、實時語音回復(fù)放進(jìn)了同一個統(tǒng)一框架里,把多模態(tài)從"能看圖"推進(jìn)到了"能聽音頻、看視頻、還能直接說話",解決統(tǒng)一底座問題,工程上更省拼裝成本。

大模型世界很缺"圖像理解+音視頻理解 + 語音輸出"一體化底座,很多團(tuán)隊只能自己拼ASR、VLM、TTS、Agent;人機(jī)交互也正在從鍵盤窗口走向攝像頭、麥克風(fēng)、耳機(jī)、車機(jī)、眼鏡,一個統(tǒng)一模型把交互層、理解層、生成層接起來,產(chǎn)品形態(tài)會快很多。

一旦跑順,能做的事情太多了:私有化會議助手、本地視頻問答、播客整理、素材打標(biāo)、語音Agent、OCR + 多模態(tài)知識庫……這類能力對播客摘要、音頻檢索、會議記錄增強(qiáng)都有直接價值,很多人現(xiàn)在都盯著視頻理解和實時助手,我反而覺得 audio caption這條線后面很可能會跑出不少特別實用的場景。

我判斷,未來一兩年 Omni 模型會成為很多設(shè)備助手和企業(yè)助手的默認(rèn)底座,路線也很明確,后面會繼續(xù)往低延遲、更輕量推進(jìn)。真正爆發(fā)的場景大概率在車載、教育、客服、內(nèi)容生產(chǎn)、個人知識管理這幾類持續(xù)聽、持續(xù)看、持續(xù)說的產(chǎn)品里。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
罰15億!拼多多一員工故意關(guān)門,對抗調(diào)查,導(dǎo)致執(zhí)法人員手指骨折

罰15億!拼多多一員工故意關(guān)門,對抗調(diào)查,導(dǎo)致執(zhí)法人員手指骨折

魔都姐姐雜談
2026-04-19 08:03:27
長沙火了!全球最大零食店開業(yè)3天就被擠停售,背后真相曝光

長沙火了!全球最大零食店開業(yè)3天就被擠停售,背后真相曝光

西昆侖Bruce
2026-04-19 19:52:58
不敢相信她有五十多歲了

不敢相信她有五十多歲了

科學(xué)發(fā)掘
2026-04-19 21:09:22
“磨膝大戶”被公布,是跑步的20倍,醫(yī)生:不想軟骨磨光,早扔掉

“磨膝大戶”被公布,是跑步的20倍,醫(yī)生:不想軟骨磨光,早扔掉

垚垚分享健康
2026-04-19 14:35:09
北京國際電影節(jié)開幕式,韓紅:李乃文是不是真的他唱的

北京國際電影節(jié)開幕式,韓紅:李乃文是不是真的他唱的

韓小娛
2026-04-17 07:45:14
“最快女護(hù)士”張水華云南石屏馬拉松退賽,本人回應(yīng):不舒服就沒跑;其辭職后已拿下兩個冠軍,獲折現(xiàn)超20萬獎勵

“最快女護(hù)士”張水華云南石屏馬拉松退賽,本人回應(yīng):不舒服就沒跑;其辭職后已拿下兩個冠軍,獲折現(xiàn)超20萬獎勵

極目新聞
2026-04-19 12:01:08
哈工大畢業(yè)失業(yè)四五年被吐槽!網(wǎng)友:農(nóng)村大學(xué)生大多數(shù)過得比較差

哈工大畢業(yè)失業(yè)四五年被吐槽!網(wǎng)友:農(nóng)村大學(xué)生大多數(shù)過得比較差

火山詩話
2026-04-19 10:40:38
普京訪華行程敲定,特朗普已下命令,中國向全球通告,無懼美國

普京訪華行程敲定,特朗普已下命令,中國向全球通告,無懼美國

老牧說說
2026-04-20 00:29:36
中國人在哈薩克斯坦生活實錄:飯?zhí)唷⑴颂S、聊天太上頭了!

中國人在哈薩克斯坦生活實錄:飯?zhí)?、女人太颯、聊天太上頭了!

老特有話說
2026-04-19 15:29:16
蒜苔開始上市!再三強(qiáng)調(diào):高血壓患者吃蒜苔時,多注意這5點(diǎn)

蒜苔開始上市!再三強(qiáng)調(diào):高血壓患者吃蒜苔時,多注意這5點(diǎn)

芹姐說生活
2026-04-18 14:47:34
隨著41歲C羅破門+利雅得勝利4-0,亞冠二級4強(qiáng)已誕生3席

隨著41歲C羅破門+利雅得勝利4-0,亞冠二級4強(qiáng)已誕生3席

側(cè)身凌空斬
2026-04-20 00:01:29
調(diào)查發(fā)現(xiàn):每天都走路的人,大多到了75歲后,身體或有5種變化

調(diào)查發(fā)現(xiàn):每天都走路的人,大多到了75歲后,身體或有5種變化

白話電影院
2026-04-07 13:28:35
德國戰(zhàn)敗后,古德里安為什么能無罪釋放?他是一個有底線的軍人

德國戰(zhàn)敗后,古德里安為什么能無罪釋放?他是一個有底線的軍人

小莜讀史
2026-04-18 14:46:46
神秘消失數(shù)月后突然現(xiàn)身!美國最頭疼的人,悄悄到了巴格達(dá)

神秘消失數(shù)月后突然現(xiàn)身!美國最頭疼的人,悄悄到了巴格達(dá)

菁菁子衿
2026-04-19 19:41:04
丁俊暉7-2吉爾伯特,罕見“生氣”扔了巧粉夾,中國裁判幫他撿回

丁俊暉7-2吉爾伯特,罕見“生氣”扔了巧粉夾,中國裁判幫他撿回

真理是我親戚
2026-04-19 22:16:28
魏積安現(xiàn)狀:在山東過田園生活,70歲身體很硬朗,妻兒都是普通人

魏積安現(xiàn)狀:在山東過田園生活,70歲身體很硬朗,妻兒都是普通人

大魚簡科
2026-04-19 19:19:17
痛苦,火箭隊杜蘭特在打湖人隊首場比賽前的訓(xùn)練中表情說明了一切

痛苦,火箭隊杜蘭特在打湖人隊首場比賽前的訓(xùn)練中表情說明了一切

好火子
2026-04-20 03:29:10
火箭3主力身價暴跌!申京三無產(chǎn)品,謝潑德攻守全崩,阿門狂被帽

火箭3主力身價暴跌!申京三無產(chǎn)品,謝潑德攻守全崩,阿門狂被帽

籃球資訊達(dá)人
2026-04-19 12:26:12
伊朗未證實伊美復(fù)談消息

伊朗未證實伊美復(fù)談消息

界面新聞
2026-04-19 20:45:22
馬蹄露自薦做團(tuán)長后續(xù)!張敬軒粉絲不忍了,開始發(fā)文攻擊了

馬蹄露自薦做團(tuán)長后續(xù)!張敬軒粉絲不忍了,開始發(fā)文攻擊了

小徐講八卦
2026-04-19 11:27:40
2026-04-20 03:55:00
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3334文章數(shù) 11137關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺機(jī)器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內(nèi)娛隔空掀桌第一人

財經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

房產(chǎn)
游戲
手機(jī)
親子
健康

房產(chǎn)要聞

官宣簽約最強(qiáng)城更!??跇鞘?,突然殺入神秘房企!

如何將ZH-1火力最大化?《戰(zhàn)艦世界》15.3版本造船廠加點(diǎn)攻略

手機(jī)要聞

8.8英寸小鋼炮!REDMI K Pad 2核心配置揭曉

親子要聞

孩子總打噴嚏、起疹子,時過敏嗎?

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

無障礙瀏覽 進(jìn)入關(guān)懷版