国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

視聽合一!“基于視覺理解的三維聲重合成技術” 獲廣電總局高新視頻創(chuàng)新應用大賽一等獎

0
分享至

來源:科技視聽


在超高清視頻成為行業(yè)主流的今天,4K/8K畫質(zhì)早已走進千家萬戶,但你是否有過這樣的體驗:畫面清晰到纖毫畢現(xiàn),聲音卻總感覺“跟不上”——或定位不準,或雜音干擾,沉浸感大打折扣?

日前,在廣電總局高新視頻創(chuàng)新應用大賽中,“基于視覺理解的三維聲智能化重合成技術”一舉斬獲生產(chǎn)端一等獎。該技術由中國傳媒大學與廣東南方新媒體股份有限公司聯(lián)合研發(fā),以深度學習為核心,實現(xiàn)了視覺與聽覺的精準協(xié)同,為超高清視聽內(nèi)容生產(chǎn)提供了高效解決方案。

技術背景

超高清時代的“聲音剛需”

當前,超高清產(chǎn)業(yè)發(fā)展與國家文化數(shù)字化戰(zhàn)略高度契合,4K/8K超高清技術廣泛應用于多地頻道、博物館展廳、端游等場景。作為超高清六維技術的核心組成,聲音直接影響用戶的沉浸體驗。數(shù)據(jù)顯示,目前全球三維聲市場需求持續(xù)暴漲,預計2030年市場規(guī)模將增長至164.6億美元,復合年增長率高達12.81%。

然而,傳統(tǒng)三維聲合成依賴人工塑聲,不僅成本高、制作周期長,效果也因混音師主觀經(jīng)驗而異,難以滿足大規(guī)模標準化生產(chǎn)需求。更突出的問題是“視聽兩張皮”:一方面,沉浸式三維聲重合成技術相對視覺超高清技術發(fā)展緩慢。另一方面,大多數(shù)三維聲重合成方法只側(cè)重音頻,忽略了與視覺信息的協(xié)同互補,使沉浸式體驗大打折扣。還有一些使用視覺作為空間信息重構(gòu)指導的方法則普遍存在視聽同步性不足、空間定位精度低、背景噪聲干擾等問題,無法實現(xiàn)聲音與畫面動作、場景空間的動態(tài)適配,成為制約超高清產(chǎn)業(yè)發(fā)展的關鍵瓶頸。因此,亟需一套“視聽協(xié)同”的全新解決方案。

三大核心技術

重構(gòu)三維聲生產(chǎn)邏輯

“基于視覺理解的三維聲重合成技術”的核心突破是用“視聽計算”替代“手工錄制”,構(gòu)建了一套“體驗量化指導—算法自動補采—視聽動態(tài)映射”的三維聲重合成智能系統(tǒng),并提出了“評測端定位、采集端降本、重構(gòu)端提質(zhì)”的三維優(yōu)化思路,實現(xiàn)了從人為主觀感知到算法客觀評價,從專用設備依賴到通用音頻計算,從視聽靜態(tài)匹配到動態(tài)同步的跨越。

01

腦電技術賦能,讓“聽感”客觀且可量化

當前視聽質(zhì)量評估多采用人工多級評分方法,但該方式受個體審美偏好、主觀判斷差異的影響顯著。面對海量視聽內(nèi)容,迫切需要構(gòu)建一套統(tǒng)一、穩(wěn)定的質(zhì)量評估標準,并形成客觀化的視聽感知量化方法。為此,團隊創(chuàng)新提出“群體客觀性度量”的解決方案,以腦電特征為客觀表征載體,實現(xiàn)跨個體的感知質(zhì)量統(tǒng)一度量,突破傳統(tǒng)主觀評價的局限性。通過采集不同年齡段被試者的腦電時域、空域、頻域特征,將視聽感知質(zhì)量拆解為清晰度、一致性、沉浸度三個核心維度,成功將“主觀經(jīng)驗判斷”轉(zhuǎn)變?yōu)椤翱陀^數(shù)據(jù)度量”,為三維聲合成提供了精準的優(yōu)化依據(jù)。

具體技術實施流程可概括為:首先選取多組音視頻片段作為刺激材料,生成標準化的音視頻刺激序列,隨后開展腦電實驗,采集被試接收刺激時的腦電響應。之后,基于采集的腦電信號,提取其時域、頻域及空域特征,進而構(gòu)建腦電感知評分預測模型,最終形成“基于腦電響應的質(zhì)量評價指標”,完成視聽感知質(zhì)量的客觀量化??偟膩碚f,這一技術建立了腦電特征與視聽質(zhì)量之間的定量度量關系,為后續(xù)三維聲合成的自主驅(qū)動優(yōu)化,提供了客觀、可量化的感知質(zhì)量依據(jù)。


圖 基于腦電特征的視聽感知量化技術

02

智能去噪,留住純凈原聲

由于錄制設備和錄制環(huán)境的隨機性,設備間的電路噪聲以及錄制環(huán)境的背景噪聲會直接影響未空間化的音頻聽感。而現(xiàn)有的音頻去噪方案對于不同類型、不同頻段的含噪聲音頻采用無差別處理模式,這導致噪聲殘留,或損壞非噪聲諧波結(jié)構(gòu)。因此,亟需建模音頻諧波結(jié)構(gòu),實現(xiàn)自適應去噪。

針對這一問題,團隊創(chuàng)新提出自適應高效去噪模型,包括兩個模塊:第一個是基于高效通道注意力機制的特征學習模塊,通過高效通道注意力機制捕捉通道間局部依賴,分區(qū)挖掘局部細節(jié)特征,結(jié)合監(jiān)督注意力子模塊強化目標音頻特征,針對性建模音頻諧波結(jié)構(gòu),在數(shù)據(jù)驅(qū)動模式下區(qū)分噪聲與音頻的有效成分。第二個模塊則基于細粒度特征實現(xiàn)自適應降噪,避免無差別處理帶來的聽感損失。該技術能平衡噪聲濾除效果和音頻表達完整度,實現(xiàn)54.6%的噪聲濾除度,顯著優(yōu)于傳統(tǒng)去噪方法,為三維聲合成提供純凈輸入源。


圖 基于高效通道注意力的自動音頻去噪技術

03

視聽時空動態(tài)同步,聲隨畫動

在空間音頻重合成的子領域,即立體聲音頻重合成方法中,往往采用視聽內(nèi)容整體分析策略,無法捕捉聲源動態(tài)變化,導致位置錯誤、發(fā)聲狀態(tài)誤判等問題。

本團隊提出“分離-混合”兩步法,首先通過時空動態(tài)分析算法,將復雜場景拆分為多個獨立視聽區(qū)域,之后并行完成各區(qū)域視聽特征提取與融合。技術上,創(chuàng)新采用基于聲源區(qū)域的視聽特征融合編碼方法,通過ResNet-18網(wǎng)絡提取視頻幀淺深層特征,精準定位潛在發(fā)聲區(qū)域。結(jié)合關聯(lián)金字塔網(wǎng)絡實現(xiàn)跨模態(tài)特征融合。最后將各獨立視聽區(qū)域的三維聲音頻按通道混合,實現(xiàn)聲源位置與畫面動態(tài)的實時匹配。該方案顯著提升了合成精度與效率,其中視聽一致度高達64.3%,計算效率方面英偉達RTX A5000單卡處理10秒音頻僅需0.491秒。


圖 視聽時空動態(tài)同步重合成技術

10年深耕結(jié)碩果

技術落地多場景惠及千萬用戶

經(jīng)過近10年深耕,“基于視覺理解的三維聲重合成技術”的研發(fā)團隊構(gòu)建了“理論研究-技術突破-平臺開發(fā)-產(chǎn)業(yè)應用”的完整創(chuàng)新鏈。不僅在IEEE TPAMI、ACM MM等頂級期刊和會議發(fā)表論文10余篇,還申請/授權(quán)發(fā)明專利5項,發(fā)布行業(yè)標準4項,軟件著作權(quán)1項。

扎實的技術積累,最終轉(zhuǎn)化為實實在在的應用價值。目前,這項技術已在超高清視頻制作、老電影修復、文博展覽等多個領域規(guī)模化落地,成效顯著。在超高清視頻領域,已集成于廣東、河南IPTV播控平臺,覆蓋4277萬用戶,完成《逃學神探》《哆啦A夢》等4811分鐘影視內(nèi)容的5.1聲道重構(gòu),讓家庭用戶盡享影院級環(huán)繞聲體驗;在老電影修復領域,為中國電影資料館國寶級影片《解放了的中國》提供音軌修復技術支持,還原經(jīng)典作品的原聲質(zhì)感,相關成果獲CCTV-1《機智過人》節(jié)目報道;在文博領域,已走進湖南博物院、河南博物院,通過樂器三維聲生成,讓觀眾能“聽見”文物背后的歷史故事,創(chuàng)新科普傳播形式。

未來可期

智能+定制化三維聲在路上

“基于視覺理解的三維聲智能化重合成技術”通過打通視覺與聽覺的跨模態(tài)協(xié)同壁壘,不僅破解了超高清內(nèi)容生產(chǎn)中制作效率低、視聽不同步等行業(yè)痛點,還為影視制作、網(wǎng)絡直播、VR/AR等領域提供了低成本、高質(zhì)量的三維聲解決方案。未來,團隊還將進一步引入語音識別、文字識別等多模態(tài)信息,強化復雜場景適配能力,并結(jié)合用戶個性化需求,實現(xiàn)定制化三維聲合成。相信在各項技術的共同推動下,超高清視聽產(chǎn)業(yè)將持續(xù)向智能化、標準化、規(guī)?;较虬l(fā)展。

好文共賞請轉(zhuǎn)發(fā) 有話要說請留言

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
著名的東莞最優(yōu)秀的詩人百定安這首《人民和人民幣》,極具現(xiàn)實張力,推薦一品

著名的東莞最優(yōu)秀的詩人百定安這首《人民和人民幣》,極具現(xiàn)實張力,推薦一品

讀睡
2026-02-26 22:57:05
人民幣期權(quán)押注升溫 交易員預計到年底或上漲5%

人民幣期權(quán)押注升溫 交易員預計到年底或上漲5%

財聯(lián)社
2026-02-27 14:24:06
司機:“不好意思,你差評有點多,不敢接”,乘客當場破防!

司機:“不好意思,你差評有點多,不敢接”,乘客當場破防!

寶哥精彩賽事
2026-02-27 01:37:35
人到中年,最佳抗衰老的8種運動,每周2次,越練越年輕!

人到中年,最佳抗衰老的8種運動,每周2次,越練越年輕!

馬拉松跑步健身
2026-02-22 06:30:04
命中3記三分,正負值全隊第1,楊鳴:他是中國男籃贏球最大功臣

命中3記三分,正負值全隊第1,楊鳴:他是中國男籃贏球最大功臣

弄月公子
2026-02-27 08:52:27
吉林一女子救下毒蛇,賴著不走12年,怪事不斷,至今無法解釋

吉林一女子救下毒蛇,賴著不走12年,怪事不斷,至今無法解釋

燦爛夏天
2025-02-23 23:30:44
10億換一命!京東副總裁蔡磊對抗?jié)u凍癥4年后,終于贏得一線生機

10億換一命!京東副總裁蔡磊對抗?jié)u凍癥4年后,終于贏得一線生機

小莜讀史
2026-02-02 18:27:35
曾經(jīng)風靡全國的預制板房,為啥國家非要淘汰?看完你就懂有多危險

曾經(jīng)風靡全國的預制板房,為啥國家非要淘汰?看完你就懂有多危險

老特有話說
2026-02-27 16:56:58
百度和高德地圖對比怎樣?網(wǎng)友的評論真是讓我有了選擇

百度和高德地圖對比怎樣?網(wǎng)友的評論真是讓我有了選擇

侃神評故事
2026-02-22 11:45:03
湖南一女子在網(wǎng)吧騷擾男性玩家,涉事網(wǎng)吧回應:一開始以為情侶爭吵,了解清楚立即制止了

湖南一女子在網(wǎng)吧騷擾男性玩家,涉事網(wǎng)吧回應:一開始以為情侶爭吵,了解清楚立即制止了

大象新聞
2026-02-26 18:53:03
人類終于造出”飛碟“,中國研發(fā)全球首款涵道式噸級飛行器

人類終于造出”飛碟“,中國研發(fā)全球首款涵道式噸級飛行器

林子說事
2026-02-28 00:12:08
谷愛凌回應冬奧神圖出圈:當時在自己的眼神里看到了王者

谷愛凌回應冬奧神圖出圈:當時在自己的眼神里看到了王者

懂球帝
2026-02-25 13:42:11
中產(chǎn)返貧新4件套,普通家庭一個都別碰

中產(chǎn)返貧新4件套,普通家庭一個都別碰

三個媽媽六個娃
2026-02-27 21:08:58
一分不留兒子!原來郭碧婷在向華強心中的地位這么高,原因曝光

一分不留兒子!原來郭碧婷在向華強心中的地位這么高,原因曝光

借你一生
2026-02-28 02:29:15
蔚來銷售人員接通電話18秒后辱罵客戶,并不接聽客戶回撥電話, 客戶稱“有電話錄音”后,才回電解釋辱罵對象“另有其人”

蔚來銷售人員接通電話18秒后辱罵客戶,并不接聽客戶回撥電話, 客戶稱“有電話錄音”后,才回電解釋辱罵對象“另有其人”

大風新聞
2026-02-26 20:35:10
庾澄慶聽“庾爸爸”當場炸毛!恩利秒改“我爹”救場,秦昊被喊“昊哥”卻成心頭肉?

庾澄慶聽“庾爸爸”當場炸毛!恩利秒改“我爹”救場,秦昊被喊“昊哥”卻成心頭肉?

動物奇奇怪怪
2026-02-25 10:45:08
第一批免簽去俄羅斯的中產(chǎn)傻眼了

第一批免簽去俄羅斯的中產(chǎn)傻眼了

風向觀察
2025-12-16 18:26:08
美荷兩國曾同時發(fā)聲,對中國獨立研發(fā)的光刻機技術給予了強烈批評

美荷兩國曾同時發(fā)聲,對中國獨立研發(fā)的光刻機技術給予了強烈批評

來科點譜
2026-02-27 07:32:59
這次荷蘭沒話說了,中方正式宣布:更換國內(nèi)供應商,從此不再合作

這次荷蘭沒話說了,中方正式宣布:更換國內(nèi)供應商,從此不再合作

書紀文譚
2026-02-27 14:17:34
浙江二婚女愛上新西蘭小伙,帶著女兒移民新西蘭,5年后神秘失蹤

浙江二婚女愛上新西蘭小伙,帶著女兒移民新西蘭,5年后神秘失蹤

徐云流浪中國
2026-02-26 18:34:11
2026-02-28 03:47:00
廣電獵酷 incentive-icons
廣電獵酷
致力于廣電科技的第一訂閱號
11047文章數(shù) 2629關注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

特朗普警告伊朗:“有時候不得不打”

頭條要聞

特朗普警告伊朗:“有時候不得不打”

體育要聞

一場必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

郭晶晶霍啟剛現(xiàn)身香港藝術節(jié)盡顯恩愛

財經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

健康
藝術
教育
時尚
軍事航空

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

藝術要聞

紫氣東來,好運一整年!

教育要聞

不好意思,我玩電腦AI已經(jīng)超高段位了!

舒淇最愛穿的裙子搭配,真的很適合春天!

軍事要聞

美國11架F-22隱形戰(zhàn)機抵達以色列

無障礙瀏覽 進入關懷版