国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

港科大ORCA框架:視頻角色實(shí)現(xiàn)自主復(fù)雜任務(wù)執(zhí)行

0
分享至


這項(xiàng)由香港科技大學(xué)何軒華、楊天宇和陳啟峰教授領(lǐng)導(dǎo),聯(lián)合美團(tuán)研究團(tuán)隊(duì)共同完成的研究發(fā)表于2024年12月,論文編號(hào)為arXiv:2512.20615v1。有興趣深入了解的讀者可以通過該編號(hào)查詢完整論文。

當(dāng)我們觀看一個(gè)視頻博主制作美食的過程時(shí),會(huì)發(fā)現(xiàn)他們不僅能按照既定步驟操作,還能在遇到意外情況時(shí)靈活調(diào)整。比如發(fā)現(xiàn)鹽撒多了會(huì)及時(shí)補(bǔ)救,或者看到鍋?zhàn)舆^熱會(huì)主動(dòng)調(diào)小火候。這種能夠根據(jù)情況變化自主決策的能力,正是真實(shí)智能的體現(xiàn)。然而,目前的AI視頻生成技術(shù)雖然能夠制作出看起來很逼真的人物動(dòng)畫,但這些虛擬角色就像木偶一樣,只能機(jī)械地執(zhí)行預(yù)設(shè)動(dòng)作,無法像真人那樣具備主觀能動(dòng)性。

港科大的研究團(tuán)隊(duì)決心改變這種狀況。他們開發(fā)了一套名為ORCA的革命性框架,首次讓視頻中的虛擬人物具備了真正的"大腦"——不僅能夠理解當(dāng)前處境,還能制定長(zhǎng)遠(yuǎn)計(jì)劃,并在執(zhí)行過程中不斷調(diào)整策略。這就像給一個(gè)演員裝上了真正會(huì)思考的大腦,讓他們能夠在拍攝過程中根據(jù)實(shí)際情況靈活應(yīng)變,而不是單純背臺(tái)詞走過場(chǎng)。

研究團(tuán)隊(duì)面臨的第一個(gè)核心挑戰(zhàn)可以用拍電影來類比。傳統(tǒng)的視頻生成就像拍一部完全按照劇本進(jìn)行的電影,每個(gè)鏡頭都嚴(yán)格按照事先寫好的腳本執(zhí)行。但問題是,AI生成的視頻具有很強(qiáng)的隨機(jī)性,就像每次拍攝同一個(gè)場(chǎng)景都可能出現(xiàn)不同的結(jié)果。演員可能沒有按預(yù)期拿起道具,或者道具的位置發(fā)生了變化。在這種情況下,如果后續(xù)場(chǎng)景還按照原計(jì)劃進(jìn)行,整個(gè)故事就會(huì)變得荒唐可笑。

第二個(gè)挑戰(zhàn)在于如何讓虛擬角色理解復(fù)雜的指令并轉(zhuǎn)化為具體動(dòng)作。就好比導(dǎo)演對(duì)演員說"表現(xiàn)出內(nèi)心的糾結(jié)",這樣抽象的指導(dǎo)需要演員理解并轉(zhuǎn)化為具體的表情、動(dòng)作和姿態(tài)。同樣,AI系統(tǒng)需要將"泡一壺茶"這樣的高層次目標(biāo)分解為"打開茶葉罐"、"用勺子舀茶葉"、"將茶葉放入茶壺"等一系列具體可執(zhí)行的動(dòng)作。

為了驗(yàn)證他們的技術(shù)效果,研究團(tuán)隊(duì)構(gòu)建了一個(gè)名為L(zhǎng)-IVA的全新測(cè)試平臺(tái)。這個(gè)平臺(tái)包含了100個(gè)不同的任務(wù)場(chǎng)景,覆蓋廚房烹飪、園藝種植、工坊制作、辦公室工作和直播表演五個(gè)生活領(lǐng)域。每個(gè)任務(wù)都需要虛擬角色與多個(gè)物品進(jìn)行3到8步的復(fù)雜交互,就像現(xiàn)實(shí)生活中完成一項(xiàng)工作需要的步驟一樣。比如在廚房場(chǎng)景中,制作一頓簡(jiǎn)餐可能需要從冰箱取食材、清洗蔬菜、切配、烹飪到裝盤等多個(gè)環(huán)節(jié)。

ORCA框架的設(shè)計(jì)靈感來自認(rèn)知科學(xué)中的"內(nèi)部世界模型"理論。簡(jiǎn)單來說,就像人類大腦中有一個(gè)對(duì)外部世界的內(nèi)在模擬器,幫助我們理解當(dāng)前狀況、預(yù)測(cè)行動(dòng)后果并制定合理計(jì)劃。ORCA為虛擬角色構(gòu)建了類似的認(rèn)知架構(gòu),讓它們能夠在復(fù)雜環(huán)境中進(jìn)行自主決策。

這套框架采用了一種叫做"觀察-思考-行動(dòng)-反思"的循環(huán)機(jī)制。虛擬角色首先觀察當(dāng)前環(huán)境和自身狀態(tài),然后思考下一步應(yīng)該做什么,接著執(zhí)行相應(yīng)動(dòng)作,最后檢查執(zhí)行效果是否符合預(yù)期。如果發(fā)現(xiàn)問題,系統(tǒng)會(huì)及時(shí)糾正,避免錯(cuò)誤積累影響后續(xù)操作。這就像一個(gè)經(jīng)驗(yàn)豐富的廚師在做菜時(shí)會(huì)不斷品嘗調(diào)味,確保每個(gè)步驟都朝著正確方向進(jìn)行。

在系統(tǒng)內(nèi)部,ORCA采用了雙系統(tǒng)架構(gòu),模擬人類大腦的快慢思維模式。系統(tǒng)二負(fù)責(zé)戰(zhàn)略規(guī)劃,就像我們深思熟慮制定計(jì)劃時(shí)的理性思維;系統(tǒng)一負(fù)責(zé)具體執(zhí)行,將抽象計(jì)劃轉(zhuǎn)化為精確的操作指令,就像我們熟練完成日常動(dòng)作時(shí)的直覺反應(yīng)。這種分工讓虛擬角色既能進(jìn)行長(zhǎng)遠(yuǎn)規(guī)劃,又能確保每個(gè)動(dòng)作的執(zhí)行精度。

研究團(tuán)隊(duì)將ORCA與現(xiàn)有的幾種方法進(jìn)行了詳細(xì)對(duì)比。開環(huán)規(guī)劃方法就像事先制定好完整計(jì)劃然后盲目執(zhí)行,無法應(yīng)對(duì)過程中的變化;反應(yīng)式代理雖然能夠根據(jù)當(dāng)前情況做出反應(yīng),但缺乏對(duì)整體狀況的把握,容易陷入重復(fù)動(dòng)作的怪圈;而其他一些方法雖然具備世界模型,但假設(shè)環(huán)境是確定的,無法應(yīng)對(duì)生成過程中的隨機(jī)性。

實(shí)驗(yàn)結(jié)果顯示,ORCA在任務(wù)完成率上達(dá)到了71%的平均成功率,明顯超過其他方法。更重要的是,ORCA生成的視頻在物理合理性和動(dòng)作連貫性方面表現(xiàn)優(yōu)異。人類評(píng)估者在觀看這些視頻時(shí),能夠清楚地看到虛擬角色按照合理邏輯完成復(fù)雜任務(wù),而不是機(jī)械地重復(fù)預(yù)設(shè)動(dòng)作。

當(dāng)然,這項(xiàng)技術(shù)也面臨一些局限性。目前的視覺理解模型有時(shí)會(huì)遺漏短暫出現(xiàn)的視覺錯(cuò)誤,導(dǎo)致系統(tǒng)接受了實(shí)際有問題的生成結(jié)果。另外,底層的視頻生成模型在處理精細(xì)操作時(shí)仍然存在控制精度不足的問題。不過研究團(tuán)隊(duì)指出,隨著基礎(chǔ)模型能力的提升,ORCA框架的性能也會(huì)相應(yīng)改善。

說到底,這項(xiàng)研究最重要的意義在于首次實(shí)現(xiàn)了真正具備主觀能動(dòng)性的視頻角色生成。以往我們只能制作出外表逼真的虛擬人物,現(xiàn)在則可以創(chuàng)造出能夠自主思考和行動(dòng)的智能角色。這不僅為虛擬主播、教育視頻和娛樂內(nèi)容創(chuàng)作開辟了新的可能性,也為人工智能向更高層次智能形態(tài)發(fā)展邁出了重要一步。

歸根結(jié)底,ORCA框架證明了一個(gè)重要觀點(diǎn):真正的人工智能不應(yīng)該只是精美的動(dòng)畫生成器,而應(yīng)該具備像人類一樣的認(rèn)知能力。當(dāng)虛擬角色能夠理解環(huán)境、制定計(jì)劃、執(zhí)行任務(wù)并從錯(cuò)誤中學(xué)習(xí)時(shí),它們才真正開始接近人類智能的本質(zhì)。這項(xiàng)技術(shù)的出現(xiàn),標(biāo)志著我們正在從"制作逼真視頻"向"創(chuàng)造智能生命體"轉(zhuǎn)變,這個(gè)轉(zhuǎn)變將深刻影響從娛樂產(chǎn)業(yè)到教育培訓(xùn)的各個(gè)領(lǐng)域。

Q&A

Q1:ORCA框架是什么?

A:ORCA是港科大團(tuán)隊(duì)開發(fā)的視頻頭像智能框架,全稱為"在線推理與認(rèn)知架構(gòu)"。它能讓視頻中的虛擬人物像真人一樣具備主觀能動(dòng)性,能夠自主觀察環(huán)境、制定計(jì)劃、執(zhí)行任務(wù)并從錯(cuò)誤中學(xué)習(xí),而不是只能機(jī)械地重復(fù)預(yù)設(shè)動(dòng)作。

Q2:L-IVA測(cè)試平臺(tái)包含哪些內(nèi)容?

A:L-IVA是研究團(tuán)隊(duì)構(gòu)建的測(cè)試平臺(tái),包含100個(gè)不同的任務(wù)場(chǎng)景,覆蓋廚房烹飪、園藝種植、工坊制作、辦公室工作和直播表演五個(gè)生活領(lǐng)域。每個(gè)任務(wù)需要虛擬角色與多個(gè)物品進(jìn)行3到8步的復(fù)雜交互,用于驗(yàn)證AI角色的自主完成復(fù)雜任務(wù)能力。

Q3:這項(xiàng)技術(shù)有什么實(shí)際應(yīng)用價(jià)值?

A:這項(xiàng)技術(shù)能夠創(chuàng)造出真正會(huì)思考的虛擬角色,為虛擬主播、教育視頻制作和娛樂內(nèi)容創(chuàng)作開辟新可能性。相比傳統(tǒng)只能按腳本行動(dòng)的虛擬人物,ORCA生成的角色能夠根據(jù)實(shí)際情況靈活應(yīng)變,大大提升虛擬角色的真實(shí)感和實(shí)用性。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
攤牌了!72歲唐國(guó)強(qiáng)終于承認(rèn)與劉曉慶的真實(shí)關(guān)系,曾志偉當(dāng)場(chǎng)傻眼

攤牌了!72歲唐國(guó)強(qiáng)終于承認(rèn)與劉曉慶的真實(shí)關(guān)系,曾志偉當(dāng)場(chǎng)傻眼

觀察鑒娛
2025-12-28 09:51:57
俄強(qiáng)力部門:烏軍第155旅士兵集體叛逃

俄強(qiáng)力部門:烏軍第155旅士兵集體叛逃

俄羅斯衛(wèi)星通訊社
2025-12-27 16:06:54
12月28日,券商給予評(píng)級(jí)并且給出目標(biāo)價(jià)的公司一覽

12月28日,券商給予評(píng)級(jí)并且給出目標(biāo)價(jià)的公司一覽

A股數(shù)據(jù)表
2025-12-28 06:55:03
從利物浦真核到安菲爾德棄將,只用了4年時(shí)間,金左腳被性格耽誤

從利物浦真核到安菲爾德棄將,只用了4年時(shí)間,金左腳被性格耽誤

足籃大世界
2025-12-28 17:47:01
蒙古煤炭停供中國(guó),轉(zhuǎn)向日韓,正中美國(guó)下懷?不!蒙古已經(jīng)反悔了

蒙古煤炭停供中國(guó),轉(zhuǎn)向日韓,正中美國(guó)下懷?不!蒙古已經(jīng)反悔了

混沌錄
2025-12-15 18:12:04
失業(yè)游民的戾氣越來越重了

失業(yè)游民的戾氣越來越重了

經(jīng)濟(jì)學(xué)教授V
2025-11-12 18:49:14
劉伯承曾3次擔(dān)任紅軍總參謀長(zhǎng),卻因?yàn)榈米锪?個(gè)人,2次被撤職

劉伯承曾3次擔(dān)任紅軍總參謀長(zhǎng),卻因?yàn)榈米锪?個(gè)人,2次被撤職

舊書卷里的長(zhǎng)安
2025-12-25 21:57:38
陳道明:老了就會(huì)明白,即使優(yōu)秀孩子,也很可能不能給你帶來幸福

陳道明:老了就會(huì)明白,即使優(yōu)秀孩子,也很可能不能給你帶來幸福

扶蘇聊歷史
2025-12-27 16:46:21
熊掌“成名”記:熊身上那么多能吃的肉,為啥唯獨(dú)熊掌出了大名?

熊掌“成名”記:熊身上那么多能吃的肉,為啥唯獨(dú)熊掌出了大名?

向航說
2025-12-24 00:55:03
72歲老戲骨濮存昕官宣外孫女出道,尖嘴猴腮,長(zhǎng)相遭吐槽:太丑了

72歲老戲骨濮存昕官宣外孫女出道,尖嘴猴腮,長(zhǎng)相遭吐槽:太丑了

深析古今
2025-12-08 12:29:36
廣東一家5口墜江身亡!駕車出游闖施工地,村委曝內(nèi)情,官方通報(bào)

廣東一家5口墜江身亡!駕車出游闖施工地,村委曝內(nèi)情,官方通報(bào)

千言娛樂記
2025-12-27 18:51:39
輪船拉導(dǎo)彈!美國(guó)萬萬沒有想到東大的反擊計(jì)劃會(huì)如此極端!

輪船拉導(dǎo)彈!美國(guó)萬萬沒有想到東大的反擊計(jì)劃會(huì)如此極端!

阿龍聊軍事
2025-12-27 22:07:28
3大國(guó)家保密中成藥:中風(fēng)急救、心?祻(fù),心血管的護(hù)身符!

3大國(guó)家保密中成藥:中風(fēng)急救、心?祻(fù),心血管的護(hù)身符!

展望云霄
2025-12-25 21:39:14
對(duì)等攔截!報(bào)仇不隔夜!1000萬升走私燃料被截,背后竟是美國(guó)人?

對(duì)等攔截!報(bào)仇不隔夜!1000萬升走私燃料被截,背后竟是美國(guó)人?

現(xiàn)代小青青慕慕
2025-12-27 13:39:34
山西省司法廳原一級(jí)巡視員周濤接受審查調(diào)查

山西省司法廳原一級(jí)巡視員周濤接受審查調(diào)查

界面新聞
2025-12-28 11:31:42
女性的私處哪種形態(tài)更好?女性陰部的形狀類型有哪些?不妨來了解

女性的私處哪種形態(tài)更好?女性陰部的形狀類型有哪些?不妨來了解

醫(yī)者榮耀
2025-12-25 12:05:06
若沒有朝鮮戰(zhàn)爭(zhēng),粟裕60萬大軍能拿下臺(tái)灣嗎?

若沒有朝鮮戰(zhàn)爭(zhēng),粟裕60萬大軍能拿下臺(tái)灣嗎?

何氽簡(jiǎn)史
2025-12-28 16:58:50
顧客稱在店內(nèi)飲用星巴克競(jìng)品,被工作人員提醒“盡快喝完”或“套上星巴克杯套”,星巴克回應(yīng)→

顧客稱在店內(nèi)飲用星巴克競(jìng)品,被工作人員提醒“盡快喝完”或“套上星巴克杯套”,星巴克回應(yīng)→

930老友記
2025-12-27 22:15:37
他們吸過毒,曾經(jīng)是“爛人”,想要個(gè)機(jī)會(huì)

他們吸過毒,曾經(jīng)是“爛人”,想要個(gè)機(jī)會(huì)

大風(fēng)新聞
2025-12-27 15:04:03
姜昆唱歌視頻拍攝者發(fā)聲,是在洛杉磯拍攝,時(shí)間是2025年12月19日

姜昆唱歌視頻拍攝者發(fā)聲,是在洛杉磯拍攝,時(shí)間是2025年12月19日

阿纂看事
2025-12-27 09:55:58
2025-12-28 21:19:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
6680文章數(shù) 544關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢(shì)

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢(shì)

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財(cái)經(jīng)要聞

英偉達(dá)的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

家居
藝術(shù)
時(shí)尚
健康
親子

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

藝術(shù)要聞

驚艷!陳紅20年前沙發(fā)照曝光,宛如人間尤物!

2026年了,最好看還是這件大衣!

這些新療法,讓化療不再那么痛苦

親子要聞

原來真的有學(xué)霸父母“學(xué)渣”娃的情況!網(wǎng)友:看完瞬間心理平衡!

無障礙瀏覽 進(jìn)入關(guān)懷版