国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI“世界模型”離真實(shí)手術(shù)還有多遠(yuǎn)?首個(gè)外科視頻生成基準(zhǔn)SurgVeo揭示“合理性差距”

0
分享至

文章來源:我愛計(jì)算機(jī)視覺(ID:aicvml)

最近,視頻生成領(lǐng)域的基石模型正展現(xiàn)出作為潛在“世界模型”模擬物理世界的驚人能力。然而,當(dāng)這些技術(shù)被應(yīng)用于像外科手術(shù)這樣高風(fēng)險(xiǎn)、需要深度專業(yè)因果知識(shí)而非普適物理規(guī)則的領(lǐng)域時(shí),其表現(xiàn)如何?這是一個(gè)至關(guān)重要但尚未被探索的領(lǐng)域。

為了系統(tǒng)地應(yīng)對(duì)這一挑戰(zhàn),來自耶魯大學(xué)、諾丁漢大學(xué)等機(jī)構(gòu)的研究者們進(jìn)行了一項(xiàng)開創(chuàng)性的研究。他們提出了 SurgVeo,這是首個(gè)由專家策劃的、用于評(píng)估手術(shù)視頻生成模型的基準(zhǔn);同時(shí),他們還設(shè)計(jì)了一個(gè)新穎的四層評(píng)估框架——手術(shù)合理性金字塔(Surgical Plausibility Pyramid, SPP),旨在從基本外觀到復(fù)雜手術(shù)策略等多個(gè)層面評(píng)估模型生成內(nèi)容的質(zhì)量。



  • 論文標(biāo)題 : How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment

  • 中文標(biāo)題 ::外科醫(yī)生離手術(shù)世界模型還有多遠(yuǎn)?基于專家評(píng)估的零樣本手術(shù)視頻生成研究

  • 作者 : Zhen Chen, Qing Xu, Jinlin Wu, Biao Yang, Yuhao Zhai, Geng Guo, Jing Zhang, Yinlu Ding,Nassir Navab, Jiebo Luo

  • 機(jī)構(gòu) : 耶魯大學(xué),諾丁漢大學(xué),中國科學(xué)院,山西醫(yī)科大學(xué),山東大學(xué),慕尼黑工業(yè)大學(xué),羅切斯特大學(xué)

  • 論文地址 : https://arxiv.org/pdf/2511.01775

  • Benchmark (待開源): https://github.com/franciszchen/SurgVeo

當(dāng)前挑戰(zhàn):通用世界模型難以駕馭專業(yè)領(lǐng)域

“世界模型”的核心思想是讓機(jī)器建立一個(gè)關(guān)于世界如何運(yùn)作的內(nèi)部表征,理解環(huán)境如何演變、行為如何導(dǎo)致后果。近期的視頻生成模型,如谷歌的Veo,已經(jīng)能夠生成非常逼真的通用場(chǎng)景視頻,似乎讓我們離通用物理世界的模擬器越來越近。

然而,外科手術(shù)領(lǐng)域與日常物理世界有著本質(zhì)的不同。它不僅僅是關(guān)于物體如何移動(dòng)或碰撞,而是充滿了需要“專家直覺”的知識(shí),比如解剖學(xué)、生理學(xué)和生物力學(xué)。一個(gè)成功的“手術(shù)世界模型”必須理解手術(shù)刀切開不同組織時(shí)會(huì)發(fā)生什么,理解特定操作背后的戰(zhàn)略意圖。將為模擬“常識(shí)物理”而生的模型直接應(yīng)用于手術(shù)這樣需要“專家知識(shí)”的領(lǐng)域,其能力邊界在哪里?這正是本研究試圖回答的核心問題。

研究方法:SurgVeo基準(zhǔn)與SPP評(píng)估框架

為了科學(xué)地衡量現(xiàn)有視頻生成模型在手術(shù)領(lǐng)域的真實(shí)能力,研究者構(gòu)建了一套完整的評(píng)測(cè)流程。


首先,他們創(chuàng)建了 SurgVeo 基準(zhǔn)。該基準(zhǔn)包含了兩種具有代表性但風(fēng)格迥異的手術(shù)視頻:腹腔鏡子宮切除術(shù)和內(nèi)窺鏡垂體手術(shù)。前者代表了在密閉空間內(nèi)的軟組織操作,后者則要求在關(guān)鍵神經(jīng)血管結(jié)構(gòu)附近進(jìn)行極其精細(xì)的操作。研究者從這些真實(shí)手術(shù)錄像中提取視頻片段,形成“起始幀-后續(xù)真實(shí)視頻”的數(shù)據(jù)對(duì)。

接著,他們讓先進(jìn)的 Veo-3 模型執(zhí)行一項(xiàng)零樣本(zero-shot)預(yù)測(cè)任務(wù):給定手術(shù)場(chǎng)景的起始幀和一段文本提示(prompt),模型需要生成接下來8秒的手術(shù)視頻。


最關(guān)鍵的一步,是由四位具有執(zhí)業(yè)資格的外科醫(yī)生組成的專家小組,使用研究者提出的 手術(shù)合理性金字塔(SPP) 框架來對(duì)生成的視頻進(jìn)行打分。SPP框架將評(píng)估分為四個(gè)層級(jí),從下到上,要求越來越高:

  1. 視覺感知合理性 (Visual Perceptual Plausibility) :評(píng)估視頻最基本的外觀質(zhì)量,如清晰度、光照、組織紋理和視頻流暢度。

  2. 器械操作合理性 (Instrument Operation Plausibility) :評(píng)估手術(shù)器械的運(yùn)動(dòng)軌跡、操作技術(shù)是否符合物理規(guī)律和手術(shù)規(guī)范。

  3. 環(huán)境反饋合理性 (Environment Feedback Plausibility) :評(píng)估手術(shù)場(chǎng)景(如組織、器官)對(duì)器械操作的反應(yīng)是否真實(shí),例如,組織被牽拉后的變形、切割后的出血模式是否符合生物力學(xué)和解剖學(xué)原理。

  4. 手術(shù)意圖合理性 (Surgical Intent Plausibility) :評(píng)估預(yù)測(cè)的系列動(dòng)作是否展現(xiàn)出清晰、邏輯自洽且符合當(dāng)前手術(shù)階段的戰(zhàn)略目標(biāo)。這是最高層次的評(píng)估,考驗(yàn)?zāi)P褪欠窭斫狻盀槭裁础币@么做。

專家們會(huì)在生成的視頻播放到第1秒、第3秒和第8秒時(shí),參照真實(shí)視頻,對(duì)這四個(gè)維度進(jìn)行1-5分的打分。

實(shí)驗(yàn)結(jié)果:驚人的“合理性差距”

研究結(jié)果揭示了一個(gè)深刻的斷層,研究者稱之為“合理性差距”(plausibility gap):盡管Veo-3在生成視覺上令人信服的手術(shù)場(chǎng)景方面表現(xiàn)出色,但在SPP框架的更高層級(jí)上卻嚴(yán)重失敗。

量化數(shù)據(jù)分析

下方的兩個(gè)表格分別展示了在腹腔鏡手術(shù)和神經(jīng)外科手術(shù)中,不同提示策略下,模型在三個(gè)時(shí)間點(diǎn)的得分情況。


腹腔鏡手術(shù)評(píng)估分?jǐn)?shù)


神經(jīng)外科手術(shù)評(píng)估分?jǐn)?shù)

我們可以清晰地看到:

  • 視覺質(zhì)量高 :在兩個(gè)手術(shù)類別中,“視覺感知合理性”的初始得分都很高(例如,基線提示下腹腔鏡手術(shù)為3.72分,神經(jīng)外科為3.88分)。外科醫(yī)生評(píng)價(jià)生成的圖像“清晰得驚人”。

  • 高層邏輯差 :然而,分?jǐn)?shù)在SPP金字塔的更高層級(jí)急劇下降。器械操作、環(huán)境反饋和手術(shù)意圖的得分要低得多,并且隨著時(shí)間的推移(從1秒到8秒)迅速惡化。例如,在腹腔鏡手術(shù)中,環(huán)境反饋合理性得分從1秒時(shí)的3.06分驟降至8秒時(shí)的1.64分。


腹腔鏡手術(shù)評(píng)估分?jǐn)?shù)的小提琴圖


神經(jīng)外科手術(shù)評(píng)估分?jǐn)?shù)的小提琴圖

小提琴圖更直觀地展示了這種差異。視覺感知的得分(最左側(cè))密集分布在高分區(qū)域,而其他三個(gè)維度的得分則大量堆積在低分區(qū)域,且隨著時(shí)間推移(顏色由淺到深)不斷下移。

有趣的是,研究還發(fā)現(xiàn),為模型提供更明確的“階段感知”提示(例如,明確告知當(dāng)前是“血管結(jié)扎”階段)并不能顯著改善其表現(xiàn)。這有力地證明,模型的問題不在于缺少上下文信息,而在于根本無法理解和運(yùn)用這些專業(yè)的領(lǐng)域知識(shí)。

典型失敗案例

定性的案例分析讓這些冰冷的數(shù)字變得更加觸目驚心。


上圖展示了一些典型的失敗案例:

  • (a) 視覺質(zhì)量失真 :生成的視頻畫面亮度發(fā)生突兀且不自然的變化,與穩(wěn)定的手術(shù)照明條件不符。

  • (b) 器械錯(cuò)誤 :模型“幻覺”出了一種現(xiàn)實(shí)中不存在的手術(shù)器械。

  • (c) 操作不當(dāng) :真實(shí)操作需要向左移動(dòng),模型卻生成了向右的錯(cuò)誤動(dòng)作。模型展示的器械在處理黏液,而正確的手術(shù)操作應(yīng)是在另一目標(biāo)部位上進(jìn)行沖洗與吸引的協(xié)同動(dòng)作。

  • (d) 不當(dāng)手術(shù)目標(biāo) :模型展示的器械在處理黏液,而正確的手術(shù)操作應(yīng)是在另一目標(biāo)部位上進(jìn)行沖洗與吸引的協(xié)同動(dòng)作。

  • (e) 環(huán)境反饋錯(cuò)誤 :模型違反物理定律,讓吸引器像提拉固體一樣將一整塊明膠海綿吸走,而不是吸走表面的液體。

  • (f) 意圖錯(cuò)誤 :真實(shí)意圖是在硬腦膜上注射生物膠水,模型卻錯(cuò)誤地預(yù)測(cè)了一個(gè)完全不相關(guān)的動(dòng)作——用棉片擦拭。

錯(cuò)誤類型的量化分布(上圖)進(jìn)一步證實(shí)了“合理性差距”。在兩種手術(shù)中,與高層手術(shù)邏輯相關(guān)的錯(cuò)誤(如手術(shù)意圖、器械操作錯(cuò)誤)占了絕大多數(shù),而底層的視覺質(zhì)量問題僅占一小部分(腹腔鏡6.2%,神外2.8%)。

當(dāng)然,模型偶爾也能生成一些高分案例,但這些通常是手術(shù)動(dòng)作簡(jiǎn)單、甚至是暫停的場(chǎng)景。


高分案例:(a)中生成了自然的解剖動(dòng)作,(b)中則幾乎完美復(fù)刻了手術(shù)暫停的場(chǎng)景。


災(zāi)難性失敗案例:(a)中需要縫合,模型卻幻覺出器械并執(zhí)行無法識(shí)別的操作;(b)中需要涂膠水,模型完全搞錯(cuò)了意圖。

研究意義與未來展望

這項(xiàng)研究首次提供了量化證據(jù),揭示了當(dāng)前最先進(jìn)的視頻生成模型在手術(shù)AI領(lǐng)域中,令人信服的視覺模仿與真正的因果理解之間存在巨大鴻溝。

CV君認(rèn)為,這項(xiàng)工作意義重大。它告訴我們,僅僅依靠在通用數(shù)據(jù)上進(jìn)行大規(guī)模訓(xùn)練,可能不足以讓模型掌握專家領(lǐng)域的復(fù)雜規(guī)則。未來的“手術(shù)世界模型”可能需要新的架構(gòu)范式,能夠整合結(jié)構(gòu)化的領(lǐng)域知識(shí),并在生成過程中強(qiáng)制執(zhí)行嚴(yán)格的物理和邏輯約束。

SurgVeo基準(zhǔn)和SPP評(píng)估框架為未來的研究奠定了一個(gè)至關(guān)重要的基礎(chǔ)和路線圖,指引著我們?nèi)绾伍_發(fā)能夠駕馭真實(shí)世界醫(yī)療領(lǐng)域復(fù)雜性的下一代模型。雖然通往真正的手術(shù)世界模型道阻且長,但這項(xiàng)研究無疑是邁出的清醒而關(guān)鍵的一步。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
防止規(guī)模性返鄉(xiāng)滯鄉(xiāng),能采取哪些手段?

防止規(guī)模性返鄉(xiāng)滯鄉(xiāng),能采取哪些手段?

基本常識(shí)
2025-11-18 23:54:24
柬埔寨洪森慌了?全家老小齊上陣挽回局面,西哈努克家族蓄勢(shì)待發(fā)

柬埔寨洪森慌了?全家老小齊上陣挽回局面,西哈努克家族蓄勢(shì)待發(fā)

譯人行
2025-12-21 22:25:03
王金平首度提倡兩岸統(tǒng)一,前國民黨立委提“統(tǒng)一新模式”,不簡(jiǎn)單

王金平首度提倡兩岸統(tǒng)一,前國民黨立委提“統(tǒng)一新模式”,不簡(jiǎn)單

時(shí)時(shí)有聊
2025-12-21 17:18:25
偏偏卡在4月前“拜碼頭”?“日方開始協(xié)調(diào)高市早苗明年春季訪美”

偏偏卡在4月前“拜碼頭”?“日方開始協(xié)調(diào)高市早苗明年春季訪美”

上觀新聞
2025-12-21 04:58:06
63歲前TVB御用惡人收入插水轉(zhuǎn)行賣魚,滿頭白發(fā)被細(xì)24年女友狠撇

63歲前TVB御用惡人收入插水轉(zhuǎn)行賣魚,滿頭白發(fā)被細(xì)24年女友狠撇

粵睇先生
2025-12-22 01:18:22
茼蒿立大功!醫(yī)生調(diào)查發(fā)現(xiàn):茼蒿對(duì)這5種疾病有好處,建議常吃

茼蒿立大功!醫(yī)生調(diào)查發(fā)現(xiàn):茼蒿對(duì)這5種疾病有好處,建議常吃

阿纂看事
2025-10-13 15:36:03
拿5500萬頂薪,已缺席16場(chǎng)比賽!從老大到邊緣人,也許不需要你了

拿5500萬頂薪,已缺席16場(chǎng)比賽!從老大到邊緣人,也許不需要你了

老梁體育漫談
2025-12-22 00:41:17
家長小心了!這些「毒繪本」正在毀掉孩子,你家娃可能正在看

家長小心了!這些「毒繪本」正在毀掉孩子,你家娃可能正在看

十點(diǎn)讀書
2025-12-20 12:26:23
“寧愿她沒考上大學(xué)”,父親控訴211女兒的墮落歷程,看清了現(xiàn)實(shí)

“寧愿她沒考上大學(xué)”,父親控訴211女兒的墮落歷程,看清了現(xiàn)實(shí)

妍妍教育日記
2025-12-15 18:02:43
為什么泰國能把柬埔寨摁在地上打?因?yàn)榧砥艺呢?cái)富被洪森家拿了

為什么泰國能把柬埔寨摁在地上打?因?yàn)榧砥艺呢?cái)富被洪森家拿了

我心縱橫天地間
2025-12-17 23:11:19
哈爾濱中央大街“雪王”雪雕被拆,官方稱氣溫回升導(dǎo)致融雪影響美觀,將拆除重建

哈爾濱中央大街“雪王”雪雕被拆,官方稱氣溫回升導(dǎo)致融雪影響美觀,將拆除重建

極目新聞
2025-12-21 18:11:52
鐵幕下的堅(jiān)守:從民調(diào)看2025年美國人的援烏態(tài)度

鐵幕下的堅(jiān)守:從民調(diào)看2025年美國人的援烏態(tài)度

書生論劍
2025-12-20 23:44:37
王勵(lì)勤向現(xiàn)實(shí)妥協(xié)!公布選聘國乒領(lǐng)導(dǎo)崗位條件,排除一類特殊人才

王勵(lì)勤向現(xiàn)實(shí)妥協(xié)!公布選聘國乒領(lǐng)導(dǎo)崗位條件,排除一類特殊人才

三十年萊斯特城球迷
2025-12-20 20:37:47
“妻兒三人被發(fā)小殺害案”后天開庭,家屬:兇手曾稱要結(jié)娃娃親,作案后假裝毫不知情,開庭當(dāng)天是亡妻30歲生日

“妻兒三人被發(fā)小殺害案”后天開庭,家屬:兇手曾稱要結(jié)娃娃親,作案后假裝毫不知情,開庭當(dāng)天是亡妻30歲生日

極目新聞
2025-12-21 20:18:19
離心離德、鬧到臺(tái)面上的林詩棟蒯曼,終于被教練組拆了

離心離德、鬧到臺(tái)面上的林詩棟蒯曼,終于被教練組拆了

冥王星與一只碗
2025-12-21 22:50:25
傳奇落幕!鄭思維黃雅瓊劉雨辰陳清晨正式退役,愿未來一切順利!

傳奇落幕!鄭思維黃雅瓊劉雨辰陳清晨正式退役,愿未來一切順利!

上觀新聞
2025-12-21 23:32:04
醫(yī)生研究:茶葉一換,每年糖尿病致死少一半,這5種茶葉,多試試

醫(yī)生研究:茶葉一換,每年糖尿病致死少一半,這5種茶葉,多試試

讀懂世界歷史
2025-12-11 20:44:19
酸菜再次被關(guān)注!醫(yī)生發(fā)現(xiàn):糖尿病患者常吃酸菜,或出現(xiàn)5種變化

酸菜再次被關(guān)注!醫(yī)生發(fā)現(xiàn):糖尿病患者常吃酸菜,或出現(xiàn)5種變化

橘子約定
2025-11-28 09:39:09
聲稱拿下庫皮揚(yáng)斯克的俄軍司令庫佐夫列夫被曝消失!或已身亡

聲稱拿下庫皮揚(yáng)斯克的俄軍司令庫佐夫列夫被曝消失!或已身亡

項(xiàng)鵬飛
2025-12-21 20:34:23
房產(chǎn)證上的人去世了,繼承別再花大幾千的公證費(fèi),80塊錢就能搞定

房產(chǎn)證上的人去世了,繼承別再花大幾千的公證費(fèi),80塊錢就能搞定

室內(nèi)設(shè)計(jì)師有料兒
2025-12-07 16:05:28
2025-12-22 02:35:00
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識(shí),交流思想
5273文章數(shù) 64595關(guān)注度
往期回顧 全部

科技要聞

生態(tài)適配已超95% 鴻蒙下一關(guān):十萬個(gè)應(yīng)用

頭條要聞

必勝客牛排口感奇怪遭質(zhì)疑"到底用的什么肉" 官方介入

頭條要聞

必勝客牛排口感奇怪遭質(zhì)疑"到底用的什么肉" 官方介入

體育要聞

勇士火箭贏球:王牌之外的答案?

娛樂要聞

星光大賞太尷尬!搶話擋鏡頭,場(chǎng)地還小

財(cái)經(jīng)要聞

老房子“強(qiáng)制體檢”,政府出手了

汽車要聞

-30℃,標(biāo)致508L&凡爾賽C5 X冰雪"大考"

態(tài)度原創(chuàng)

時(shí)尚
健康
旅游
本地
軍事航空

紅色不流行了?今年最火的穿搭居然是它

這些新療法,讓化療不再那么痛苦

旅游要聞

新年簽收一份蘭花香,你的風(fēng)雅旅途已到站!

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

軍事要聞

石破茂:擁核絕不會(huì)給日本帶來正面影響

無障礙瀏覽 進(jìn)入關(guān)懷版