国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

全球首個(gè)醫(yī)療視頻理解大模型開源!6k+組精標(biāo)測試集/英雄榜上線

0
分享至

田晏林 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

手術(shù)視頻的“黑盒”,被一腳踢爆了!

就在這兩天,GitHub和Hugging Face社區(qū)上線了一枚醫(yī)療大模型領(lǐng)域的“核彈”。

全球規(guī)模最大性能最強(qiáng)的醫(yī)療視頻理解大模型——uAI Nexus MedVLM(中文名:元智醫(yī)療視頻理解大模型)開源!

最驚人的是,這玩意兒是真的能看懂手術(shù)。

論文已經(jīng)被CVPR 2026收錄,團(tuán)隊(duì)還同步甩出了一套由6245個(gè)視頻-指令對構(gòu)成的標(biāo)準(zhǔn)測試集。

啥概念?醫(yī)療視頻理解,終于有了一把“公共標(biāo)尺”。

而如此兼具規(guī)模與精度的醫(yī)療視頻數(shù)據(jù)開源,在業(yè)內(nèi)尚屬首次

小編第一時(shí)間沖到Hugging Face,把模型拉下來實(shí)測了一波。

到底有多能打?

先交代一下uAI Nexus MedVLM的硬指標(biāo):

  • 匯聚超53萬條視頻-指令數(shù)據(jù);
  • 支持4B/7B參數(shù)規(guī)模,單卡就能部署(對,一張卡就能跑);
  • 整合8個(gè)專業(yè)醫(yī)學(xué)數(shù)據(jù)集,覆蓋內(nèi)鏡、腹腔鏡、開放手術(shù)、機(jī)器人手術(shù)、護(hù)理操作……幾乎你能想到的手術(shù)場景,它全包了。

實(shí)測效果咋樣?

Demo的體驗(yàn)設(shè)計(jì)非常友好:界面核心模塊清晰;支持上傳手術(shù)視頻文件。



你可以上傳自己的醫(yī)療視頻,也可以用預(yù)置示例直接測試。

我嘗試用示例的腹腔鏡膽囊切除術(shù)視頻,測試了三個(gè)臨床核心維度,并對比了通用大模型(GPT-5.4、Gemini-3.1、某國產(chǎn)大模型)和uAI Nexus MedVLM的輸出差異。

定量實(shí)測的數(shù)據(jù)太殘暴了!手術(shù)安全評估:準(zhǔn)確率89.7%。

啥概念?GPT-5.4只有16.4%,Gemini-3.1是24.2%,某國產(chǎn)大模型是30.9%。

也就是說,uAI Nexus MedVLM的準(zhǔn)確率是GPT-5.4的近5.5倍,是Gemini-3.1的3.7倍,是國產(chǎn)大模型的近3倍。

時(shí)空動(dòng)作定位:uAI Nexus MedVLM的mIoU是Gemini-3.1的3.2倍,是國產(chǎn)大模型的3.7倍,是GPT-5.4的47倍,

視頻報(bào)告生成(5分制):uAI Nexus MedVLM 拿到4.24分,GPT-5.4只有3.98分,某國產(chǎn)大模型只有3.5分,Gemini-3.1只有3.7分。

而通過MedGRPO強(qiáng)化學(xué)習(xí)優(yōu)化后,相比基座模型,uAI Nexus MedVLM的器械定位能力提升14%;手術(shù)步驟識別能力暴漲52%;手術(shù)描述質(zhì)量提升16%~25%。



uAI Nexus MedVLM覆蓋內(nèi)鏡腔鏡手術(shù)、開放式手術(shù)、機(jī)器人手術(shù)、護(hù)理操作等多類臨床場景,涵蓋了8個(gè)手術(shù)數(shù)據(jù)集中的8個(gè)任務(wù):

視頻摘要(VS)、關(guān)鍵安全視野評估(CVS)、下一步操作預(yù)測(NAP)、技能評估(SA)、時(shí)間動(dòng)作定位(TAG)、密集視頻描述(DVC)、區(qū)域級描述(RC)和時(shí)空基礎(chǔ)化(STG)。

每項(xiàng)任務(wù)的表現(xiàn)都超越了GPT和Gemini。

再看定性實(shí)測的結(jié)果,把一段被標(biāo)記了綠色框的手術(shù)視頻發(fā)給大模型,讓它描述。

輸入問題:你是一名專攻微創(chuàng)手術(shù)的外科分析專家。這段視頻展示了腹腔鏡膽囊切除術(shù)的內(nèi)鏡畫面。請描述0.0秒時(shí),邊界框內(nèi)物體的狀態(tài),以及在0.0~29.0秒時(shí)間段內(nèi)的操作。



標(biāo)準(zhǔn)答案是:鉗持續(xù)夾持并將膽囊向手術(shù)視野的左上方牽拉,提供反向牽引和暴露。

GPT-5.4這邊呢,它只能給出籠統(tǒng)的描述,未能識別出具體器械。

Gemini-3.1則將工具錯(cuò)誤識別為“電凝鉤”,描述成了不正確的操作。

某國產(chǎn)大模型:則無法識別出正確的手術(shù)操作步驟。

只有uAI Nexus MedVLM,給出了接近標(biāo)準(zhǔn)答案的描述:

位于左上方的抓鉗持續(xù)向上并朝中央牽引膽囊,保持張力并為鉤子暴露分離平面。

隨后,我看了下示例給出的8個(gè)任務(wù)表現(xiàn),一個(gè)比一個(gè)令人震撼。

為避免真實(shí)手術(shù)場景帶來的觀感不適,我們選取了一段溫和的示例視頻,內(nèi)容是護(hù)士給患者監(jiān)測身體指標(biāo)。

視頻涵蓋了護(hù)士查看血壓計(jì)、查看體溫計(jì)、護(hù)理記錄、洗手、測量血壓、測量體溫、脈搏測量、呼吸測量等工作。



現(xiàn)在,我們隨機(jī)考察8個(gè)任務(wù)中的一個(gè),比如「時(shí)間動(dòng)作定位」。

輸入問題:脈搏測量動(dòng)作發(fā)生在什么時(shí)間?

標(biāo)準(zhǔn)答案是:46.0-61.8seconds。

模型給出的預(yù)測是:43.0-65.0seconds。前后誤差不超過4秒,且正確答案就在預(yù)測范圍內(nèi)。

為什么手術(shù)視頻是AI最難啃的骨頭?

在AI醫(yī)療領(lǐng)域,將AI用于影像輔助診斷、病歷書寫、質(zhì)控管理等場景早已不是新鮮事,在不少醫(yī)院已經(jīng)落地。

但有一個(gè)方向,至今仍是公認(rèn)的“無人區(qū)”,那就是手術(shù)視頻理解

之前沒人敢碰,為啥?三重地獄級難度,和靜態(tài)影像完全不是一個(gè)量級:

第一關(guān):數(shù)據(jù)極難獲取。臨床手術(shù)視頻涉及患者隱私與醫(yī)學(xué)倫理,獲取本身就困難重重。

即便拿到了原始視頻,你讓專業(yè)醫(yī)生逐幀標(biāo)注?成本高到可以勸退99%的團(tuán)隊(duì)。

第二關(guān):沒有統(tǒng)一評測標(biāo)準(zhǔn)。這是行業(yè)里一個(gè)很尷尬的現(xiàn)實(shí):各家用自己的數(shù)據(jù)集、自己的指標(biāo),模型效果根本沒法橫向比較。

你說你強(qiáng),他說他強(qiáng),誰說了都不算,嚴(yán)重阻礙整個(gè)賽道的發(fā)展。



第三關(guān):任務(wù)本身極端復(fù)雜。手術(shù)視頻的難就難在對空間、時(shí)序、語義的理解要高度專業(yè)。

比如,它需要精準(zhǔn)識別毫米級的器械位置和解剖結(jié)構(gòu)。稍微偏一點(diǎn),可能就認(rèn)錯(cuò)了。

而且膽囊得先分離再切除,不能反過來。AI如果看不懂時(shí)序,就根本無法理解手術(shù)進(jìn)程。

各種約束疊加,再頂級的模型也只能歇菜。

但現(xiàn)在,這個(gè)無人區(qū)被uAI Nexus MedVLM一腳踩穿。

它不只是“炫技”,是真的能救命。

好了,說點(diǎn)實(shí)際的。這模型具體能干嘛?

術(shù)前:分析主刀老師上萬臺手術(shù)視頻,挖掘臨床規(guī)律、輔助優(yōu)化方案。

想象你是一位剛站上手術(shù)臺的臨床醫(yī)生,即將做一臺膽結(jié)石微創(chuàng)手術(shù)。

以前你只能靠記憶和經(jīng)驗(yàn);現(xiàn)在AI把成千上萬臺頂級專家的手術(shù)經(jīng)驗(yàn)沉淀下來,相當(dāng)于有了最強(qiáng)的大腦,來輔助你完成這臺手術(shù)。



術(shù)中:在分離膽囊管、顯露安全視野等關(guān)鍵步驟,實(shí)時(shí)給出指引;對違規(guī)操作、動(dòng)作偏差進(jìn)行毫秒級預(yù)警,成為你的“第三只眼”。

術(shù)后:自動(dòng)完成總結(jié)與結(jié)構(gòu)化記錄,這通常會(huì)占用醫(yī)生大量時(shí)間,但現(xiàn)在,一鍵生成標(biāo)準(zhǔn)化報(bào)告。這臺手術(shù)的經(jīng)驗(yàn),也能成為下一位醫(yī)生的“決策依據(jù)”

手術(shù)質(zhì)控、術(shù)中安全、報(bào)告自動(dòng)化、醫(yī)學(xué)教學(xué)……uAI Nexus MedVLM的價(jià)值,遠(yuǎn)不止于技術(shù)突破。

在中國,優(yōu)質(zhì)醫(yī)療資源集中在三甲醫(yī)院,基層醫(yī)院醫(yī)生成長周期長、手術(shù)經(jīng)驗(yàn)積累慢。

而uAI Nexus MedVLM可以把頂級專家的手術(shù)經(jīng)驗(yàn)“沉淀”下來,基層醫(yī)院的醫(yī)生也能獲得“專家級”的術(shù)中輔助。

這或許才是AI真正理解手術(shù)視頻的意義所在。

全球開發(fā)者,新機(jī)遇來了

這次發(fā)布,最值得關(guān)注的不僅是uAI Nexus MedVLM本身。

開發(fā)這一模型的背后玩家聯(lián)影智能(聯(lián)影集團(tuán)旗下一家專注于AI醫(yī)療的創(chuàng)新公司),首次向全球開源大規(guī)模高質(zhì)量醫(yī)療視頻標(biāo)注數(shù)據(jù)和模型,并提供了一個(gè)更具可比性的評測基準(zhǔn)。

這意味著什么?終于有了一個(gè)手術(shù)視頻理解垂直領(lǐng)域的“全球公共測評體系”了。

以前,各家模型各說各話,效果沒法比。

現(xiàn)在,拉出來在同一個(gè)數(shù)據(jù)集上跑一跑,誰強(qiáng)誰弱,一目了然。

而這,還只是開始。

這支研發(fā)團(tuán)隊(duì)不想唱獨(dú)角戲,上線了醫(yī)療視頻理解大模型榜單,面向全世界開發(fā)者發(fā)出挑戰(zhàn)。



這是一個(gè)綜合基準(zhǔn)測試,用于評估視頻語言模型在醫(yī)療和外科視頻理解方面的表現(xiàn)。

開發(fā)者可提交自有模型結(jié)果,由系統(tǒng)基于標(biāo)準(zhǔn)自動(dòng)評分,形成動(dòng)態(tài)更新的統(tǒng)一排行榜。

當(dāng)全球開發(fā)者都能下載模型、使用數(shù)據(jù)集、上傳自己的成果時(shí),看誰能把對醫(yī)療視頻理解的能力邊界,再往前推一步了。

這個(gè)過程中,醫(yī)生上傳的罕見病例、復(fù)雜手術(shù)視頻,尤其是現(xiàn)有模型表現(xiàn)不足的案例,都會(huì)成為極為珍貴的真實(shí)數(shù)據(jù),持續(xù)驅(qū)動(dòng)技術(shù)迭代。

醫(yī)療視頻AI正在迎來面向全球開發(fā)者的黃金時(shí)代。

未來,uAI Nexus MedVLM將與具身智能融合,完善感知-推理-執(zhí)行的能力閉環(huán)。從手術(shù)室拓展到更多臨床場景,推動(dòng)醫(yī)療全流程智能化。

數(shù)據(jù)開放、模型共享、全球協(xié)同……這條路,才剛剛開始。

開發(fā)者們,是時(shí)候上車了~

彩蛋:鏈接在此,請自取

1.在線Demo:
https://huggingface.co/spaces/UII-AI/MedGRPO-Demo

2.推理代碼:
https://github.com/UII-AI/MedGRPO-Code

3.MedVidBench數(shù)據(jù)集:
https://huggingface.co/datasets/UII-AI/MedVidBench

4.公開榜單:
https://huggingface.co/spaces/UII-AI/MedVidBench-Leaderboard

5.論文:
https://arxiv.org/abs/2512.06581

6. 項(xiàng)目介紹:
https://uii-ai.github.io/MedGRPO/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
不知不覺都老了,這兩位演員已經(jīng)不在了,你還記得他們嗎?

不知不覺都老了,這兩位演員已經(jīng)不在了,你還記得他們嗎?

阿廢冷眼觀察所
2026-04-11 17:02:28
想要長肌肉,要多吃這 7 種增肌食物

想要長肌肉,要多吃這 7 種增肌食物

增肌減脂
2026-04-17 19:05:33
亞沙會(huì)沙灘男足中國不敵阿曼 無緣小組出線

亞沙會(huì)沙灘男足中國不敵阿曼 無緣小組出線

新浪財(cái)經(jīng)
2026-04-27 00:39:42
熬過四月,五月運(yùn)勢上揚(yáng)!三大生肖財(cái)源穩(wěn)增,這些事項(xiàng)需多加留意

熬過四月,五月運(yùn)勢上揚(yáng)!三大生肖財(cái)源穩(wěn)增,這些事項(xiàng)需多加留意

人閒情事
2026-04-26 17:01:06
國家再砸625億搞補(bǔ)貼!人人都能領(lǐng),這次錢真落到普通人口袋里了

國家再砸625億搞補(bǔ)貼!人人都能領(lǐng),這次錢真落到普通人口袋里了

愛寫的櫻桃
2026-04-11 18:50:05
鐵腕“去主播化” 東方甄選拒絕第二個(gè)“董宇輝”

鐵腕“去主播化” 東方甄選拒絕第二個(gè)“董宇輝”

北京商報(bào)
2026-04-26 22:58:37
痛悼!首屆國醫(yī)大師、著名中西醫(yī)結(jié)合外科專家吳咸中逝世,享年101歲

痛悼!首屆國醫(yī)大師、著名中西醫(yī)結(jié)合外科專家吳咸中逝世,享年101歲

梅斯醫(yī)學(xué)
2026-04-26 07:53:25
陳光標(biāo)到底是怎么發(fā)家的?他為什么有那么多錢可以捐?

陳光標(biāo)到底是怎么發(fā)家的?他為什么有那么多錢可以捐?

擔(dān)撲
2026-04-03 13:56:56
27歲單親媽媽開直播,播著播著睡著了,醒來一看后臺直接傻眼了

27歲單親媽媽開直播,播著播著睡著了,醒來一看后臺直接傻眼了

小椰的奶奶
2026-04-01 17:04:55
專家:建議拆除毛主席紀(jì)念堂雕像,士兵:你拆一下試試

專家:建議拆除毛主席紀(jì)念堂雕像,士兵:你拆一下試試

古今閑談
2026-04-14 22:49:01
不只DeepSeek,大廠都想“拋棄”英偉達(dá)

不只DeepSeek,大廠都想“拋棄”英偉達(dá)

最話Funtalk
2026-04-24 21:08:29
斬首哈梅內(nèi)伊,活捉馬杜羅!你可以說美國壞,但真不能說美國菜

斬首哈梅內(nèi)伊,活捉馬杜羅!你可以說美國壞,但真不能說美國菜

垛垛糖
2026-03-02 12:18:19
俄羅斯罕見讓步!中國30年心結(jié)一朝化解!美媒:歐盟幫了中國大忙

俄羅斯罕見讓步!中國30年心結(jié)一朝化解!美媒:歐盟幫了中國大忙

潮鹿逐夢
2026-04-25 19:04:10
地下捐精有多亂!女的被約到賓館,捐精者:直接懷孕只收800元

地下捐精有多亂!女的被約到賓館,捐精者:直接懷孕只收800元

雍親王府
2025-11-14 14:50:03
不打了!愛德華茲左膝受傷!季后賽首輪正式報(bào)銷

不打了!愛德華茲左膝受傷!季后賽首輪正式報(bào)銷

籃球教學(xué)論壇
2026-04-27 00:20:25
實(shí)拍越南真實(shí)心聲:普通民眾眼里,中國投資者不是我們想的那樣!

實(shí)拍越南真實(shí)心聲:普通民眾眼里,中國投資者不是我們想的那樣!

老特有話說
2026-04-26 08:05:02
戴笠手下一女特務(wù)執(zhí)行任務(wù)回來,肚子凸起明顯,戴笠當(dāng)場將其槍斃

戴笠手下一女特務(wù)執(zhí)行任務(wù)回來,肚子凸起明顯,戴笠當(dāng)場將其槍斃

史之銘
2026-04-27 01:21:54
初中生靠迷你小屏看完百萬字小說,媽媽又氣又笑:這用學(xué)習(xí)上多好

初中生靠迷你小屏看完百萬字小說,媽媽又氣又笑:這用學(xué)習(xí)上多好

搗蛋窩
2026-03-30 21:09:36
誰能想到,蘇林上任首訪中國,竟是自家人都擺不平的大麻煩

誰能想到,蘇林上任首訪中國,竟是自家人都擺不平的大麻煩

動(dòng)物奇奇怪怪
2026-04-15 13:19:42
斯諾克世錦賽:趙心童德比清臺逆轉(zhuǎn)!11-8沖賽點(diǎn),吳宜澤0-2到2-2

斯諾克世錦賽:趙心童德比清臺逆轉(zhuǎn)!11-8沖賽點(diǎn),吳宜澤0-2到2-2

劉姚堯的文字城堡
2026-04-26 18:41:03
2026-04-27 03:36:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12536文章數(shù) 176458關(guān)注度
往期回顧 全部

科技要聞

漲價(jià)浪潮下,DeepSeek推動(dòng)AI“價(jià)格戰(zhàn)”

頭條要聞

特朗普內(nèi)閣又一女部長落馬:強(qiáng)迫男下屬為其提供性服務(wù)

頭條要聞

特朗普內(nèi)閣又一女部長落馬:強(qiáng)迫男下屬為其提供性服務(wù)

體育要聞

森林狼3比1掘金:逆境中殺出了多孫穆?!

娛樂要聞

僅次《指環(huán)王》的美劇,有第二季

財(cái)經(jīng)要聞

事關(guān)新就業(yè)群體,中辦、國辦發(fā)文

汽車要聞

預(yù)售19.38萬元起 哈弗猛龍PLUS七座版亮相

態(tài)度原創(chuàng)

家居
藝術(shù)
數(shù)碼
房產(chǎn)
旅游

家居要聞

自然肌理 溫潤美學(xué)

藝術(shù)要聞

72米舞臺被拆!華晨宇這次玩文旅,翻車了!

數(shù)碼要聞

三星Tab S12系列進(jìn)入固件測試階段 或配10500mAh大電池

房產(chǎn)要聞

新一輪教育大爆發(fā)來了!??冢_始瘋狂建學(xué)校!

旅游要聞

2000余場特色活動(dòng)邀市民歡度五一

無障礙瀏覽 進(jìn)入關(guān)懷版