国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

國產(chǎn)醫(yī)療大模型斬獲三項SOTA!幻覺率優(yōu)于GPT-5.2,問診能力超過人類醫(yī)生

0
分享至


智東西
作者 陳駿達(dá)
編輯 漠影

我盯著屏幕上的AI診斷建議,反復(fù)讀了三次。AI用清晰的專業(yè)術(shù)語羅列了可能的病因,可我的焦慮卻沒有絲毫緩解。

如果疼痛加劇該怎么辦?這些藥需要一起吃嗎?我該先去哪個科室掛號?這些真正困擾普通患者的問題,答案里只字未提。AI似乎什么都懂,可我依然不知道該怎么做。


這也正是當(dāng)前將AI大模型應(yīng)用于醫(yī)療健康產(chǎn)場景的尷尬所在:它們能給出看起來專業(yè)感十足的回應(yīng),卻撐不起一個真正的醫(yī)療決策。

作為患者,我們既不知道該怎么描述癥狀才算準(zhǔn)確,也不清楚該提供哪些關(guān)鍵信息。最終,AI只能謹(jǐn)慎地給出一段涵蓋各種可能性、卻難以落地的建議。

如果,它能更像一位真正的醫(yī)生呢?不急于拋出結(jié)論,而是先一步步引導(dǎo),主動補(bǔ)齊醫(yī)療決策中缺失的那幾塊關(guān)鍵信息,比如疼痛的具體變化、用藥史,或是過往的檢查結(jié)果。

這,或許才是大模型真正走入現(xiàn)實醫(yī)療場景、發(fā)揮作用的轉(zhuǎn)折點。

一、從機(jī)械問答到主動提問,會問診的“AI醫(yī)生”什么樣?

昨天,百川智能開源的新一代醫(yī)療大模型Baichuan-M3,正是在上述方向上做的一次革新。

如果說傳統(tǒng)醫(yī)療大模型像是醫(yī)學(xué)知識問答機(jī)或醫(yī)生角色扮演器,那么百川的追求,是盡可能還原真實的醫(yī)療決策過程,讓模型具備主動收集關(guān)鍵信息、構(gòu)建醫(yī)學(xué)推理鏈路、動態(tài)抑制內(nèi)容幻覺等原生醫(yī)療增強(qiáng)能力。

我們可以用下方這個案例,來感受Baichuan-M3與此前其他大模型的區(qū)別。

比如,當(dāng)我向通用大模型發(fā)送“胸口長了個痘痘,兩個月沒消”這樣的模糊消息時,沒有主動收集信息能力的大模型,往往會基于有限的信息,直奔結(jié)論,列舉出海量相關(guān)癥狀,讓人一時間不知如何是好。


而當(dāng)我與Baichuan-M3交互時,其“嚴(yán)肅問診”帶來的體驗則完全不同。發(fā)送了相同的信息后,模型會主動要求我給予更多描述,比如具體長在哪個位置,看起來是什么樣的,還貼心地給了對應(yīng)的選項,供我回復(fù)。


Baichuan-M3逐步排查了吸煙史、手術(shù)史、外傷史、感染史等關(guān)鍵要素,也問了問我的飲食習(xí)慣,家族病史,直到它認(rèn)為獲取了足夠完整的信息后,才決定給出判斷。


這種直觀的體驗提升,也在榜單上得到了充分體現(xiàn)。去年5月,OpenAI發(fā)布了Healthbench。這一基準(zhǔn)測試由來自60個國家的262位醫(yī)生共同構(gòu)建,收錄了5000組高度逼真的多輪醫(yī)療對話,是目前較為權(quán)威、且貼近真實臨床場景的醫(yī)療評測集。

長期以來,在Healthbench和HealthBench-Hard榜單上,霸榜的一直是GPT系列模型,Baichuan-M2此前曾沖到開源第一的位置,僅次于GPT-5。

此次發(fā)布的Baichuan-M3,則在HealthBench總分上超越OpenAI最新模型GPT-5.2,也在HealthBench Hard上登頂,成為當(dāng)前全球醫(yī)療溝通和推理能力最強(qiáng)的醫(yī)療大模型。


在嚴(yán)肅的醫(yī)療場景,幻覺率也是一個十分重要的指標(biāo)。常常被不少患者帶著一同前往診室,尋醫(yī)問藥的DeepSeek,幻覺率大概在6.1%左右,目前業(yè)內(nèi)做得最好的GPT-5.2-High,幻覺率則在3.8%左右。Baichuan-M3則做到了3.5%的幻覺率,同樣也是行業(yè)SOTA水平。


隨著Baichuan-M3的問世,百川也同期發(fā)布了一項新的測評集——SCAN-bench。這項基準(zhǔn)測試由150多位一線醫(yī)生聯(lián)合打造,能將診療過程拆解為更符合真實場景的病史采集、輔助檢查、精準(zhǔn)診斷三大階段,對模型能力做出更全流程的評估。

在SCAN-bench上,M3在四個重要維度上,均顯著高于人類醫(yī)生基線水平,還大幅領(lǐng)先于國內(nèi)外頂尖模型。


全新的使用體驗與亮眼的榜單成績背后,百川究竟做對了什么?

二、SCAN原則、強(qiáng)化學(xué)習(xí)多管齊下,教會AI“像醫(yī)生一樣思考”

在與百川的溝通中,我們了解到,百川內(nèi)部其實有不少真正的臨床醫(yī)生,他們有的是從大醫(yī)院辭職到百川全職工作,也有的在業(yè)余時間深度參與。這些一線醫(yī)療場景的Know-how,成為指導(dǎo)百川提升醫(yī)療大模型表現(xiàn)的重要參考。

比如,臨床醫(yī)生在面對患者時的行事邏輯往往是先排除危急重癥,然后進(jìn)行常規(guī)診療。但基于角色扮演的醫(yī)療AI問診模式,往往無法踐行這種安全優(yōu)先級。沒有關(guān)鍵風(fēng)險點的牽引,問診本身有可能失去重點,無法支撐安全可靠的臨床判斷。

為解決上述問題,百川需要的是一種范式的革新。他們提出了“嚴(yán)肅問診范式”與“SCAN原則”,把臨床問診里的思維過程歸納為:Safety Stratification(安全分層)、Clarity Matters(信息澄清)、Association & Inquiry(關(guān)聯(lián)追問)與Normative Protocol(規(guī)范化輸出)。

Baichuan-M3登頂?shù)腟CAN-bench,正是在這一原則的指導(dǎo)下打造的。這一基準(zhǔn)測試的三大階段、多輪動態(tài)考核模式,可以更完整地模擬醫(yī)生從接診到確診的全過程。


如果說SCAN原則、嚴(yán)肅問診范式,像是給大模型出了一套醫(yī)療AI領(lǐng)域的模擬題,那么百川接下來要做的,就是把這套模擬題中的解題思路與評分標(biāo)準(zhǔn),系統(tǒng)地內(nèi)化為模型的核心思維框架與行為本能。

傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法,往往基于最終的結(jié)果給予模型獎勵信號,但是這套模式在醫(yī)療決策場景往往會水土不服。一個醫(yī)療決策的背后,往往涉及諸多復(fù)雜的環(huán)節(jié),一個環(huán)節(jié)出錯,就有可能影響最終的結(jié)果。

百川的解法是把醫(yī)療流程劃分為病史采集、鑒別診斷、檢驗檢查和精確診斷四個階段,這些階段相互依賴,但是目標(biāo)是獨立的。這就允許百川的團(tuán)隊在訓(xùn)練過程中給每個環(huán)節(jié)配備獨立的獎勵機(jī)制,讓長程決策的復(fù)雜度降低。

在強(qiáng)化學(xué)習(xí)中,另一個常見的問題是“獎勵破解”——模型總是能以千奇百怪的捷徑,找到拿高分的方式。比如,只要瘋狂提問,或許就能刷高分?jǐn)?shù),但這往往不是我們想要看到的結(jié)果。

為此,百川開發(fā)了SPAR(基于相對基準(zhǔn)的分步懲罰優(yōu)勢算法)。這一算法進(jìn)一步細(xì)化了步驟懲罰機(jī)制,還加入了自適應(yīng)課程學(xué)習(xí)的因素,最終有效遏制了無效提問。這一算法還解決了模型出現(xiàn)單步瑕疵時的獎勵誤判,能更為準(zhǔn)確地給模型提供指導(dǎo)。


此外,百川使用的強(qiáng)化學(xué)習(xí)獎勵模型還融入了醫(yī)學(xué)教育中的OSCE(客觀結(jié)構(gòu)化臨床考試) 理念,將可計算的動態(tài)量表作為獎勵標(biāo)準(zhǔn),不再單純追逐結(jié)果的對錯,而是進(jìn)行全維度的過程考核。

最終效果就是,經(jīng)過訓(xùn)練的“AI醫(yī)生”,整個問診過程變得流暢、清晰、有邏輯,每一步都穩(wěn)扎穩(wěn)打,像一個真正在思考的醫(yī)生,而不是一個只會背誦知識或耍小聰明騙分的機(jī)器學(xué)生。

Baichuan-M3在醫(yī)療推理能力方面的提升,以及幻覺率的下降,則得益于他們提出的事實感知強(qiáng)化學(xué)習(xí)(Fact-Aware RL)訓(xùn)練架構(gòu)。

在這一架構(gòu)中,百川沒有把幻覺約束和推理能力作為兩個單獨的目標(biāo)進(jìn)行優(yōu)化,而是將其結(jié)合成一套統(tǒng)一的工程化目標(biāo)。這樣既能保證模型敢于給出堅定、明確的醫(yī)學(xué)判斷,也不會使其因過度追求安全而陷入“正確但無用”的沉默,或為追求流暢而滋生危險的事實性幻覺。

簡單來說,這套方法讓模型學(xué)會了一種“負(fù)責(zé)任的自信”。

三、醫(yī)療AI奇點到來,有望緩解行業(yè)四大問題

在Baichuan-M3發(fā)布之際,我們也來到了百川在北京的辦公室,與百川智能創(chuàng)始人兼CEO王小川面對面深度溝通。

此前,百川已在醫(yī)療AI方面取得一系列成績。其開源模型M2發(fā)布后,月下載量超過十萬次,累計下載近百萬次,被業(yè)界視為“2025年影響力最大的開源醫(yī)療模型之一”。

隨后的M2?Plus進(jìn)一步引入“六元循證”系統(tǒng),將幻覺降至基線模型的約三分之一,技術(shù)實力已吸引同行跟進(jìn)甚至“挖人”。

對王小川而言,他認(rèn)為今年是醫(yī)療AI奇點到來的一年,范式變革已經(jīng)真正開始了。以醫(yī)生為權(quán)威、為中心的模式正在逐步開始變化,AI工具提供的更多信息,讓患者開始能夠?qū)ψ约航】地?fù)責(zé)任。

其實,做醫(yī)療,一直是百川的一條主線,這源自王小川對當(dāng)前醫(yī)療體系四個根本性問題的認(rèn)知。

首先,盡管如今我們已經(jīng)能治愈各種復(fù)雜的疾病,但作為一門學(xué)科,醫(yī)學(xué)本身仍是高度不發(fā)達(dá)的,仍處于“現(xiàn)象密集、理論滯后”的階段。

這并不是百川的一家之言,此前,AI教母李飛飛也曾表達(dá)過類似的觀點,醫(yī)療其實是一個黑暗的空間。人的行為和動作在其中扮演了重要,甚至是過于重要的角色。

同時,醫(yī)患角色也存在錯位的問題,決策權(quán)與受益權(quán)分離。患者是健康的最終受益者和責(zé)任人,但決策權(quán)和海量相關(guān)信息卻掌握在醫(yī)生手中。然而,醫(yī)生并不總是能有時間、有條件準(zhǔn)確地傳達(dá)這些信息,可能會溝通不暢、患者體驗不佳。王小川比喻,這如同“圣經(jīng)的解釋權(quán)只在教士手中”。

此外,醫(yī)療體系還面臨優(yōu)質(zhì)醫(yī)生資源不足且分布不均,就醫(yī)體系重心偏高,大醫(yī)院負(fù)荷重,基層與居家健康環(huán)節(jié)薄弱等結(jié)構(gòu)性問題。

而像Baichuan-M3這樣的醫(yī)療AI的價值,正在于能夠同時從這幾個維度尋求突破。大模型熟練掌握全科知識,能對一項具體的病癥展開跨學(xué)科、跨領(lǐng)域的分析,往往超越人類醫(yī)生的知識范疇。

醫(yī)療AI也讓優(yōu)質(zhì)醫(yī)療服務(wù)進(jìn)一步下沉,并通過為患者提供更多看得懂、能理解的信息,推動決策權(quán)回歸患者自身。王小川相信,就像不懂法律的陪審團(tuán)也能通過律師和法官的充分解釋,得出判斷一樣,患者只要掌握了足夠的信息,也能對自己的健康做出負(fù)責(zé)任的決定。

結(jié)語:走少有人走的路

在采訪中,王小川向我們提及了一組數(shù)據(jù):“去年行業(yè)發(fā)了500個AI醫(yī)療模型。”不過,相信對許多患者和普通用戶而言,更多與醫(yī)療相關(guān)的AI對話,可能是發(fā)生在DeepSeek、豆包這樣的通用AI助手中。

王小川對這一現(xiàn)象并不焦慮,他認(rèn)為垂直模型能在醫(yī)療上做得比通用底座更好。百川對醫(yī)療行業(yè)理解更深,選擇了一條少有人走的路,對醫(yī)療AI本身也有信仰。

今年,百川計劃陸續(xù)推出2款面向C端的產(chǎn)品,除了全科覆蓋之外,還會在腫瘤、兒科這兩大最復(fù)雜、最能體現(xiàn)嚴(yán)肅醫(yī)療價值的領(lǐng)域重點發(fā)力。未來,我們或許還能看到百川在更多領(lǐng)域,給廣大用戶帶來的驚喜。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
詹皇31+9+10無緣今日最佳!庫里三分里程碑落選,只因SGA完爆四少

詹皇31+9+10無緣今日最佳!庫里三分里程碑落選,只因SGA完爆四少

你的籃球頻道
2026-01-14 15:05:10
福建永安抽水蓄能電站施工被指偷工減料,官方通報

福建永安抽水蓄能電站施工被指偷工減料,官方通報

觀察者網(wǎng)
2026-01-14 17:55:05
蘋果今天又發(fā)布大量新系統(tǒng)更新,太突然了!

蘋果今天又發(fā)布大量新系統(tǒng)更新,太突然了!

XCiOS俱樂部
2026-01-14 14:07:42
熱搜第一!馬鈔已炒到2000元!網(wǎng)友:給我一套能怎樣…

熱搜第一!馬鈔已炒到2000元!網(wǎng)友:給我一套能怎樣…

北京商報
2026-01-14 11:01:22
為所欲為?美國展會禁止河南鉆石后,歐洲也來插手:全面收緊

為所欲為?美國展會禁止河南鉆石后,歐洲也來插手:全面收緊

火星方陣
2026-01-13 21:49:37
美媒:特朗普的算盤空了,委內(nèi)瑞拉的高價油,中國連一桶都不肯買

美媒:特朗普的算盤空了,委內(nèi)瑞拉的高價油,中國連一桶都不肯買

議紀(jì)史
2026-01-13 18:20:03
《軋戲》口碑兩極分化,陳星旭造型帥氣,與盧昱曉無CP感

《軋戲》口碑兩極分化,陳星旭造型帥氣,與盧昱曉無CP感

懸崖邊上的愛情
2026-01-14 09:44:03
京東001號快遞員已退休,勤懇工作16年,劉強(qiáng)東承諾的房給了嗎?

京東001號快遞員已退休,勤懇工作16年,劉強(qiáng)東承諾的房給了嗎?

阿纂看事
2025-12-10 15:38:14
新款特斯拉Model S曝光!前后采用貫穿式大燈

新款特斯拉Model S曝光!前后采用貫穿式大燈

泡泡網(wǎng)
2026-01-14 17:49:08
太厲害了!快去用中醫(yī)診斷航空發(fā)動機(jī)吧

太厲害了!快去用中醫(yī)診斷航空發(fā)動機(jī)吧

走讀新生
2026-01-12 11:00:04
日媒:高市早苗“獨斷專行”解散眾議院 或給日本政壇埋下隱患

日媒:高市早苗“獨斷專行”解散眾議院 或給日本政壇埋下隱患

海外網(wǎng)
2026-01-14 16:08:05
茶里回應(yīng)“兩億欠薪”:已完成絕大部分在職員工欠薪的兌付工作,離職員工欠薪問題正分批次推進(jìn)解決

茶里回應(yīng)“兩億欠薪”:已完成絕大部分在職員工欠薪的兌付工作,離職員工欠薪問題正分批次推進(jìn)解決

界面新聞
2026-01-14 18:22:25
中國足球罕見喜訊!打平出線我們做到了 刷爆5紀(jì)錄 成功避開韓國

中國足球罕見喜訊!打平出線我們做到了 刷爆5紀(jì)錄 成功避開韓國

念洲
2026-01-14 21:31:33
吃他汀猝死的人增多?醫(yī)生含淚告誡:天冷吃他汀,必須多關(guān)注6點

吃他汀猝死的人增多?醫(yī)生含淚告誡:天冷吃他汀,必須多關(guān)注6點

健康之光
2026-01-13 10:51:03
“死了么”APP改名Demumu,公司估值飆至近1億元

“死了么”APP改名Demumu,公司估值飆至近1億元

先鋒新聞
2026-01-14 13:06:04
2026全民大化債!全球大放水開啟,對普通人的錢袋子有何影響?

2026全民大化債!全球大放水開啟,對普通人的錢袋子有何影響?

朝子亥
2026-01-14 19:15:02
浦泰同志任昆明安寧市委書記

浦泰同志任昆明安寧市委書記

云南網(wǎng)絡(luò)廣播電視臺
2026-01-14 11:00:46
幕后細(xì)節(jié)曝光!阿韋洛亞解綁皇馬帥位后,透露更多換帥細(xì)節(jié)

幕后細(xì)節(jié)曝光!阿韋洛亞解綁皇馬帥位后,透露更多換帥細(xì)節(jié)

夜白侃球
2026-01-14 21:08:08
第二個烏克蘭出現(xiàn)了?特朗普突然變臉,美軍瞞天過海,普京被騙了

第二個烏克蘭出現(xiàn)了?特朗普突然變臉,美軍瞞天過海,普京被騙了

科普100克克
2026-01-14 16:27:43
日本演員吃23年中國飯,娶中國妻子卻發(fā)出辱華言論,如今怎么樣了

日本演員吃23年中國飯,娶中國妻子卻發(fā)出辱華言論,如今怎么樣了

不寫散文詩
2026-01-14 11:52:15
2026-01-14 22:00:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
11069文章數(shù) 116942關(guān)注度
往期回顧 全部

健康要聞

血常規(guī)3項異常,是身體警報!

頭條要聞

觀致汽車常熟工廠二拍起拍價8.6億 姚振華:系80億資產(chǎn)

頭條要聞

觀致汽車常熟工廠二拍起拍價8.6億 姚振華:系80億資產(chǎn)

體育要聞

你是個好球員,我們就拿你交易吧

娛樂要聞

何晴去世30天,許亞軍終于發(fā)聲

財經(jīng)要聞

攜程被立案調(diào)查,最高或被罰超50億

科技要聞

攜程因涉嫌壟斷被市場監(jiān)管總局調(diào)查

汽車要聞

曝Model Y或降到20萬以內(nèi)!

態(tài)度原創(chuàng)

教育
藝術(shù)
旅游
家居
公開課

教育要聞

告別校外供餐,2027年底所有北京中小學(xué)將實現(xiàn)校內(nèi)食堂供餐

藝術(shù)要聞

八大山人『山水花鳥冊』

旅游要聞

冰雪季人如潮涌,“熱帶來客”占七成 為什么是西嶺雪山?|有點意思·成都經(jīng)濟(jì)一線觀察

家居要聞

心之所向 現(xiàn)代建構(gòu)之美

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版