国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

百川開源全球最強(qiáng)醫(yī)療大模型M3,「嚴(yán)肅問診」定義AI醫(yī)療新能力

0
分享至

勇礪商業(yè)評(píng)論 阿桶觀察 白麗

2026年1月13日,百川智能正式開源新一代醫(yī)療大模型 Baichuan-M3,其在全球最權(quán)威的醫(yī)療 AI 評(píng)測(cè) HealthBench 中以 65.1 分的綜合成績(jī)位列全球第一;在專門考驗(yàn)復(fù)雜決策能力的 HealthBench Hard 上,也以44.4分的成績(jī)奪冠。這一成績(jī),不僅刷新了 HealthBench 的最高分,更首次在醫(yī)療領(lǐng)域?qū)崿F(xiàn)了對(duì) GPT-5.2 的全面超越。在OpenAI引以為傲的低幻覺領(lǐng)域,M3也實(shí)現(xiàn)了超越,幻覺率3.5全球最低。

此外,M3 還首次具備了原生的“端到端”嚴(yán)肅問診能力。它能像醫(yī)生一樣主動(dòng)追問、逐層逼近,把關(guān)鍵病史和風(fēng)險(xiǎn)信號(hào)問出來,進(jìn)而在完整的信息上進(jìn)行深度醫(yī)學(xué)推理。評(píng)測(cè)顯示,其問診能力顯著高于真人醫(yī)生的平均水平。

Hugging Face 地址:https://huggingface.co/baichuan-inc/Baichuan-M3-235B

GitHub 地址:https://github.com/baichuan-inc/Baichuan-M3-235B

醫(yī)療溝通和推理能力超越 GPT-5.2,登頂世界第一

2025年5月份,OpenAI發(fā)布HealthBench,由 262 位來自 60 個(gè)國(guó)家的醫(yī)生共同構(gòu)建,收錄了 5000 組高度逼真的多輪醫(yī)療對(duì)話,構(gòu)建了全球最權(quán)威、也最貼近真實(shí)臨床場(chǎng)景的醫(yī)療評(píng)測(cè)集。這一事件,被視為 OpenAI 在醫(yī)療領(lǐng)域開始“重兵投入”,吹響進(jìn)軍醫(yī)療的號(hào)角。

相當(dāng)長(zhǎng)一段時(shí)間里,無論是HealthBench總分還是 HealthBench-Hard 子集, GPT系列模型從未被超越。2025 年 8 月,百川開源醫(yī)療增強(qiáng)大模型 M2 在 HealthBench 上力壓 gpt-oss-120B、DeepSeek-R1 等同期所有開源模型,并在 HealthBench Hard 上取得 34.7 分的成績(jī),僅次于GPT-5,成為全球唯二突破 32 分的模型。



2025年,強(qiáng)化學(xué)習(xí)無疑是新一代 Scaling Law 的技術(shù)中軸。在M2 發(fā)布后的五個(gè)月里,我們對(duì)強(qiáng)化學(xué)習(xí)系統(tǒng)進(jìn)行了全面升級(jí),將原本以患者模擬器和靜態(tài) Rubric 為主的半動(dòng)態(tài)反饋,升級(jí)為隨模型能力不斷演進(jìn)的全動(dòng)態(tài) Verifier System。隨著監(jiān)督信號(hào)持續(xù)變細(xì)、變難,模型得以不斷突破能力上限,使 M3 在復(fù)雜醫(yī)學(xué)問題上的表現(xiàn)實(shí)現(xiàn)躍遷,不僅在 HealthBench 總分上超越 OpenAI 最新模型 GPT-5.2,也在 HealthBench Hard 上登頂,成為當(dāng)前全球醫(yī)療溝通和推理能力最強(qiáng)的醫(yī)療大模型。

重構(gòu)幻覺抑制的訓(xùn)練范式,刷新醫(yī)療幻覺率底線

幻覺是這一代大模型技術(shù)范式的通病,更是AI進(jìn)入嚴(yán)肅醫(yī)療的攔路虎。在大多數(shù)場(chǎng)景幻覺只是體驗(yàn)問題,而在嚴(yán)肅醫(yī)療場(chǎng)景可導(dǎo)致安全事件。

降低幻覺,一直是 OpenAI 最重視的研究方向之一。幾乎每一代 GPT 模型的幻覺率均為行業(yè)最低。OpenAI也是第一個(gè)單獨(dú)評(píng)測(cè)醫(yī)療能力和提供醫(yī)療服務(wù)的通用模型公司。

國(guó)內(nèi) DeepSeek等模型的普及,讓越來越多人開始使用AI并嘗試進(jìn)行醫(yī)療健康咨詢。但大多數(shù)模型公司并沒有把“降幻覺”提升到與推理、代碼等相同的高度。用這樣的模型獲取健康咨詢和診療建議,對(duì)AI醫(yī)療的普及和醫(yī)患信任建立帶來很大困擾。

百川M3將醫(yī)療幻覺抑制前移至模型訓(xùn)練階段,在強(qiáng)化學(xué)習(xí)過程中將醫(yī)學(xué)事實(shí)一致性作為核心訓(xùn)練目標(biāo)之一,將“知之為知之,不知為不知”直接作用于模型自身能力的形成過程。這一新的訓(xùn)練方法將醫(yī)學(xué)事實(shí)可靠性內(nèi)化為M3自身的基礎(chǔ)能力,使其在不借助任何外部系統(tǒng)的情況下,依然能夠基于自身醫(yī)學(xué)知識(shí)進(jìn)行穩(wěn)定、可信的作答。

通過將事實(shí)一致性約束融入訓(xùn)練流程,M3重構(gòu)了幻覺抑制的訓(xùn)練范式,在不依賴工具或檢索增強(qiáng)的純模型設(shè)置下,醫(yī)療幻覺率3.5,超越GPT-5.2,達(dá)到全球最低水平。



構(gòu)建「嚴(yán)肅問診」新能力,端到端問診超越真人醫(yī)生

除了強(qiáng)推理和低幻覺,端到端的問診能力是本次M3最重要的一項(xiàng)突破。2025年行業(yè)的技術(shù)共識(shí)是,用戶提供更完整的上下文,模型才有更好的表現(xiàn)。可在醫(yī)療領(lǐng)域,患者很難完整表達(dá)自己的病癥,需要模型像醫(yī)生一樣有能力把患者的混亂敘述轉(zhuǎn)變成可做診療決策的信息。

HealthBench代表了OpenAI對(duì)臨床場(chǎng)景的認(rèn)知高度,然而它本質(zhì)上是一個(gè)切片式的評(píng)測(cè),考核的更像是“AI會(huì)不會(huì)回答問題”,而不是帶著診療目標(biāo),完整的患者信息收集。這也正說明了行業(yè)對(duì)問診重要性和建模思路的理解不足。

應(yīng)用實(shí)踐中,通過prompt“你是一位經(jīng)驗(yàn)豐富的醫(yī)生”,激活模型的“角色扮演”是更常見的做法。這種方式得到的是模型的表演行為,而非內(nèi)生能力,激活的是模型應(yīng)該提問的行為,而不是必須獲取關(guān)鍵信息的思考。例如,臨床醫(yī)生面對(duì)患者的第一反應(yīng),永遠(yuǎn)是先排除危急重癥,再考慮常規(guī)診療,這是刻在職業(yè)本能里的安全優(yōu)先級(jí)。但常見的“角色扮演”的問診方式,無法將“紅旗征識(shí)別與處置”作為核心行動(dòng)原則。這種不圍繞關(guān)鍵風(fēng)險(xiǎn)點(diǎn)展開的信息收集,即便對(duì)話看似完整,也難以支撐安全、可靠的臨床判斷,從根本上偏離了醫(yī)療“安全第一”的原則。

針對(duì)這一行業(yè)困境,我們提出了“嚴(yán)肅問診范式”與“SCAN原則”,通過Safety Stratification(安全分層)、Clarity Matters(信息澄清)、Association & Inquiry(關(guān)聯(lián)追問)與Normative Protocol(規(guī)范化輸出),將臨床問診中高度依賴經(jīng)驗(yàn)的思維過程,第一次系統(tǒng)性地“白盒化”。

圍繞SCAN原則,我們借鑒醫(yī)學(xué)教育里長(zhǎng)期使用的 OSCE 方法,聯(lián)合 150 多位一線醫(yī)生,搭建了 SCAN-bench 評(píng)測(cè)體系,該體系以真實(shí)臨床經(jīng)驗(yàn)作為“標(biāo)準(zhǔn)答案”,將診療過程拆解為病史采集、輔助檢查、精準(zhǔn)診斷三大階段,通過動(dòng)態(tài)、多輪的方式進(jìn)行考核,完整模擬醫(yī)生從接診到確診的全過程。相比于HealthBench,SCAN-bench是更加全流程端到端的動(dòng)態(tài)評(píng)測(cè)新范式。

同時(shí),我們還使用原生模型訓(xùn)練方法取代角色扮演prompt,針對(duì)GRPO無法穩(wěn)定進(jìn)行長(zhǎng)對(duì)話訓(xùn)練的問題,設(shè)計(jì)了新的 SPAR 算法,使模型能夠在有限對(duì)話輪次中,把臨床真正需要的關(guān)鍵問題問全、問準(zhǔn),把風(fēng)險(xiǎn)兜住,讓輸出經(jīng)得起復(fù)核。

在實(shí)驗(yàn)過程中我們發(fā)現(xiàn),問診準(zhǔn)確度每增加2%,診療結(jié)果準(zhǔn)確度就會(huì)增加1%。評(píng)測(cè)結(jié)果顯示,M3 在SCAN的四個(gè)維度均顯著高于人類醫(yī)生基線水平,并大幅領(lǐng)先于國(guó)內(nèi)外頂尖模型,成功構(gòu)建了從精準(zhǔn)的臨床問詢、深度醫(yī)學(xué)推理到安全可靠決策的閉環(huán)。



從 1 月初 OpenAI 發(fā)布醫(yī)療產(chǎn)品 ChatGPT Health,到今天 Anthropic 推出 Claude for Healthcare,AI 醫(yī)療正在全球范圍內(nèi)提檔加速,競(jìng)爭(zhēng)也正式進(jìn)入深水區(qū)。在這場(chǎng)競(jìng)速中,作為國(guó)內(nèi)唯一專注醫(yī)療的大模型企業(yè),百川持續(xù)突破低幻覺率、端到端問診和復(fù)雜臨床推理等核心能力,已從“跟隨者”躍遷為行業(yè)“引領(lǐng)者”與新范式的“定義者”,正以硬核實(shí)力扛起中國(guó) AI 醫(yī)療發(fā)展的旗幟。

我們的醫(yī)療應(yīng)用“百小應(yīng)”已同步接入 M3,面向醫(yī)生與患者開放相關(guān)能力。醫(yī)生可借助它推演問診與診療思路,患者及家屬也可通過該應(yīng)用更系統(tǒng)地理解診斷、治療、檢查與預(yù)后背后的醫(yī)學(xué)邏輯。(白麗)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
陸軍總司令遇難,最高領(lǐng)袖已被炸?伊朗報(bào)復(fù),第一支援兵出現(xiàn)

陸軍總司令遇難,最高領(lǐng)袖已被炸?伊朗報(bào)復(fù),第一支援兵出現(xiàn)

吳欣純Deborah
2026-03-01 12:28:11
中國(guó)軍號(hào):對(duì)于那一天我們不期待,但絕不懼怕!

中國(guó)軍號(hào):對(duì)于那一天我們不期待,但絕不懼怕!

瀟湘晨報(bào)
2026-03-01 15:18:15
阿聯(lián)酋應(yīng)對(duì)137枚導(dǎo)彈209架無人機(jī)襲擊

阿聯(lián)酋應(yīng)對(duì)137枚導(dǎo)彈209架無人機(jī)襲擊

每日經(jīng)濟(jì)新聞
2026-03-01 12:19:49
伊朗“斬首”疑云:美以為何總能做到“百萬軍中取上將首級(jí)”?

伊朗“斬首”疑云:美以為何總能做到“百萬軍中取上將首級(jí)”?

國(guó)是直通車
2026-03-01 17:53:07
回顧:浙江幼師幼兒園潛伏22年,警察曝光真實(shí)身份,家長(zhǎng)后怕不已

回顧:浙江幼師幼兒園潛伏22年,警察曝光真實(shí)身份,家長(zhǎng)后怕不已

談史論天地
2026-03-01 09:49:38
隊(duì)長(zhǎng)傳射!7.2億豪門2-1逆轉(zhuǎn) 7輪6勝+11輪不敗 賽季首次躋身前三

隊(duì)長(zhǎng)傳射!7.2億豪門2-1逆轉(zhuǎn) 7輪6勝+11輪不敗 賽季首次躋身前三

狍子歪解體壇
2026-03-01 23:58:16
A股:大家坐穩(wěn)扶好了,美以伊大沖突,牛市或?qū)⒃俅沃匮輾v史了!

A股:大家坐穩(wěn)扶好了,美以伊大沖突,牛市或?qū)⒃俅沃匮輾v史了!

夜深愛雜談
2026-03-01 19:34:36
“大力神”軍機(jī)墜毀 已致15人死亡 天空下鈔票雨 民眾瘋搶!

“大力神”軍機(jī)墜毀 已致15人死亡 天空下鈔票雨 民眾瘋搶!

每日經(jīng)濟(jì)新聞
2026-02-28 14:37:58
哈梅內(nèi)伊被精準(zhǔn)斬首,為何伊朗人民載歌載舞?

哈梅內(nèi)伊被精準(zhǔn)斬首,為何伊朗人民載歌載舞?

歷史總在押韻
2026-03-01 11:59:19
交了物業(yè)費(fèi)還收車位管理費(fèi)?2026年這4種情況,你可以直接拒交

交了物業(yè)費(fèi)還收車位管理費(fèi)?2026年這4種情況,你可以直接拒交

阿離家居
2026-03-01 16:53:47
一個(gè)U盤裝走180億,200萬人的血汗錢48小時(shí)人間蒸發(fā)

一個(gè)U盤裝走180億,200萬人的血汗錢48小時(shí)人間蒸發(fā)

流蘇晚晴
2026-03-01 16:54:18
哈梅內(nèi)伊身亡,布達(dá)諾夫:俄羅斯會(huì)接受美國(guó)為烏克蘭提供的安全保證 | 狼叔看世界

哈梅內(nèi)伊身亡,布達(dá)諾夫:俄羅斯會(huì)接受美國(guó)為烏克蘭提供的安全保證 | 狼叔看世界

狼叔看世界
2026-03-01 11:40:52
超20000名旅客滯留!“迪拜機(jī)場(chǎng)已經(jīng)沒有航班了”,阿聯(lián)酋宣布:承擔(dān)所有旅客滯留費(fèi)用

超20000名旅客滯留!“迪拜機(jī)場(chǎng)已經(jīng)沒有航班了”,阿聯(lián)酋宣布:承擔(dān)所有旅客滯留費(fèi)用

江西工人報(bào)
2026-03-01 22:27:25
胡塞武裝、黎巴嫩真主黨和哈馬斯就哈梅內(nèi)伊遇害發(fā)聲

胡塞武裝、黎巴嫩真主黨和哈馬斯就哈梅內(nèi)伊遇害發(fā)聲

參考消息
2026-03-01 20:06:21
外媒稱哈梅內(nèi)伊在其工作場(chǎng)所遇害,為何沒躲避?為何能精準(zhǔn)定位?

外媒稱哈梅內(nèi)伊在其工作場(chǎng)所遇害,為何沒躲避?為何能精準(zhǔn)定位?

之乎者也小魚兒
2026-03-01 11:44:00
中國(guó)演員度假滯留迪拜,航班一次又一次被取消,發(fā)視頻稱“想回家”

中國(guó)演員度假滯留迪拜,航班一次又一次被取消,發(fā)視頻稱“想回家”

上觀新聞
2026-03-01 17:25:04
沈逸“美國(guó)不敢打伊朗”遭群嘲:國(guó)內(nèi)某些專家,為何總是制造笑柄

沈逸“美國(guó)不敢打伊朗”遭群嘲:國(guó)內(nèi)某些專家,為何總是制造笑柄

影像溫度
2026-03-01 15:26:25
重大進(jìn)展!伊朗作出“前所未有”承諾:同意永遠(yuǎn)不擁有可制造核武器的核材料,將實(shí)現(xiàn)“零積累、零庫存”,并接受全面核查!特朗普最新表態(tài)

重大進(jìn)展!伊朗作出“前所未有”承諾:同意永遠(yuǎn)不擁有可制造核武器的核材料,將實(shí)現(xiàn)“零積累、零庫存”,并接受全面核查!特朗普最新表態(tài)

每日經(jīng)濟(jì)新聞
2026-02-28 10:40:45
哈梅內(nèi)伊:舊時(shí)代的最后一個(gè)獨(dú)裁者

哈梅內(nèi)伊:舊時(shí)代的最后一個(gè)獨(dú)裁者

黔有虎
2026-03-01 19:08:14
48小時(shí)送走哈梅內(nèi)伊:令人恐怖的技術(shù)代差,現(xiàn)代戰(zhàn)爭(zhēng)的形態(tài)變了

48小時(shí)送走哈梅內(nèi)伊:令人恐怖的技術(shù)代差,現(xiàn)代戰(zhàn)爭(zhēng)的形態(tài)變了

黑企鵝觀察
2026-03-01 14:40:34
2026-03-02 04:04:49
曾憲勇 incentive-icons
曾憲勇
有趣的科技互聯(lián)網(wǎng)原創(chuàng)自媒體
694文章數(shù) 62關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

特朗普警告伊朗“不要報(bào)復(fù)” 伊朗外長(zhǎng)回應(yīng)

頭條要聞

特朗普警告伊朗“不要報(bào)復(fù)” 伊朗外長(zhǎng)回應(yīng)

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財(cái)經(jīng)要聞

中東局勢(shì)升級(jí) 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計(jì)交付超159萬輛

態(tài)度原創(chuàng)

教育
數(shù)碼
手機(jī)
藝術(shù)
公開課

教育要聞

初中階段的分化,從習(xí)慣悄悄開始

數(shù)碼要聞

曝蘋果WWDC 26將推Core AI框架取代Core ML并公布多項(xiàng)AI功能

手機(jī)要聞

現(xiàn)場(chǎng)直擊!榮耀Robot Phone機(jī)器人手機(jī)長(zhǎng)啥樣

藝術(shù)要聞

看!這位伊朗超模如何顛覆你的美麗認(rèn)知!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版