国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

百川M3醫(yī)療大模型開源,「嚴(yán)肅問診」定義AI醫(yī)療新能力

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū),始終堅持“中立、開放、共建、共創(chuàng)、合作”五項基本原則,歡迎加入共同成長。

新一代醫(yī)療大模型 Baichuan-M3正式開源,其在全球最權(quán)威的醫(yī)療 AI 評測 HealthBench 中以 65.1 分的綜合成績位列全球第一;在專門考驗(yàn)復(fù)雜決策能力的 HealthBench Hard 上,也以44.4分的成績奪冠。這一成績,不僅刷新了 HealthBench 的最高分,更首次在醫(yī)療領(lǐng)域?qū)崿F(xiàn)了對 GPT-5.2 的全面超越。在OpenAI引以為傲的低幻覺領(lǐng)域,M3也實(shí)現(xiàn)了超越,幻覺率3.5全球最低。

此外,M3 還首次具備了原生的“端到端”嚴(yán)肅問診能力。它能像醫(yī)生一樣主動追問、逐層逼近,把關(guān)鍵病史和風(fēng)險信號問出來,進(jìn)而在完整的信息上進(jìn)行深度醫(yī)學(xué)推理。評測顯示,其問診能力顯著高于真人醫(yī)生的平均水平。Baichuan-M3已上線始智AI-wisemodel開源社區(qū),歡迎大家前去體驗(yàn)。


項目地址

https://wisemodel.cn/models/Baichuan-inc/Baichuan-M3-235B

01.

醫(yī)療溝通和推理能力超越GPT-5.2,

登頂世界第一

2025年5月份,OpenAI發(fā)布HealthBench,由 262 位來自 60 個國家的醫(yī)生共同構(gòu)建,收錄了 5000 組高度逼真的多輪醫(yī)療對話,構(gòu)建了全球最權(quán)威、也最貼近真實(shí)臨床場景的醫(yī)療評測集。這一事件,被視為 OpenAI 在醫(yī)療領(lǐng)域開始“重兵投入”,吹響進(jìn)軍醫(yī)療的號角。

相當(dāng)長一段時間里,無論是HealthBench總分還是 HealthBench-Hard 子集, GPT系列模型從未被超越。2025 年 8 月,百川開源醫(yī)療增強(qiáng)大模型 M2 在 HealthBench 上力壓 gpt-oss-120B、DeepSeek-R1 等同期所有開源模型,并在 HealthBench Hard 上取得 34.7 分的成績,僅次于GPT-5,成為全球唯二突破 32 分的模型。


2025年,強(qiáng)化學(xué)習(xí)無疑是新一代 Scaling Law 的技術(shù)中軸。在M2 發(fā)布后的五個月里,對強(qiáng)化學(xué)習(xí)系統(tǒng)進(jìn)行了全面升級,將原本以患者模擬器和靜態(tài) Rubric 為主的半動態(tài)反饋,升級為隨模型能力不斷演進(jìn)的全動態(tài) Verifier System。隨著監(jiān)督信號持續(xù)變細(xì)、變難,模型得以不斷突破能力上限,使 M3 在復(fù)雜醫(yī)學(xué)問題上的表現(xiàn)實(shí)現(xiàn)躍遷,不僅在 HealthBench 總分上超越 OpenAI 最新模型 GPT-5.2,也在 HealthBench Hard 上登頂,成為當(dāng)前全球醫(yī)療溝通和推理能力最強(qiáng)的醫(yī)療大模型。

02.

重構(gòu)幻覺抑制的訓(xùn)練范式,

刷新醫(yī)療幻覺率底線

幻覺是這一代大模型技術(shù)范式的通病,更是AI進(jìn)入嚴(yán)肅醫(yī)療的攔路虎。在大多數(shù)場景幻覺只是體驗(yàn)問題,而在嚴(yán)肅醫(yī)療場景可導(dǎo)致安全事件。

降低幻覺,一直是 OpenAI 最重視的研究方向之一。幾乎每一代 GPT 模型的幻覺率均為行業(yè)最低。OpenAI也是第一個單獨(dú)評測醫(yī)療能力和提供醫(yī)療服務(wù)的通用模型公司。

國內(nèi) DeepSeek等模型的普及,讓越來越多人開始使用AI并嘗試進(jìn)行醫(yī)療健康咨詢。但大多數(shù)模型公司并沒有把“降幻覺”提升到與推理、代碼等相同的高度。用這樣的模型獲取健康咨詢和診療建議,對AI醫(yī)療的普及和醫(yī)患信任建立帶來很大困擾。

百川M3將醫(yī)療幻覺抑制前移至模型訓(xùn)練階段,在強(qiáng)化學(xué)習(xí)過程中將醫(yī)學(xué)事實(shí)一致性作為核心訓(xùn)練目標(biāo)之一,將“知之為知之,不知為不知”直接作用于模型自身能力的形成過程。這一新的訓(xùn)練方法將醫(yī)學(xué)事實(shí)可靠性內(nèi)化為M3自身的基礎(chǔ)能力,使其在不借助任何外部系統(tǒng)的情況下,依然能夠基于自身醫(yī)學(xué)知識進(jìn)行穩(wěn)定、可信的作答。

通過將事實(shí)一致性約束融入訓(xùn)練流程,M3重構(gòu)了幻覺抑制的訓(xùn)練范式,在不依賴工具或檢索增強(qiáng)的純模型設(shè)置下,醫(yī)療幻覺率3.5,超越GPT-5.2,達(dá)到全球最低水平。


03.

構(gòu)建“嚴(yán)肅問診”新能力,

端到端問診超越真人醫(yī)生

除了強(qiáng)推理和低幻覺,端到端的問診能力是本次M3最重要的一項突破。2025年行業(yè)的技術(shù)共識是,用戶提供更完整的上下文,模型才有更好的表現(xiàn)??稍卺t(yī)療領(lǐng)域,患者很難完整表達(dá)自己的病癥,需要模型像醫(yī)生一樣有能力把患者的混亂敘述轉(zhuǎn)變成可做診療決策的信息。

HealthBench代表了OpenAI對臨床場景的認(rèn)知高度,然而它本質(zhì)上是一個切片式的評測,考核的更像是“AI會不會回答問題”,而不是帶著診療目標(biāo),完整的患者信息收集。這也正說明了行業(yè)對問診重要性和建模思路的理解不足。

應(yīng)用實(shí)踐中,通過prompt“你是一位經(jīng)驗(yàn)豐富的醫(yī)生”,激活模型的“角色扮演”是更常見的做法。這種方式得到的是模型的表演行為,而非內(nèi)生能力,激活的是模型應(yīng)該提問的行為,而不是必須獲取關(guān)鍵信息的思考。例如,臨床醫(yī)生面對患者的第一反應(yīng),永遠(yuǎn)是先排除危急重癥,再考慮常規(guī)診療,這是刻在職業(yè)本能里的安全優(yōu)先級。但常見的“角色扮演”的問診方式,無法將“紅旗征識別與處置”作為核心行動原則。這種不圍繞關(guān)鍵風(fēng)險點(diǎn)展開的信息收集,即便對話看似完整,也難以支撐安全、可靠的臨床判斷,從根本上偏離了醫(yī)療“安全第一”的原則。

針對這一行業(yè)困境,團(tuán)隊提出了“嚴(yán)肅問診范式”與“SCAN原則”,通過Safety Stratification(安全分層)、Clarity Matters(信息澄清)、Association & Inquiry(關(guān)聯(lián)追問)與Normative Protocol(規(guī)范化輸出),將臨床問診中高度依賴經(jīng)驗(yàn)的思維過程,第一次系統(tǒng)性地“白盒化”。

圍繞SCAN原則,借鑒醫(yī)學(xué)教育里長期使用的 OSCE 方法,聯(lián)合 150 多位一線醫(yī)生,搭建了 SCAN-bench 評測體系,該體系以真實(shí)臨床經(jīng)驗(yàn)作為“標(biāo)準(zhǔn)答案”,將診療過程拆解為病史采集、輔助檢查、精準(zhǔn)診斷三大階段,通過動態(tài)、多輪的方式進(jìn)行考核,完整模擬醫(yī)生從接診到確診的全過程。相比于HealthBench,SCAN-bench是更加全流程端到端的動態(tài)評測新范式。

同時,還使用原生模型訓(xùn)練方法取代角色扮演prompt,針對GRPO無法穩(wěn)定進(jìn)行長對話訓(xùn)練的問題,設(shè)計了新的 SPAR 算法,使模型能夠在有限對話輪次中,把臨床真正需要的關(guān)鍵問題問全、問準(zhǔn),把風(fēng)險兜住,讓輸出經(jīng)得起復(fù)核。

在實(shí)驗(yàn)過程中發(fā)現(xiàn),問診準(zhǔn)確度每增加2%,診療結(jié)果準(zhǔn)確度就會增加1%。評測結(jié)果顯示,M3 在SCAN的四個維度均顯著高于人類醫(yī)生基線水平,并大幅領(lǐng)先于國內(nèi)外頂尖模型,成功構(gòu)建了從精準(zhǔn)的臨床問詢、深度醫(yī)學(xué)推理到安全可靠決策的閉環(huán)。


從 1 月初 OpenAI 發(fā)布醫(yī)療產(chǎn)品 ChatGPT Health,到今天 Anthropic 推出 Claude for Healthcare,AI 醫(yī)療正在全球范圍內(nèi)提檔加速,競爭也正式進(jìn)入深水區(qū)。在這場競速中,作為國內(nèi)唯一專注醫(yī)療的大模型企業(yè),百川持續(xù)突破低幻覺率、端到端問診和復(fù)雜臨床推理等核心能力,已從“跟隨者”躍遷為行業(yè)“引領(lǐng)者”與新范式的“定義者”,正以硬核實(shí)力扛起中國 AI 醫(yī)療發(fā)展的旗幟。

醫(yī)療應(yīng)用“百小應(yīng)”已同步接入 M3,面向醫(yī)生與患者開放相關(guān)能力。醫(yī)生可借助它推演問診與診療思路,患者及家屬也可通過該應(yīng)用更系統(tǒng)地理解診斷、治療、檢查與預(yù)后背后的醫(yī)學(xué)邏輯。

編輯:成蘊(yùn)年

----- END -----

wisemodel相關(guān):

系列模型:


關(guān)于wisemodel更多


1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核⒋笮突ヂ?lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
縣法院副院長辦案期間與原告同行同吃同燒香拜佛?被告:啟動懲戒但沒結(jié)果;涉事法官:你找單位了解

縣法院副院長辦案期間與原告同行同吃同燒香拜佛?被告:啟動懲戒但沒結(jié)果;涉事法官:你找單位了解

大風(fēng)新聞
2026-03-26 21:47:02
一覺醒來,大量美軍逃匿!伊朗全力搜捕!美議長透露重要信息

一覺醒來,大量美軍逃匿!伊朗全力搜捕!美議長透露重要信息

安安說
2026-03-26 13:00:12
隨著姆巴佩無敵挑射+登貝萊妙傳+比分2-1,10人法國掀翻五星巴西

隨著姆巴佩無敵挑射+登貝萊妙傳+比分2-1,10人法國掀翻五星巴西

側(cè)身凌空斬
2026-03-27 06:05:32
爆大冷!點(diǎn)球大戰(zhàn)決勝負(fù),威爾士無緣世界杯,40歲哲科立大功

爆大冷!點(diǎn)球大戰(zhàn)決勝負(fù),威爾士無緣世界杯,40歲哲科立大功

足球狗說
2026-03-27 06:50:25
羅技中國致歉

羅技中國致歉

界面新聞
2026-03-26 23:25:51
張雪峰追悼會定于本周六,喪事從簡不搞排場,11歲女兒成全家心病

張雪峰追悼會定于本周六,喪事從簡不搞排場,11歲女兒成全家心病

未曾青梅
2026-03-26 22:48:49
愧對巴西10號!維尼修斯演砸了:0球0射正 萬人呼喚內(nèi)馬爾

愧對巴西10號!維尼修斯演砸了:0球0射正 萬人呼喚內(nèi)馬爾

葉青足球世界
2026-03-27 08:05:32
官宣《浪姐7》遭全網(wǎng)抵制,49歲的范瑋琪,終于迎來了“報應(yīng)”!

官宣《浪姐7》遭全網(wǎng)抵制,49歲的范瑋琪,終于迎來了“報應(yīng)”!

阿纂看事
2026-03-26 20:49:43
伊朗官媒發(fā)布《為眾人復(fù)仇》AI短片:一枚伊朗導(dǎo)彈在哈梅內(nèi)伊等人注視下,精準(zhǔn)炸毀幻化成羊頭惡魔的美國自由女神像

伊朗官媒發(fā)布《為眾人復(fù)仇》AI短片:一枚伊朗導(dǎo)彈在哈梅內(nèi)伊等人注視下,精準(zhǔn)炸毀幻化成羊頭惡魔的美國自由女神像

大象新聞
2026-03-26 09:45:03
41歲張雪峰去世后續(xù),其婚姻被扒,已離婚6年,前妻很低調(diào)

41歲張雪峰去世后續(xù),其婚姻被扒,已離婚6年,前妻很低調(diào)

180視角
2026-03-26 13:01:03
張雪峰猝然離世,辦公室內(nèi)景曝光,擺設(shè)奇怪,寫真照被指像遺照,生前的話字字催淚

張雪峰猝然離世,辦公室內(nèi)景曝光,擺設(shè)奇怪,寫真照被指像遺照,生前的話字字催淚

筆墨V
2026-03-26 14:53:51
世人只知體操冠軍“擦邊”,吳柳芳親述其背后的“心酸”

世人只知體操冠軍“擦邊”,吳柳芳親述其背后的“心酸”

一支破筆半支煙
2026-03-26 10:58:32
馬杜羅夫婦將再次出庭受審,關(guān)押地如“人間煉獄”

馬杜羅夫婦將再次出庭受審,關(guān)押地如“人間煉獄”

環(huán)球網(wǎng)資訊
2026-03-26 20:23:08
博主被陌生網(wǎng)友辱罵3個月,默默觀察其2年半,終于找到機(jī)會碰面了

博主被陌生網(wǎng)友辱罵3個月,默默觀察其2年半,終于找到機(jī)會碰面了

離離言幾許
2026-03-26 15:01:41
把劉濤抱在懷里,有誰注意到他手上的小動作,人品如何一目了然。

把劉濤抱在懷里,有誰注意到他手上的小動作,人品如何一目了然。

TVB的四小花
2026-03-27 01:19:43
張雪峰付幸多張合影被扒,每次團(tuán)建她都偷瞄張雪峰,眼神滿是崇拜

張雪峰付幸多張合影被扒,每次團(tuán)建她都偷瞄張雪峰,眼神滿是崇拜

古希臘掌管松餅的神
2026-03-26 16:52:30
翻到張雪峰2016年婚紗照,瞬間看哭了!

翻到張雪峰2016年婚紗照,瞬間看哭了!

魔都姐姐雜談
2026-03-26 22:06:50
中國動“真格”了!中方霸氣警告:90天內(nèi)358億賠償金必須到位

中國動“真格”了!中方霸氣警告:90天內(nèi)358億賠償金必須到位

趣生活
2026-03-26 22:16:24
一覺醒來,愛吃活魚的人天塌了,央視曝光的內(nèi)幕真可怕!

一覺醒來,愛吃活魚的人天塌了,央視曝光的內(nèi)幕真可怕!

濤哥銳評
2026-03-26 17:57:04
萬科高管被要求退還薪酬

萬科高管被要求退還薪酬

地產(chǎn)微資訊
2026-03-26 12:22:04
2026-03-27 10:11:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

OpenAI果斷砍掉"成人模式",死磕生產(chǎn)力

頭條要聞

65歲上海老伯相信"33歲女老師"給自己生兒子 被騙16萬

頭條要聞

65歲上海老伯相信"33歲女老師"給自己生兒子 被騙16萬

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

很反常!油價向上,黃金向下

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

房產(chǎn)
教育
藝術(shù)
本地
公開課

房產(chǎn)要聞

勁銷64億后,??谶@座改善標(biāo)桿盤,又要引爆樓市!

教育要聞

中考報名!剛剛,2026山東一市公布中考報名操作流程

藝術(shù)要聞

江青的書法秘訣!只練草書真的能提升書法水平嗎?

本地新聞

救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬遍

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版