美的集團AI研究中心讓AI讀X光片的速度快了8倍，還更準確

2026-04-20 21:44:32　來源: 科技行者

北京舉報

分享至

這項研究來自美的集團AI研究中心（AIRC）與北京交通大學、大連理工大學的聯(lián)合團隊，論文于2026年4月10日掛載于預(yù)印本平臺arXiv，編號為arXiv:2604.09450v1，有興趣深入了解的讀者可通過該編號查詢完整論文。

**一個放射科醫(yī)生的日常困境**

每天早上，放射科醫(yī)生面對的不是一兩張胸片，而是幾十甚至上百張。每一張胸片都需要仔細閱讀、分析、撰寫報告——哪塊肺葉有陰影、心臟輪廓是否正常、有沒有胸腔積液……這些判斷既需要專業(yè)訓練，又極度耗費時間和精力。全球每年拍攝的胸部X光片數(shù)以億計，而訓練有素的放射科醫(yī)生卻是稀缺資源。于是，科學家們開始琢磨：能不能讓人工智能來幫著"讀片"、"寫報告"？

這個想法聽起來美好，但實際操作中遇到了一個棘手的問題——速度?，F(xiàn)有的AI模型大多采用所謂"自回歸"方式生成文字，就好比一個打字員必須一個字一個字地敲，敲完第一個字才能敲第二個字，絕不能跳步。對于一篇動輒幾百字的醫(yī)學報告，這種"串行打字"模式會讓等待時間變得漫長。為了解決這個問題，美的集團AI研究中心的研究團隊提出了一套名為ECHO的新方案，并把它的生成速度提升到了原來的8倍，同時在臨床準確率上還大幅超越了以往最好的方法。

**一、為什么"一個字一個字寫"是個大問題**

要理解ECHO的價值，先得弄清楚AI寫文字的兩種基本方式。

傳統(tǒng)的自回歸模型，就像一個人在黑板上寫句子：必須先寫"肺部"，再寫"未見"，再寫"明顯"，再寫"異常"——每寫一個詞，都要回頭看看前面寫了什么，再決定下一個詞。這種方式邏輯嚴密、前后連貫，但速度受限，因為每個詞的生成都依賴前一個詞的完成。

另一種方式叫"擴散模型"生成，可以粗略地理解為"同時涂改多個格子"。想象一塊白板上有一排空格，擴散模型不是從左到右逐格填寫，而是先在所有格子里隨機涂鴉（制造噪聲），然后一步步把噪聲擦掉、還原出正確的文字。由于多個格子可以同時被處理，速度理論上快得多。

然而，擴散模型有個內(nèi)在缺陷，研究團隊稱之為"均值場偏差"。這個名字聽起來復雜，背后的道理其實很直白：當擴散模型同時預(yù)測多個詞語時，它處理每個格子的方式是相互獨立的——它不知道隔壁格子會填什么。于是，當它同時填寫"左肺"和后面的詞時，兩者之間的搭配可能毫無邏輯，就像兩個人同時在同一張紙上隨機填字，互不溝通，結(jié)果拼在一起讀起來驢唇不對馬嘴。

為了彌補這個缺陷，現(xiàn)有的擴散模型通常需要多次反復"去噪"——先粗略填出大概，再仔細修正，再精細調(diào)整……經(jīng)過多輪迭代才能得到通順的文字。這雖然比純自回歸快一些，但仍然不夠快。

研究團隊的核心追問是：能不能只"去噪"一次，就直接得到高質(zhì)量的報告？

**二、關(guān)鍵障礙：一步到位為何難**

答案并不是簡單地"讓模型一步完成所有預(yù)測"。當模型被強制只走一步、同時填寫所有格子時，均值場偏差會達到最嚴重的程度——因為沒有任何"已填好的鄰居"作為參考，每個格子完全處于信息真空中，結(jié)果生成的文字往往亂成一鍋粥。

研究團隊在論文中展示了一個直觀的對比。給同一張胸片，讓擴散模型"一步生成"：輸出變成了"no bilateral pleural focal"這樣毫無語義的碎片拼貼，幾個詞根本不構(gòu)成有意義的描述。而經(jīng)過他們方法處理后，同一張胸片的一步輸出變成了"right lower lobe opacity"——右下肺葉陰影，語義完整，臨床準確。

這個差距揭示了問題的本質(zhì)：不是速度和質(zhì)量天然矛盾，而是缺少一種讓模型在"一步之內(nèi)"就能感知詞語之間依賴關(guān)系的訓練機制。

**三、ECHO的三步修煉之路**

ECHO的訓練分為三個遞進的階段，可以用"打基礎(chǔ)、換身法、提速精煉"來概括。

第一階段是"打基礎(chǔ)"。團隊以一個名為Lingshu-7B的醫(yī)療大模型為起點，這個模型已經(jīng)在大量醫(yī)療數(shù)據(jù)上預(yù)訓練過，具備基本的醫(yī)學語言能力。研究團隊在此基礎(chǔ)上，用精心整理的胸片報告數(shù)據(jù)集對它進行繼續(xù)訓練，重點是對訓練數(shù)據(jù)做了一次深度"清洗與標準化"。

這個清洗工作至關(guān)重要，且背后有一個有趣的醫(yī)學實踐觀察?，F(xiàn)實中，放射科醫(yī)生寫報告有一個習慣：只寫"有問題的地方"，正常的部位通常一筆帶過或根本不提。這就造成了訓練數(shù)據(jù)里有大量"沉默的正常"——模型從沒見過"左肺正常""右側(cè)膈肌正常"這樣的明確陳述，于是它不知道該怎么處理正常情況。到了真實推理時，這種信息缺失會導致兩種錯誤：要么憑空捏造一個不存在的病變（假陽性），要么對真實存在的異常視而不見（假陰性）。

為此，研究團隊重新格式化了每一份訓練報告，要求對所有預(yù)定義的解剖區(qū)域都給出明確說明——有問題的寫清楚問題，沒問題的明確寫"未見異常"。這一改動貫穿整個訓練流程，對最終效果的提升影響深遠。經(jīng)過這第一階段，得到的模型被稱為ECHO-AR，仍然是傳統(tǒng)的逐詞生成方式，但醫(yī)學準確性已經(jīng)很高。

第二階段是"換身法"，即把ECHO-AR從"逐詞打字員"改造成"分組并行寫手"。這個改造過程被稱為"響應(yīng)非對稱擴散適配"（RAD）。

傳統(tǒng)做法是把整個對話序列（包括圖片的視覺編碼、問題指令、回復文字）全部復制一份，用于構(gòu)建訓練目標。但胸部X光片的視覺編碼極其龐大——大約需要2870個"視覺詞元"，相當于把一張圖片壓縮成將近三千個特征片段。如果每次訓練都要復制這些，計算成本會高得難以承受。RAD的聰明之處在于：只復制"回復"部分，圖片和指令部分不重復，通過特殊設(shè)計的注意力掩碼讓每一段回復都能"看到"前面所有的視覺信息和指令，同時避免了重復計算。這個設(shè)計把訓練所需的計算量降低了73%，訓練速度提升了3.7倍。

改造后的模型叫ECHO-Base，它已經(jīng)能夠以"分塊"的方式生成文字——把報告切成若干小塊，每塊內(nèi)部并行生成，塊與塊之間保持順序關(guān)系。這類似于一個寫手把報告分成"胸廓描述""肺野描述""心臟描述"等段落，每段內(nèi)部同時填寫，但段落之間仍按順序推進。

研究團隊還做了一個有趣的實驗，觀察不同訓練數(shù)據(jù)量對ECHO-Base性能的影響。結(jié)果發(fā)現(xiàn)，只需要原始數(shù)據(jù)量的2.2%，模型的生成質(zhì)量就已經(jīng)達到甚至超過了ECHO-AR的水平——說明擴散式的"并行寫手"在繼承自回歸"逐詞打字員"的知識方面效率極高。不過，如果要讓每次"分塊"能包含更多詞（即提高每步生成的詞數(shù)量，意味著更高的吞吐量），則需要更多的訓練數(shù)據(jù)來穩(wěn)定模型的行為。

第三階段是"提速精煉"，即核心技術(shù)"直接條件蒸餾"（DCD）的應(yīng)用。這一步的目標是把ECHO-Base從"每塊需要多步去噪"改造成"每塊只需一步"。

蒸餾這個詞，在機器學習里指的是"讓小模型學大模型的本事"，或者更廣義地說，是"讓快模型學慢模型的質(zhì)量"。DCD的獨特之處在于：它構(gòu)建的學習目標本身是"非獨立的"。

具體來說，DCD的工作分兩個交替進行的階段。在第一個階段，讓ECHO-Base（扮演"老師"角色）按照多步去噪的方式生成一份報告，同時記錄下每一步的決策——每次決定填入某個詞時，把當時的概率分布"拍照"保存下來。這些拍下來的照片，按照決策的時間順序拼接成一個整體目標。由于每張照片都是在"已經(jīng)確定了部分詞"的前提下生成的，它包含了詞與詞之間的依賴信息——先確定的詞構(gòu)成上下文，影響了后續(xù)詞的概率分布。把這些照片拼在一起，就得到了一個"非獨立的聯(lián)合目標"。

在第二個階段，讓ECHO（扮演"學生"角色）用一步就做出同樣的預(yù)測，然后用KL散度（一種衡量兩個概率分布差異的數(shù)學工具）衡量學生和老師的距離，驅(qū)動學生向老師靠攏。

此外，DCD還引入了一個細節(jié)設(shè)計：在多步去噪過程中，越晚被填入的詞，通常是越難預(yù)測、詞間依賴越強的詞。DCD給這些"難詞"分配了更高的學習權(quán)重，讓學生在訓練時把更多注意力放在真正困難的地方。

研究團隊還發(fā)現(xiàn)了另一個棘手問題：模型在生成時有時會陷入"重復循環(huán)"——不停地重復同樣的詞，無法結(jié)束。追查原因，發(fā)現(xiàn)ECHO-Base在預(yù)測"段落結(jié)束符"（``）時，信心很低、分布很混亂。塊越大，這個問題越嚴重。為此，在蒸餾訓練中額外對``位置施加一個單獨的交叉熵損失，強迫模型對結(jié)束符建立清晰、自信的預(yù)測。這個看似小小的修補，對生成穩(wěn)定性有顯著的改善作用。

**四、更聰明的推理設(shè)計：融合緩存**

除了訓練方面的創(chuàng)新，研究團隊還對推理（即實際生成報告的過程）做了一項工程優(yōu)化，叫"融合塊KV緩存"。

在分塊生成的框架下，每生成完一塊文字，系統(tǒng)需要把這塊文字的"鍵值狀態(tài)"（可以理解為對這段文字的記憶摘要）存入緩存，供后續(xù)塊參考。傳統(tǒng)做法是：生成完一塊后，專門再做一次前向計算來更新緩存，然后再開始下一塊的生成。這意味著每塊需要兩次計算：一次生成，一次緩存更新。

融合塊KV緩存的思路是：把"上一塊的緩存更新"和"當前塊的生成"合并成一次計算。模型在處理當前塊時，同時完成對上一塊的記憶摘要，而不需要額外的單獨操作。論文中有嚴格的數(shù)學證明，這種融合不會增加任何額外的計算量，卻把每塊需要的前向計算次數(shù)從兩次降到了一次，直接減少了推理延遲。

**五、實驗結(jié)果：數(shù)字背后的意義**

研究團隊在三個公開的胸片報告數(shù)據(jù)集上進行了評測，分別是MIMIC-CXR、CheXpert-Plus和ReXGradient，同時覆蓋中英文報告。評測維度涵蓋語言質(zhì)量（ROUGE-L、CIDEr——衡量生成文字和參考報告的詞匯重疊程度）、臨床準確性（RaTEScore、SemScore——衡量識別出來的病變是否正確）以及生成穩(wěn)定性（困惑度PPL——衡量生成文字是否通順流暢）。速度方面則用"每次前向計算生成的詞數(shù)"（TPF）和"每秒生成的詞數(shù)"（TPS）來衡量。

與最好的自回歸醫(yī)療模型相比，ECHO在RaTEScore上提升了64.33%，在SemScore上提升了60.58%，同時推理速度達到了8倍的提升。即便與體量遠大的MedGemma-27B（一個擁有270億參數(shù)的大模型）相比，ECHO在所有臨床指標上仍保持了17%到40%的領(lǐng)先優(yōu)勢。

與同樣采用擴散方式的競爭方法相比，ECHO的優(yōu)勢同樣明顯。在塊大小為8（即每塊同時生成8個詞，代表最高吞吐量）的設(shè)置下，ECHO相比ECHO-Base的質(zhì)量損失僅為2%到5%，而獲得了8倍的速度提升。相比之下，名為T3D的競爭方法雖然質(zhì)量損失接近，卻只實現(xiàn)了2倍的加速；名為dParallel的方法在4.4倍加速時，臨床指標下滑了18%到32%。這些對比說明，DCD在"質(zhì)量與速度的權(quán)衡"上實現(xiàn)了目前同類方法中最好的平衡點。

在消融實驗（即逐個去掉某個設(shè)計要素，觀察對結(jié)果的影響）中，研究團隊驗證了每個組件的獨立貢獻。去掉"步驟加權(quán)"設(shè)計，PPL從21.07升高到23.72，說明讓模型更關(guān)注"難預(yù)測的詞"確實有效。在加入``專項監(jiān)督之后，ROUGE-L在CheXpert-Plus上從52.44跳升到56.14，CIDEr在MIMIC-CXR上從3.65升到4.05，PPL降至18.83——是所有設(shè)置中最低的，證明解決結(jié)束符預(yù)測問題對整體穩(wěn)定性至關(guān)重要。將前向KL替換為反向KL（一種傾向于"押寶單一答案"的損失函數(shù)），反而導致性能下降，原因在于醫(yī)學報告需要模型覆蓋所有可能的病變，而不是只關(guān)注最可能的那一個，前向KL保留了老師分布的完整形態(tài)，更適合這個任務(wù)。

數(shù)據(jù)標準化對模型的影響也被單獨驗證。在未做標準化的原始報告上訓練時，ECHO在CheXpert-Plus上的ROUGE-L從56.14驟降至18.79，SemScore從49.57降至27.53。更值得注意的是，這種損失在三個訓練階段中逐級放大——原始數(shù)據(jù)的"模糊監(jiān)督"在自回歸階段已經(jīng)造成傷害，到了擴散適配階段進一步加劇，到了蒸餾階段達到最嚴重程度。這意味著數(shù)據(jù)質(zhì)量的問題會在復雜的訓練流程中被不斷"放大"，而非抵消。

**六、說到底，這項研究意味著什么**

歸根結(jié)底，ECHO做的事情可以用一句話概括：它讓AI在讀懂胸片、寫出準確報告的同時，還能做到"一口氣"完成，而不是"字斟句酌地慢慢寫"。這對臨床場景的意義在于，醫(yī)院系統(tǒng)未來可以更快速地處理大批量胸片，幫助放射科醫(yī)生把精力集中在真正需要人類判斷的復雜病例上，而非在重復性報告上消耗大量時間。

當然，研究團隊也坦誠地在論文的案例展示中顯示了ECHO仍存在的小問題——在某些情況下，尤其是塊大小較大時，生成的報告里偶爾會出現(xiàn)輕微的詞語重復或拼寫變形（如"atasis"代替"atelectasis"）。研究團隊認為這是當前階段可以接受的代價，但也暗示后續(xù)還有改進空間。

這項研究更深遠的意義或許在于方法論層面：它證明了"一步離散擴散蒸餾"這個方向的可行性，給整個擴散語言模型的加速研究開辟了一條新路。團隊聲稱這是目前已知的第一個成功用于離散擴散語言模型的一步蒸餾框架。無論這一結(jié)論最終如何被后續(xù)研究驗證和超越，單就已經(jīng)取得的8倍速度提升和顯著的臨床準確性改善而言，已經(jīng)是一個值得認真對待的研究成果。

有興趣進一步了解技術(shù)細節(jié)的讀者，可以通過arXiv編號2604.09450查閱完整論文，項目主頁地址為echo-midea-airc.github.io。

Q&A

Q1：ECHO模型在臨床上能直接使用嗎？

A：目前ECHO還處于研究階段，在公開數(shù)據(jù)集上進行了評測驗證，尚未經(jīng)過臨床認證和大規(guī)模部署。不過其底層技術(shù)路線已經(jīng)具備實際應(yīng)用的潛力，未來若經(jīng)過嚴格的醫(yī)療器械審批流程，有望成為輔助放射科醫(yī)生的自動化報告工具。

Q2：直接條件蒸餾（DCD）和普通的模型蒸餾有什么區(qū)別？

A：普通蒸餾讓"學生"模型模仿"老師"在同等輸入下的逐詞預(yù)測，但老師的每個詞預(yù)測仍然是相互獨立的。DCD的不同之處在于，它把老師在多步去噪過程中積累的"詞間依賴信息"拼接成一個整體目標，讓學生學到的不只是單個詞的概率，而是詞語搭配的整體模式，這是它能在一步內(nèi)生成連貫文字的關(guān)鍵。

Q3：響應(yīng)非對稱擴散適配（RAD）為什么能大幅降低訓練成本？

A：胸片的視覺編碼非常龐大，大約包含2870個特征片段。傳統(tǒng)的擴散模型轉(zhuǎn)換方法需要在訓練中把整個輸入序列（包括這些視覺特征）完整復制，計算量成倍增加。RAD只復制文字回復部分，視覺特征和指令只保留一份，通過特殊的注意力掩碼確保每個回復片段都能訪問完整的圖像信息，從而在不損失信息的前提下減少了73%的計算量。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.