這篇研究論文介紹了 ReXrank,一個公開的排行榜和挑戰平台,旨在評估 AI 模型自動生成放射科報告的效能。由於醫學影像技術的快速發展,放射科醫師的工作量大幅增加,導致報告延遲和資訊遺漏的風險提高。AI 驅動的解決方案,特別是醫學視覺語言模型,在自動生成放射科報告方面展現出潛力,可望提高報告效率並確保高品質的專業解讀。
現有的胸部 X 光報告生成資料集,例如 MIMIC-CXR,雖然很有價值,但也存在一些限制,阻礙了其作為基準測試的有效性。這些資料集通常存在資料分割不一致和評估指標不統一的問題,導致難以對不同模型架構進行可靠的比較分析。此外,MIMIC-CXR 的資料分佈主要用於模型訓練,無法充分測試模型對新資料的泛化能力。
為了填補這一空白,研究人員開發了 ReXrank,這是一個專門用於評估 AI 自動生成胸部 X 光報告的公開排行榜和挑戰平台。ReXrank 提供了一個全面的評估框架,為評估不同放射科報告生成模型的有效性設定了標準化基準。
為了確保穩健且與臨床相關的評估,ReXrank 整合了多個資料集,包括 MIMIC-CXR、IU-Xray、CheXpert Plus 和 ReXGradient(一個包含 10,000 份研究的大型私人資料集)。這種廣泛的資料集範圍允許評估模型在不同分佈資料上的效能,從而更深入地了解模型的泛化能力。
ReXrank 目前包含來自 10 個不同機構的 16 個報告生成模型,包括 BiomedGPT_IU、CheXagent、CheXpertPlus_CheX、CheXpertPlus_CheX_MIMIC、CheXpertPlus_MIMIC、Cvt2distilgpt2_IU、Cvt2distilgpt2_MIMIC、GPT4V、LLM-CXR、MAIRA-2、MedVersa、RadFM、RaDialog、RGRG、VLCI_IU 和 VLCI_MIMIC。這些模型在不同的醫學資料集上進行訓練,主要是 MIMIC-CXR、CheXpert Plus 和 IU-Xray,其中一些模型能夠處理報告生成以外的多項任務。
ReXrank 採用 8 種不同的指標來全面評估生成的放射科報告的品質,包括傳統的文字生成指標(如 BLEU-2 和 BERTScore)以及專為放射科報告評估設計的特定領域指標(如 SembScore、RadGraph-F1、RadCliQ-v1 和 RaTEScore)。該框架還納入了最近開發的基於 LLM 的指標,包括 GREEN 和 FineRadScore,這些指標側重於識別臨床上顯著的錯誤。每個指標都從不同的角度評估生成的報告,從文字相似度到臨床準確性,全面評估模型效能。預設情況下,我們使用 RadCliQ-v1 作為主要指標。
MedVersa 成為效能最佳的模型之一,在 ReXGradient 上的最佳 1/RadCliQ-v1 分數為 0.98 ± 0.05,在 MIMIC-CXR 上為 0.92 ± 0.02。然而,它在 CheXpert Plus 資料集上的效能相對較低,在 Findings 上排名第四,1/RadCliQ-v1 分數為 0.72 ± 0.10。MedVersa 在多個指標和資料集上始終優於最先進的通用視覺語言模型 GPT4V。
研究結果表明,ReXGradient 作為一個資料集,模型在 RadCliQ-v1 指標上始終表現出最小的置信區間(大多數模型為 0.01),因此證明了其作為醫學報告生成模型可靠基準的效用。IU X-ray 資料集雖然始終顯示出高分(最佳模型在 Findings 部分獲得了 1.46 ± 0.03 的 1/RadCliQ-v1 分數),但表明它可能過於簡單或缺乏嚴格區分模型所需的複雜性。相比之下,CheXpert Plus 顯示出較低的整體效能(最佳模型在 Findings 部分獲得了 0.81 ± 0.12 的 1/RadCliQ-v1 分數),且差異性更大,這可能表明資料集分佈發生了變化或存在雜訊。
ReXrank 為評估 AI 驅動的放射科報告生成模型提供了一個寶貴的資源。通過納入多個資料集、標準化指標和公開排行榜,ReXrank 促進了模型的開發和比較,最終目標是推進醫學影像報告自動化領域的發展。
翻譯成其他語言
從原文內容
arxiv.org
深入探究