Konsep Inti
本文提出了一種基於器官區域資訊的放射學報告生成框架 (ORID),透過整合多模態資訊和器官重要性分析,提高了放射學報告生成的準確性和可信度。
本研究提出了一種名為「基於器官區域資訊的放射學報告生成框架」(ORID) 的創新方法,旨在自動生成準確且可靠的放射學報告。
研究背景
放射學影像分析在疾病診斷中扮演著至關重要的角色,而自動生成精確的放射學報告可以顯著減輕放射科醫師沉重的工作負擔。然而,現有的基於 AI 的放射學報告生成 (RRG) 方法主要集中在修改編碼器-解碼器模型架構,而忽略了器官區域資訊的重要性。
ORID 框架
為了解決上述問題,本研究提出了 ORID 框架,該框架主要由兩個模組組成:基於器官的跨模態融合模組和器官重要性係數分析模組。
基於器官的跨模態融合模組
此模組首先利用 LLaVA-Med-RRG 模型生成器官區域診斷描述,然後將這些描述與相應的器官區域影像資訊進行融合,以獲得更精細的器官級別特徵表示。
器官重要性係數分析模組
此模組利用圖神經網路 (GNN) 分析不同器官區域之間的交互關係,並評估每個器官區域的重要性係數,以減少不相關器官資訊對報告生成的影響。
實驗結果
在兩個公開的放射學報告生成基準數據集 (IU-Xray 和 MIMIC-CXR) 上進行的實驗表明,ORID 框架在多個評估指標上均優於現有的先進方法。
主要貢獻
本研究的主要貢獻包括:
建立了一個與 RRG 相關的指令數據集,用於改進器官區域診斷描述能力,並開發了 LLaVA-Med-RRG 模型。
提出了 ORID 框架,該框架可以有效地整合多模態資訊,並減少不相關器官資訊的影響。
在兩個公開的放射學報告生成基準數據集上進行了廣泛的實驗,結果證明了 ORID 框架的優越性能。
研究意義
ORID 框架的提出為放射學報告生成領域提供了一種新的思路,並為減輕放射科醫師的工作負擔、提高診斷效率提供了有效的工具。
Statistik
IU-Xray 數據集包含 7,470 張胸部 X 光影像和 3,955 份相應的報告。
MIMIC-CXR 數據集包含 473,057 張胸部 X 光影像和 206,563 份相應的報告。
兩個數據集均以 7:2:1 的比例分為訓練集、驗證集和測試集。
LLaVA-Med-RRG 的訓練數據集包含大約 10,000 個問答對,這些問答對來自近 4,000 張放射學影像報告對。
數據集中包含 2,200 個胸膜、2,100 個心臟、2,200 個肺部、2,100 個骨骼和 2,100 個縱隔的問答對。
所有器官區域診斷描述都很簡潔,包含不到 20 個詞元。
心臟、肺部、骨骼、胸膜和縱隔的遮罩數量分別為 6、15、70、10 和 9。
上述五個器官的診斷描述詞元長度分別為 39、53、48、43 和 41。