本稿は、胸部X線画像のレポート生成モデルにおける説明可能性向上を目的とした研究論文である。
近年、深層学習の発展により、胸部X線画像から自動的にレポートを生成するモデルが開発されている。しかし、これらのモデルは複雑な構造を持つため、生成されたレポートの根拠となる画像内の特徴を人間が理解することは困難である。これは、医療現場におけるAIモデルの信頼性と透明性を損なう要因となる。
本研究では、レポート生成モデルの意思決定過程を解釈可能にするため、画像とテキスト間の双方向生成を可能にする循環型ビジョン言語アダプター(CVLA)を提案する。
CVLAは、既存のレポート生成モデルと画像生成モデルを組み合わせたモジュールである。まず、レポート生成モデルを用いて入力画像からレポートを生成する。次に、生成されたレポート内の特定の臨床所見を削除するなど、レポートを編集する。CVLAは、編集されたレポートに基づいて、元の画像とは異なる特徴を持つ反事実画像を生成する。生成された反事実画像と元の画像を比較することで、レポート生成モデルがどの画像特徴に基づいてレポートを生成したかを特定することができる。
MIMIC-CXRデータセットを用いて、2つのレポート生成モデル(R2Gen、R2GenCMN)に対するCVLAの有効性を検証した。実験の結果、CVLAは、レポート生成モデルが特定の臨床所見を報告する根拠となる画像特徴を正確に特定できることが示された。また、CVLAを用いて生成された反事実画像は、既存の説明可能性向上手法よりも正確な局所化能力を示した。
本研究では、循環型ビジョン言語アダプター(CVLA)を提案することで、X線画像レポート生成モデルの説明可能性を向上させることに成功した。CVLAは、レポート生成モデルの意思決定メカニズムをより深く理解することを可能にし、AI生成レポートの信頼性と透明性を高める。
今後の研究では、CVLAをより広範囲な臨床所見に対応できるように拡張する必要がある。また、放射線科医と協力して、CVLAを用いた説明結果の評価を行う必要がある。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問