核心概念
本稿では、胸部X線画像から詳細な所見の場所特定を含むレポートを自動生成する根拠に基づく放射線レポート生成(GRRG)モデルの学習用データセットとして、PadChest-GRを紹介する。
要約
PadChest-GR: 根拠に基づく放射線レポート生成のためのバイリンガルデータセット
文献情報: Castro, D.C., Bustos, A., Bannur, S. et al. PadChest-GR: A Bilingual Chest X-ray Dataset for Grounded Radiology Report Generation. arXiv:2411.05085v1 (2024).
研究目的: 胸部X線画像からの根拠に基づく放射線レポート生成 (GRRG) モデルの学習と評価のための、手動でキュレーションされた初のデータセットであるPadChest-GRの作成。
手法: 既存の大規模胸部X線データセットであるPadChestからサブセットを選択し、正面画像のみを含め、小児患者と最適とはみなされない画像を除外。Microsoft Azure OpenAI ServiceのGPT-4を用いて、レポートから個々の所見に関する文章を抽出し、スペイン語から英語に翻訳し、既存のPadChestの所見および位置ラベルにリンクさせ、所見の進行状況を分類。14名の放射線科医が画像の品質、レポート、所見リストに問題がないことを確認した後、各所見のバウンディングボックスを用いて手動でアノテーションを実施。
主な結果: 4,555件の胸部X線画像(異常3,099件、正常1,456件)のデータセットを構築。各画像には、個々の所見を記述した文章の完全なリスト(陽性および陰性所見)が英語とスペイン語の両方で含まれている。合計で、PadChest-GRには7,037件の陽性所見と3,422件の陰性所見が含まれている。各陽性所見の文章には、異なる読影医によってラベル付けされた最大2組のバウンディングボックスが関連付けられており、所見の種類、位置、進行状況に関するカテゴリカルラベルが付与されている。
結論: PadChest-GRは、放射線画像の理解と解釈、およびテキスト生成のためのGRRGモデルの学習用に設計された、手動でキュレーションされた初のデータセットである。詳細な位置情報と、臨床的に関連するすべての所見の包括的なアノテーションを含めることで、胸部X線画像からのGRRGモデルの開発と評価のための貴重なリソースを提供する。
意義: PadChest-GRは、より堅牢で解釈可能なGRRGモデルの開発を促進し、放射線医学におけるAIの進歩に貢献する可能性がある。
限界と今後の研究: 単一施設のデータを使用しているため、地域医療の実践に関連するバイアスが含まれている可能性があり、多様な集団を完全に代表していない可能性がある。また、画像の質、正面画像のみの使用、GPT-4を用いた自動処理における限界など、いくつかの制限事項が存在する。これらの制限に対処するために、データの多様性の向上、高解像度画像の利用、側面画像の追加などが今後の課題として挙げられる。
統計
データセットには、4,555件の胸部X線画像が含まれている。
異常画像が3,099件、正常画像が1,456件含まれている。
7,037件の陽性所見と3,422件の陰性所見が含まれている。
各陽性所見の文章には、最大2組のバウンディングボックスが関連付けられている。
所見の種類、位置、進行状況に関するカテゴリカルラベルが付与されている。