核心概念
医療画像レポートの非構造化テキストを、臨床所見、病変、医学的問題などの構造化表現に変換する手法を提案する。
要約
本研究では、医療画像レポートの注釈付きコーパス「CAMIR」を紹介する。CAMIRには、CT、MRI、PET-CTの3つの画像モダリティから合計609件の医療画像レポートが含まれている。各レポートは、臨床的適応、病変、医学的問題といった3つのイベントタイプで注釈付けされており、解剖学的位置や所見の特徴など、詳細な属性情報も付与されている。
CAMIR を用いて、2つのBERT ベースの言語モデル(mSpERT、PL-Marker++)による情報抽出を行った。両モデルは、CAMIRの注釈スキーマに基づいて設計されており、トリガー、引数の抽出、属性値の予測を行う。評価の結果、PL-Marker++が全体的な性能で最も高い F1 スコア(0.759)を達成した。
CAMIR は、医療画像レポートの非構造化テキストを、臨床的に意義のある構造化表現に変換するための基盤を提供する。抽出された情報は、後続の分析や意思決定支援などの二次利用アプリケーションに活用できる。本研究の成果は、医療画像解析分野における自然言語処理技術の適用を推進するものである。
統計
医療画像レポートには平均2.4-2.5件の臨床的適応トリガーが含まれ、その多くが腫瘍性疾患に関連していた。
1レポートあたり平均9.2-10.4件の病変および医学的問題のトリガーが抽出された。ほとんどのトリガーが「存在する」と判断された。
病変に関する属性(特徴、サイズ、サイズ変化、個数)も多数抽出された。これらの詳細情報は、画像所見の解釈に重要である。