核心概念
放射線レポート生成の自動評価のために、LLMベースの報酬モデルであるMRScoreを提案する。MRScoreは、放射線医の専門知識に基づいて設計された評価基準に従って、GPT-4によって生成された大量の評価サンプルを用いて学習される。実験の結果、MRScoreは従来の評価指標よりも人間の評価とより高い相関を示すことが明らかになった。
要約
本研究では、放射線レポートの自動生成を評価するための新しい指標であるMRScoreを提案している。従来の自然言語生成(NLG)指標は、n-gramの一致を主に評価しており、意味的な等価性やレポートの臨床的関連性を十分に捉えられないという課題がある。
そこで本研究では、放射線医との協力の下、7つの評価基準を設定した。これらの基準は、印象の一貫性、臓器の記述、病変の記述、臨床情報、完成度、文法、医療用語の正確性などを含む。
次に、GPT-4を用いて、これらの基準に基づいて生成された様々な品質のレポートサンプルを大量に作成した。これらのサンプルを<accepted, rejected>のペアとして用意し、Mistral-7Bモデルを用いて報酬モデルを学習した。
実験の結果、提案するMRScoreは従来の指標よりも人間の評価との相関が高く、放射線レポートの質を正確に評価できることが示された。これにより、自動生成されたレポートの品質を効率的に評価できるようになる。
統計
放射線レポートの評価基準には、印象の一貫性、臓器の記述、病変の記述、臨床情報、完成度、文法、医療用語の正確性の7つの項目がある。
各項目に重み付けがなされており、合計スコアは0-100の範囲となる。
GPT-4を用いて、1000件の基準レポートから3000件の品質の異なるレポートを生成した。
生成されたレポートのうち、100件をGPT-4Vによって生成し、放射線医による評価と比較した。
引用
"従来のNLG指標は、n-gramの一致を主に評価しており、意味的な等価性やレポートの臨床的関連性を十分に捉えられない"
"放射線医との協力の下、7つの評価基準を設定した。これらの基準は、印象の一貫性、臓器の記述、病変の記述、臨床情報、完成度、文法、医療用語の正確性などを含む"
"提案するMRScoreは従来の指標よりも人間の評価との相関が高く、放射線レポートの質を正確に評価できる"