本研究では、放射線レポートの自動生成を評価するための新しい指標であるMRScoreを提案している。従来の自然言語生成(NLG)指標は、n-gramの一致を主に評価しており、意味的な等価性やレポートの臨床的関連性を十分に捉えられないという課題がある。
そこで本研究では、放射線医との協力の下、7つの評価基準を設定した。これらの基準は、印象の一貫性、臓器の記述、病変の記述、臨床情報、完成度、文法、医療用語の正確性などを含む。
次に、GPT-4を用いて、これらの基準に基づいて生成された様々な品質のレポートサンプルを大量に作成した。これらのサンプルを<accepted, rejected>のペアとして用意し、Mistral-7Bモデルを用いて報酬モデルを学習した。
実験の結果、提案するMRScoreは従来の指標よりも人間の評価との相関が高く、放射線レポートの質を正確に評価できることが示された。これにより、自動生成されたレポートの品質を効率的に評価できるようになる。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies