Temel Kavramlar
大規模言語モデルを使用することで、放射線科医レベルの精度でX線レポートを評価できる。さらに、コストと応答時間の問題を解決するために、GPT-4と同等の性能を持つ小型モデルを開発した。
Özet
本研究は、X線レポートの評価に大規模言語モデル(LLM)を活用する新しい手法を提案している。従来の評価指標には臨床的な意義を十分に反映できないという課題があったが、LLMを使うことで放射線科医レベルの評価精度を達成できることを示した。
具体的には以下の通り:
6つの誤りカテゴリーを定義し、LLMによる評価結果と放射線科医の評価を比較した。
GPT-4が最も高い相関を示し、放射線科医の評価に匹敵する性能を発揮した。
しかし、GPT-4は高コストと遅い応答時間が課題だったため、小型モデルの開発を行った。
7B規模のBioMistral-7Bモデルを微調整することで、GPT-4と同等の評価性能を持ちつつ、高速で低コストな評価が可能となった。
この手法により、レポート生成モデルの開発とテストが効率化され、より臨床的に意義のある
モデルの構築が期待できる。
İstatistikler
通常所見のレポートでは、GR1が最低スコアを示した。
異常所見のレポートでは、GR1が最低スコアを示した。