核心概念
言語モデルを用いて生成した合成臨床データを活用することで、専門家が手作業でアノテーションした少量のデータでも高性能な臨床NLPモデルを開発できる。
要約
本研究では、大規模言語モデル(LLM)を用いて合成臨床データを生成し、それを既存の専門家アノテーションデータと組み合わせることで、臨床NLPタスクのパフォーマンスを向上させる手法を提案した。
まず、DR.BENCHベンチマークタスク(医療自然言語推論、アセスメントプラン関係ラベリング、問題リスト要約)を用いて、合成データのみ、合成データと専門家アノテーションデータの組み合わせ、専門家アノテーションデータのみの3つのアプローチを比較した。その結果、合成データのみでは性能が低下するが、ラベル修正を行うことで、合成データと専門家アノテーションデータを組み合わせることで、ベンチマークタスクの性能を向上させることができた。
さらに、実臨床タスクとして、がん患者の食道炎重症度分類タスクでも同様の検証を行った。200件の専門家アノテーションデータを用いて生成した合成データを使うことで、1243件の専門家アノテーションデータを使った場合と同等の性能が得られた。
本手法は、専門家によるアノテーションの必要性を大幅に削減しつつ、高性能な臨床NLPモデルを開発できる可能性を示している。今後は、合成データの品質向上や、マルチインスティテューショナルでの合成ベンチマーク開発などの課題に取り組む必要がある。
統計
医療自然言語推論(MedNLI)タスクのデータセットは11,232件で、そのうち20%を合成データ生成の例として使用した。
アセスメントプラン関係ラベリング(A/P Reasoning)タスクのデータセットは4,633件で、全件を例として使用した。
問題リスト要約(ProbSumm)タスクのデータセットは600件で、そのうち50%を例として使用した。
食道炎重症度分類タスクのデータセットは1,243件で、そのうち200件を例として使用した。