核心概念
LLMは、ベンチマークデータセットでは優れた性能を発揮するが、実世界のデータセットでは大幅に性能が低下する。
要約
本研究では、LLMを用いた電子健康記録(EHR)からのセクション識別手法を提案し、評価を行った。
LLMの中でも特にGPT-4は、ベンチマークデータセットであるMedSecIdでは96%の高精度を達成し、従来手法を大幅に上回る性能を示した。
しかし、実世界のデータセットでは37%と大幅に性能が低下した。
実世界データセットの特徴として、構造が非標準的で、OCRエラーが多いことが主な要因と分析された。
本研究では、実世界データセットの特徴を捉えた新しいベンチマークを提案し、LLMの課題を明らかにした。
また、実世界データセットに対するLLMの性能向上に向けた課題を示した。
統計
電子健康記録(EHR)は近年非常に長く複雑化している
医師-患者の対話において、EHRの中から関連情報を素早く抽出することが重要
従来のルールベースやML手法では、ラベル付きデータの依存が課題となっていた
LLMは、ラベル付きデータがなくても優れた性能を発揮することが期待されている
引用
"EHRは医療従事者にとって福音であるが、日々複雑化し長大化している"
"関連セクションの迅速な抽出は、適切な医療提供と合併症リスク低減に不可欠"
"LLMは、ラベル付きデータがなくても優れた性能を発揮できる可能性がある"