Kernekoncepter
医療における電子健康記録を用いた臨床転帰予測において、大規模言語モデル(LLM)の不確実性定量化と低減は、AIヘルスケアの信頼性向上に不可欠である。
Resumé
研究目的
本論文は、電子健康記録(EHR)を用いた臨床転帰予測において、大規模言語モデル(LLM)の不確実性定量化と低減を実現する方法を提案することを目的とする。
方法
- EHRデータからの臨床転帰予測に、BERTベースの言語モデルと、GPT-3.5-Turbo、GPT-4などの独自LLMを用いる。
- ホワイトボックス設定(モデルパラメータにアクセス可能なBERTベースモデル)では、Brierスコア、ECE、aECE、負の対数尤度などの指標を用いて不確実性を定量化する。
- ブラックボックス設定(モデルパラメータにアクセスできない独自LLM)では、繰り返し生成された回答セットのエントロピーベースの指標を用いて不確実性を定量化する。
- 不確実性を低減するために、アンサンブル法(複数モデルの予測の組み合わせ)とマルチタスク学習(複数臨床転帰の同時予測)を適用する。
主な結果
- ホワイトボックス設定では、ディープアンサンブルとマルチタスク学習の組み合わせにより、ほとんどのEHRタスクにおいて不確実性が大幅に減少した。
- ブラックボックス設定では、アンサンブル法を用いることで、単一モデルの場合と比較して、不確実性指標がほぼすべての場合において向上した。
- マルチタスク学習単独では、UQ指標に大きな改善は見られなかったが、アンサンブル法と組み合わせることで、UQ指標がわずかに向上した。
結論
本研究は、EHRを用いた臨床転帰予測において、ホワイトボックスモデルとブラックボックスモデルの両方において、アンサンブル法とマルチタスク学習が不確実性低減に有効であることを示した。
意義
本研究は、AIヘルスケアにおけるLLMの信頼性と透明性を向上させるための重要なステップとなるものである。
限界と今後の研究
- 本研究は、縦断的なEHRデータを用いた臨床予測タスクに焦点を当てており、他の分野への一般化可能性については更なる検証が必要である。
- 今後の研究では、異なる文化圏のデータを用いた検証や、現在の範囲を超えた幅広いアプリケーションへの適応が期待される。
Statistik
EHRSHOTデータセットは、スタンフォード大学医学部の6,739人の患者の電子健康記録から抽出された、4,000万件以上の臨床イベントを含む構造化された縦断的臨床データセットである。
EHRSHOTデータセットには、長期入院、ICUへの転送、検査値の正常性、新規疾患の診断など、3つのカテゴリに分類された10のEHR予測サブタスクが含まれている。
ホワイトボックスモデルの評価には、各タスクカテゴリから100件の医療シーケンスをランダムに選択し、各データセットに十分な数の陽性ラベルが含まれるようにした。
ブラックボックスモデルの評価には、GPT-4とGPT-3.5 Turboを用いて回答を生成し、各プロンプトに対して5つの回答を繰り返し生成した。