Core Concepts
本研究では、患者の経時的な情報を保持した表現を用いて、生成事前学習トランスフォーマー(GPT)モデルを訓練することで、時系列の合成電子健康記録を生成することができる。
Abstract
本研究は、電子健康記録(EHR)の合成データ生成に取り組んでいる。従来の方法では、時系列の依存関係を十分に捉えられないという課題があった。
本研究では、患者の経時的な情報を保持した表現を設計し、GPTモデルを用いて合成EHRデータを生成する手法を提案している。
具体的には以下の点が特徴的である:
患者の初診年、初診時年齢、性別、人種などの人口統計学的情報、外来・入院の区別、入院期間などの時間情報を含む患者表現を設計した
この表現を用いてGPTモデルを訓練し、新しい患者の経時的な情報を生成できるようにした
生成された患者情報をOMOP(Observational Medical Outcomes Partnership)の共通データモデルに変換することで、広く利用可能な形式で提供できるようにした
生成データの評価では、分布、共起関係、機械学習モデルの性能など、多角的な指標を用いて検討した
プライバシー保護の観点から、属性推定攻撃やメンバーシップ推定攻撃に対する耐性も確認した
本手法により、時系列の依存関係を保持した合成EHRデータを生成できるようになり、医療研究や機械学習モデルの開発に活用できると期待される。
Stats
患者1人当たりの平均訪問回数は16回
患者1人当たりの平均シーケンス長は148トークン
患者の初診年の分布の平均は不明、標準偏差は不明
患者の初診時年齢の分布の平均は不明、標準偏差は不明
Quotes
"合成データは実際のデータではないが、特定の患者集団の統計的特性や経過を模倣している。"
"時系列の依存関係、例えば投薬スケジュール、症状の進行、検査結果のタイムラインなどは、患者の健康軌跡を理解し、効果的な治療戦略を開発するために不可欠である。"