核心概念
MedPromptExtractは、医療記録の自動匿名化と高精度なデータ抽出を実現するツールである。半教師あり学習、大規模言語モデル、自然言語処理、プロンプトエンジニアリングを組み合わせて、非構造化の医療記録を分析可能な構造化データに変換する。
要約
本論文では、MedPromptExtractと呼ばれる自動ツールを紹介する。このツールは、医療記録の匿名化と高精度なデータ抽出を実現するものである。
匿名化プロセス:
- EIGEN(Expert-Informed Joint Learning aGgrEatioN)を使用して、大規模言語モデルと半教師あり学習手法を活用し、文書からの高精度な情報抽出を行う。
- 位置情報ヒューリスティックスを用いたラベリング関数により、アノテーションコストを大幅に削減する。
データ抽出プロセス:
- 正規表現とストップワードフィルタリングを使用して、関連情報を効率的に抽出する。
- プロンプトエンジニアリングとGeminiモデルを活用し、「入院経過」の自由記述テキストから19の特徴量を抽出する。
- 医師による手動アノテーションと比較し、高精度な抽出結果を得られることを確認した。
本ツールにより、医療記録の匿名化と構造化データ化が自動化され、医療データの二次利用が促進される。また、医療従事者の業務負荷も軽減される。今後は、ソースとなる病院のEHRシステムとの統合を目指す。
統計
AKI発症の有無: 精度0.96、感度0.5、特異度1.0、適合率1.0、F1スコア0.67、AUC0.75
造影検査の実施: 精度0.98、感度1.0、特異度0.98、適合率0.86、F1スコア0.92、AUC0.98
腎臓専門医の診察: 精度0.81、感度0.12、特異度0.95、適合率0.33、F1スコア0.18、AUC0.53
引用
「医療記録の自動匿名化と高精度なデータ抽出を実現するツールであるMedPromptExtractを紹介する。」
「半教師あり学習、大規模言語モデル、自然言語処理、プロンプトエンジニアリングを組み合わせて、非構造化の医療記録を分析可能な構造化データに変換する。」
「本ツールにより、医療記録の匿名化と構造化データ化が自動化され、医療データの二次利用が促進される。また、医療従事者の業務負荷も軽減される。」