本研究は、電子健康記録(EHR)とNLP技術を統合し、大規模言語モデル(LLM)を活用して、安全で HIPAA 準拠の合成患者ノートを作成することで、医療データ管理と患者ケアの向上を目指している。
データ再識別(RE-ID)と単一ラベル化された MIMIC III データセットを用いて、GPT-3.5、GPT-4、Mistral 7Bの3つのLLMを使ってテキスト生成を行った。プライバシーの評価では、PHI(保護対象の健康情報)の出現率と共起率を分析し、有用性の評価では ICD-9 コーディングタスクを用いた。テキストの質は ROUGE スコアとコサイン類似度で測定した。
分析の結果、キーワードベースの手法が、プライバシーリスクが低く、かつ高い性能を示すことが分かった。ワンショット生成では、地理的位置情報や日付などのPHIの露出が最も高かった。正規化ワンショット手法が最高の分類精度を達成した。
プライバシー分析では、データの有用性と保護のバランスが重要であり、今後のデータ利用と共有に影響を与えることが示された。再識別データは、常に非識別データを上回る性能を示した。
本研究は、プライバシーを保護しつつデータの有用性を維持する合成医療ノートの生成手法を提示し、EHRデータの安全な共有と活用に向けた新たなアプローチを示唆している。ダミーのPHIを用いることで、従来の非識別化よりも高い有用性とプライバシーを実現できる可能性が示された。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Yao-Shun Chu... kl. arxiv.org 09-17-2024
https://arxiv.org/pdf/2407.16166.pdfDybere Forespørgsler