核心概念
DeIDClinic 集成了 ClinicalBERT 深度學習模型以及傳統的字典查找和基於規則的方法,以保護患者隱私並有效地識別和屏蔽或替換臨床文檔中的敏感可識別實體。
摘要
DeIDClinic 是對 MASK 框架的增強,主要包括以下內容:
-
集成了 ClinicalBERT 深度學習模型,以及傳統的字典查找和基於規則的方法,用於識別臨床文本中的敏感可識別實體。ClinicalBERT 的集成顯著提高了實體識別的性能,特別是對於常見的實體如姓名、日期和位置,達到了 0.9732 的 F1 分數。
-
實現了有效的屏蔽策略,包括刪除和替換方法。屏蔽過程可以根據用戶的需求,對識別出的敏感實體進行屏蔽或替換。
-
開發了文檔級別的風險評估功能,分析文檔中實體的獨特性,將文檔分類為不同的風險等級,以指導進一步的去識別化工作。
-
設計並實現了一個用戶友好的界面,允許用戶輕鬆配置去識別化設置、自定義實體管理,並支持批量處理。
總的來說,DeIDClinic 提供了一個更強大和用戶友好的框架,通過集成先進的 NLP 模型和創新的功能,更好地保護了臨床數據中的患者隱私。
统计
臨床文本中包含大量敏感個人信息,如果被洩露可能會造成患者隱私受侵犯、醫療機構信任受損以及法律問題。
根據 2018 年英國《數據保護法》和 UK GDPR,醫療服務提供商和研究人員有法律和道德義務確保患者隱私。
手動去識別化臨床文本非常困難和不可行,需要使用 NLP 模型自動化這一過程。
ClinicalBERT 模型在識別臨床文本中的敏感個人信息方面的 F1 分數達到 0.9732,優於 BERT 和 BioBERT。
引用
"DeIDClinic 集成了 ClinicalBERT 深度學習模型以及傳統的字典查找和基於規則的方法,以保護患者隱私並有效地識別和屏蔽或替換臨床文檔中的敏感可識別實體。"
"ClinicalBERT 的集成顯著提高了實體識別的性能,特別是對於常見的實體如姓名、日期和位置,達到了 0.9732 的 F1 分數。"
"DeIDClinic 提供了一個更強大和用戶友好的框架,通過集成先進的 NLP 模型和創新的功能,更好地保護了臨床數據中的患者隱私。"