本研究は、MASK フレームワークを拡張し、ClinicalBERTモデルを統合することで、臨床テキストデータの匿名化プロセスを強化したものである。主な特徴は以下の通り:
辞書検索、ルールベースのアプローチ、ClinicalBERTモデルを組み合わせた多層の個人識別情報(PHI)特定手法を導入した。ClinicalBERTモデルは、特に一般的な名前、日付、場所の特定で高い精度(F1スコア0.9732)を示した。
特定されたPHIに対して、マスキング(置換)や削除(黒塗り)などの柔軟な匿名化手法を提供する。ユーザーは匿名化設定をカスタマイズできる。
文書レベルのリスク評価機能を導入し、高リスクの文書を特定する。これにより、匿名化の取り組みを効果的に支援できる。
ユーザーフレンドリーなインターフェイスを備え、エンティティの追加/削除、一括処理、リスク評価レポートの表示などの機能を提供する。
全体として、DeIDClinicは、臨床テキストデータの匿名化において、高精度で柔軟性の高いソリューションを提供する。ただし、エンティティの重複認識や計算リソースの制限など、いくつかの課題も残されている。今後は、より汎用性の高いシステムの開発や、複数のモデルを組み合わせたアンサンブル手法の導入などが期待される。
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Angel Paul, ... klo arxiv.org 10-03-2024
https://arxiv.org/pdf/2410.01648.pdfSyvällisempiä Kysymyksiä