核心概念
匿名化された文書から、文脈情報を利用して実体タイプを予測する手法を提案する。
要約
本論文では、RedactBusterと呼ばれる手法を提案している。RedactBusterは、匿名化された文書から実体タイプを認識するための手法である。
まず、データセットの前処理を行う。文書を文単位に分割し、各文に含まれる匿名化された実体の位置情報と実体タイプを付与する。また、クラスの不均衡を解消するためにアンダーサンプリングとオーバーサンプリングを行う。
次に、文埋め込みを生成するためにSentenceTransformersを使用する。事前学習済みのモデルを用いるだけでは性能が低いため、ドメイン固有のデータを使ってファインチューニングを行う。
最後に、ファインチューニングされた文埋め込みを入力として、機械学習モデルと深層学習モデルを評価する。実験の結果、最大で0.985の精度を達成することができた。
また、提案手法に対する対策として、文字置換による手法を提案している。特定の文字をビジュアルに似た別の文字に置換することで、モデルの予測精度を大幅に低下させることができる。
統計
2022年と2023年にイタリアで自動車・オートバイ保険市場で39億件の文書が生成された
39億件の文書には個人を特定できる情報が含まれている