本論文では、RedactBusterと呼ばれる手法を提案している。RedactBusterは、匿名化された文書から実体タイプを認識するための手法である。
まず、データセットの前処理を行う。文書を文単位に分割し、各文に含まれる匿名化された実体の位置情報と実体タイプを付与する。また、クラスの不均衡を解消するためにアンダーサンプリングとオーバーサンプリングを行う。
次に、文埋め込みを生成するためにSentenceTransformersを使用する。事前学習済みのモデルを用いるだけでは性能が低いため、ドメイン固有のデータを使ってファインチューニングを行う。
最後に、ファインチューニングされた文埋め込みを入力として、機械学習モデルと深層学習モデルを評価する。実験の結果、最大で0.985の精度を達成することができた。
また、提案手法に対する対策として、文字置換による手法を提案している。特定の文字をビジュアルに似た別の文字に置換することで、モデルの予測精度を大幅に低下させることができる。
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Mirco Beltra... klokken arxiv.org 04-22-2024
https://arxiv.org/pdf/2404.12991.pdfDypere Spørsmål