この論文では、匿名の通報者の再特定リスクを軽減するための半自動テキスト匿名化ツールを提案、実装、評価している。
まず、テキストの特徴を分析し、通報者の特定につながる可能性のある要素を特定する。これらの要素には、名称、固有名詞、記述的な情報、文体的特徴などが含まれる。
次に、これらの要素のリスクレベルを自動的に推定し、ユーザーの入力に基づいて調整する。リスクレベルに応じて、一般化、擾乱、抑制といった匿名化操作を適用する。
さらに、大規模言語モデルを使ってテキストを言い換えることで、文法的な一貫性と中立的な文体を保つ。
提案手法を、著者特定攻撃に対する保護と元のテキストの意味保持の観点から評価した。その結果、著者特定精度を98.81%から31.22%まで大幅に低下させつつ、元のテキストの意味の73.1%を保持できることが示された。
また、実際の通報者証言の一部に適用し、直接的および準特定的な識別子の効果的な匿名化を実証した。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Dimitri Stau... às arxiv.org 05-03-2024
https://arxiv.org/pdf/2405.01097.pdfPerguntas Mais Profundas