核心概念
匿名の通報者の再特定リスクを軽減するために、テキストの特徴を分析し、リスクに応じた匿名化手法を適用する。
要約
この論文では、匿名の通報者の再特定リスクを軽減するための半自動テキスト匿名化ツールを提案、実装、評価している。
まず、テキストの特徴を分析し、通報者の特定につながる可能性のある要素を特定する。これらの要素には、名称、固有名詞、記述的な情報、文体的特徴などが含まれる。
次に、これらの要素のリスクレベルを自動的に推定し、ユーザーの入力に基づいて調整する。リスクレベルに応じて、一般化、擾乱、抑制といった匿名化操作を適用する。
さらに、大規模言語モデルを使ってテキストを言い換えることで、文法的な一貫性と中立的な文体を保つ。
提案手法を、著者特定攻撃に対する保護と元のテキストの意味保持の観点から評価した。その結果、著者特定精度を98.81%から31.22%まで大幅に低下させつつ、元のテキストの意味の73.1%を保持できることが示された。
また、実際の通報者証言の一部に適用し、直接的および準特定的な識別子の効果的な匿名化を実証した。
統計
提案手法を適用すると、著者特定精度を98.81%から31.22%まで大幅に低下させることができる。
元のテキストの意味の73.1%を保持できる。
引用
"匿名の通報者は、透明性と説明責任を確保する上で不可欠な存在である。"
"テキストの内容や通報者の文体は、通報者の特定につながる可能性がある。"
"完全な匿名性を保証することはできないが、リスクとユーティリティのバランスを取ることが重要である。"