核心概念
テキストデータの匿名化に広く用いられるdXプライバシー機構は、高次元単語埋め込み空間におけるノイズベクトルの振る舞いにより、期待されるプライバシーと有用性のトレードオフを実現できない可能性がある。
要約
テキストデータのdXプライバシーと次元性の呪い:論文要約
本論文は、テキストデータのプライバシー保護によく使われる手法であるdXプライバシー、特に単語レベルの多次元ラプラス機構について、その特性と課題を詳細に分析しています。
本研究は、高次元単語埋め込み空間における多次元ラプラス機構の振る舞いを分析し、その結果生じるプライバシーと有用性のトレードオフに関する問題点を明らかにすることを目的としています。
本研究では、様々な単語埋め込みモデル(GloVe、Word2Vec、fastTextなど)と次元数で、多次元ラプラス機構を適用した際の単語置換のパターンを分析しています。具体的には、元の単語、近傍の単語、遠方の単語がどの程度の頻度で出力されるかを調査し、その結果を従来の差分プライバシーにおけるラプラス機構と比較しています。