核心概念
機械学習モデルは訓練データの統計的性質を漏洩する可能性があり、これは深刻なプライバシーリスクとなる。本研究では、より効果的な分布推定攻撃を開発し、様々な設定でのリスクを評価するとともに、効果的な防御策を提案する。
要約
本論文は、機械学習モデルの訓練データ分布を推定する攻撃に関する研究である。
主な内容は以下の通り:
-
新しい黒箱攻撃手法「KL Divergence Attack」を提案し、既存の攻撃手法を大幅に上回る性能を示した。
-
攻撃者の知識範囲を狭めた設定でも攻撃が有効であることを示した。具体的には、モデルアーキテクチャの違い、特徴量抽出器の違い、ラベルのみアクセスできる設定でも、攻撃が一定の効果を発揮することを明らかにした。
-
ノイズベースの防御策は効果的ではないが、単純なデータ再サンプリングによる防御策が有効であることを示した。
全体として、機械学習モデルの訓練データ分布の推定リスクは深刻であり、効果的な防御策の開発が重要であることが示された。
統計
訓練データの女性比率が50%の場合と20%の場合を区別する精度は、Census19データセットで89.8%に達する。
訓練データの平均ノードの次数を推定する精度は、ogbn-arxiv データセットで99.9%に達する。
引用
"Distribution inference attacks achieve non-trivial distinguishing accuracies [9], [31], [45] and thus pose a privacy risk, but the actual amount of leakage achieved is often minimal."
"Surprisingly, we find that in most settings our black-box KL Divergence Attack is more effective than the best known white-box attack."