核心概念
GANsを使用して生成された合成データには、元の訓練データのサンプルを特定する可能性があり、深刻なプライバシーリスクが存在する。
要約
本研究では、表形式データに対するGANsの再識別攻撃の可能性を調査しています。
- 攻撃者の知識レベルに応じて3つのシナリオを検討しました。
- 攻撃者が合成データのみにアクセスできる場合(Level I)、未訓練のGANモデルにアクセスできる場合(Level II)、訓練済みのGANモデルにアクセスできる場合(Level III)を考えました。
- 攻撃者が機械学習モデルを利用して攻撃の精度を高められるかどうかも検討しました。
- 進化的多目的最適化を使用して合成サンプルを元のデータに近づけることで、攻撃の精度が向上するかどうかも調べました。
- 結果として、攻撃者がより多くのリソースにアクセスできるほど、再識別攻撃の成功率が高くなることが分かりました。
- 特に、訓練済みのGANモデルにアクセスできる場合(Level III)に、攻撃の精度が最も高くなりました。
- 一方で、機械学習モデルの利用や進化的最適化の活用は、攻撃の精度向上にはあまり寄与しないことが分かりました。
統計
合成サンプルが元の訓練サンプルに最も近い場合の平均距離は、Level IIIの攻撃で最も小さくなりました。
Level IIIの攻撃では、元の訓練サンプルの5%程度を特定できる可能性が高くなりました。
引用
"GANsを使用して生成された合成データには、元の訓練データのサンプルを特定する可能性があり、深刻なプライバシーリスクが存在する。"
"攻撃者がより多くのリソースにアクセスできるほど、再識別攻撃の成功率が高くなる。"
"特に、訓練済みのGANモデルにアクセスできる場合(Level III)に、攻撃の精度が最も高くなる。"