Core Concepts
差分プライバシーの原理を活用し、高リスクな事例を特定的に合成データに置き換えることで、データプライバシーを効率的に確保しつつ、データ利用性も維持する手法を提案する。
Abstract
本論文では、ϵ-PrivateSMOTEと呼ばれる新しいプライバシー保護データ共有戦略を提案している。この手法は、差分プライバシーの原理を活用し、最も再識別リスクの高い事例を特定的に合成データに置き換えることで、プライバシーを確保しつつデータ利用性も維持することを目的としている。
具体的には以下の手順で実現される:
元のデータセットから、準識別子(QI)に基づいて再識別リスクが最も高い事例を特定する。
これらの高リスク事例に対して、最近傍アルゴリズムを用いた補間手法(SMOTE)を適用し、差分プライバシーの原理に基づいて合成データを生成する。
合成データを生成する際には、元の値と完全に一致しないよう、ラプラス分布に基づくノイズを付与する。
名義属性の合成については、近傍事例の中から一様ランダムに選択する。
この手法は、従来の匿名化手法や深層学習ベースの合成データ生成手法、差分プライバシーベースの手法と比較して以下の点で優れている:
予測性能と再識別リスクのバランスが良好
計算コストが低く、リソース効率的
高リスク事例のみを選択的に合成することで、データ全体の有用性を維持
以上のように、ϵ-PrivateSMOTEは、差分プライバシーの原理と補間ベースの合成手法を組み合わせることで、効率的かつ効果的なプライバシー保護を実現する新しい手法である。
Stats
データセットの属性値の範囲を維持しつつ、統計的類似性と相関を高めることができる。
ϵ値が大きいほど、境界値への適合性が高くなる。
Quotes
差分プライバシーの原理を活用することで、個人情報の漏洩を防ぐことができる。
高リスク事例のみを選択的に合成することで、データ全体の有用性を維持できる。