Core Concepts
ディフュージョンモデルの共有に伴うプライバシーと公平性のリスクを調査する。
Abstract
最近注目されているディフュージョンモデルの共有によるプライバシーと公平性のリスクについて、潜在的な攻撃手法や対策が提案されています。攻撃者は、ダウンストリームタスクへの影響を最小限に抑えながら、受信者の分類器を操作するために、毒入りデータセットをサンプリングします。また、受信者は、合成データから特定の特徴量の比率を推定するために、事前トレーニングされたモデルを利用します。これらの攻撃手法は実世界で効果的であり、適切な防御メカニズムが必要です。
Stats
実験結果では、毒入り攻撃が分類器の公平性を大幅に低下させることが示されました。
受信者はわずか100サンプルで、データセットD内の特性分布を正確に推定できます。
Quotes
"Fairness poisoning attacks to undermine the receiver’s downstream models by manipulating the training data distribution of the diffusion model."
"Property inference attacks to reveal the distribution of sensitive features in the sharer’s dataset."