本稿では、差分プライバシー (DP) を維持しながら生成モデルを学習するための新しいフレームワークが提案されています。このフレームワークは、データのスライシングメカニズムと、平滑化スライスfダイバージェンスと呼ばれる新しい情報理論的指標に基づいています。
従来のDP生成モデル学習手法では、勾配更新にノイズを注入したり、識別器の学習手順を変更したりすることが一般的でした。しかし、これらの手法は、ハイパーパラメータの調整が難しく、収束が不安定になる可能性がありました。
本稿で提案されているスライシングメカニズムは、ランダムな低次元方向に沿ってデータのノイズの多い射影を計算し、これらの射影を用いて生成モデルを学習します。この手法は、勾配更新にノイズを注入する必要がないため、ハイパーパラメータの調整が容易になり、収束が安定します。
平滑化スライスfダイバージェンスは、元のデータ分布と合成データ分布を低次元空間に射影し、等方性ガウスノイズで平滑化した後、すべての射影にわたってfダイバージェンスを平均化したものです。
本稿では、このダイバージェンスを損失関数として使用して生成モデルを学習することが、前述の2段階学習プロセスと同等であることが証明されています。さらに、このダイバージェンスのカーネルベースの推定量が提示されており、生成モデルにおける敵対的学習の必要性を回避することができます。
提案手法の有効性を検証するために、いくつかの実世界データセットを用いて数値実験が行われています。その結果、提案手法は、ベースライン手法と比較して、より高品質な合成データを一貫して生成することが示されています。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問