Core Concepts
プライベートな環境下でも効率的かつ正確にワッサーシュタイン距離を計算できる新しい手法「TriangleWad」を提案する。TriangleWadは、ワッサーシュタイン空間の幾何学的性質を利用し、ランダムに生成したノイズデータを用いて、データ所有者間の情報共有を最小限に抑えつつ、ワッサーシュタイン距離を高速かつ正確に計算できる。
Abstract
本研究では、プライベートな環境下でのワッサーシュタイン距離の効率的な計算手法「TriangleWad」を提案している。
ワッサーシュタイン距離は、データ間の分布の違いを測る有効な指標であるが、プライベートな環境下では生データの共有が制限されるため、その適用が困難となる。これまでにも、差分プライバシーや連邦学習を用いた近似手法が提案されてきたが、正確性や堅牢性に課題があった。
TriangleWadは、ワッサーシュタイン空間の幾何学的性質に着目し、ランダムに生成したノイズデータを用いることで、データ所有者間の情報共有を最小限に抑えつつ、ワッサーシュタイン距離を高速かつ正確に計算できる。具体的には以下の手順で行う:
データ所有者が任意のノイズデータを生成する
各データ所有者が自身のデータとノイズデータの間の直接距離を計算し、ノイズデータとの補間分布を作成する
サーバーがノイズデータとデータ所有者のデータの間の直接距離を計算し、ノイズデータとの補間分布を作成
サーバーが2つの補間分布の距離を計算し、それをワッサーシュタイン距離の近似値とする
この手法は、従来の連邦学習ベースの手法に比べて20倍高速であり、かつ正確性も担保できる。さらに、ノイズデータを非公開にすることで、データの再構築を防ぐことができ、プライバシーも強化される。
実験では、画像データと文書データの両方で、データ貢献度の評価やノイズデータの検出など、様々なタスクにおいて高い性能を示した。特に文書データでは、従来手法では単語の復元が可能だったが、TriangleWadではそれを防ぐことができた。
以上より、TriangleWadは効率的かつプライバシーに配慮したワッサーシュタイン距離の計算手法として有効であることが示された。
Stats
ワッサーシュタイン距離の近似値と真値の差は、ノイズデータの分散に依存する。
ノイズデータの分散が小さいほど、近似値と真値の差は小さくなる。