核心概念
本論文では、大規模な差分プライバシーストリーミング集計処理システムを設計・実装した。このシステムは、ストリーミングフレームワークと連携し、Spanner データベースおよびGoogle F1クエリエンジンを活用している。アルゴリズム面では、ユーザレベルの差分プライバシーキー選択、先読み実行スキーム、ヒストグラムの差分プライバシー連続リリースなどの技術を開発した。実験的に、意味のある基準と比較して、少なくとも16倍の誤差削減を達成した。また、Google Shoppingの差分プライバシーユーザインプレッション生成、GoogleTrendsへの適用など、実運用での利用例を示した。
要約
本論文では、大規模な差分プライバシーストリーミング集計処理システムを提案している。主な内容は以下の通り:
ストリーミングデータ処理における差分プライバシーの課題:
未知のキー空間: 新しいキーが随時現れるため、個人情報保護の観点から、十分な数のユーザ貢献がある場合にのみキーを出力する必要がある。
同期実行: 各トリガタイムでは直前のイベントタイムウィンドウのみを処理するが、これではプライバシー漏洩の可能性がある。全てのキーを処理する必要があるが、計算量が膨大になる。
大規模なキーと イベントの観測: 毎秒数百万件のイベントを含む数十億件のキーを処理できる必要がある。
ユーザ貢献の効果的な制限: ユーザごとの貢献を制限する必要があるが、バイアスと分散のトレードオフを適切に設定する必要がある。
ストリーミングでの統計量リリース: 各トリガタイムで統計量を出力する必要があるが、プライバシーコストが累積するため、効率的な手法が必要。
提案手法の概要:
ユーザレベルの差分プライバシーキー選択アルゴリズム: 未知の巨大なキー空間に対応し、ユーザ単位の差分プライバシーを保証する。
先読み実行スキーム: 全てのキーを毎回処理せずに、効率的に処理できるようにする。
ヒストグラムの差分プライバシー連続リリース: 各トリガタイムでの統計量出力の際のプライバシーコストを抑える。
実験評価:
合成データおよびRedditデータを用いた評価
提案手法は、意味のある基準と比較して、少なくとも16倍の誤差削減を達成
数十億件のキーに対応可能なスケーラビリティを実証
実運用での利用例:
Google Shoppingの差分プライバシーユーザインプレッション生成
GoogleTrendsへの適用
統計
1つのユーザが最大C件のレコードを投稿可能
1つのレコードの値vは、集計列mについて|v| ≤ Lmを満たす