Core Concepts
分散型学習環境において、個人情報保護と参加者への適切な報酬付与を両立するためのメトリクスを提案する。勾配ベースのメトリクスを用いることで、プライバシーを保ちつつ、有用なデータサンプルを選択・評価できる。
Abstract
本研究では、分散型学習環境における個人情報保護と参加者への報酬付与の両立を目的とする。個人情報保護のためにはプライバシー保護技術を、参加者への報酬付与のためにはデータの有用性評価が必要となる。
プライバシー保護技術としては微分プライバシーを採用し、データの有用性評価には勾配ベースのメトリクスを提案する。具体的には、勾配の分散(Variance of Gradients: VoG)と入力感受性スコア(Privacy Loss-Input Susceptibility: PLIS)を用いる。
VoGは、モデルにとって学習が困難なサンプルを特定するのに有効である。一方、PLISは、より個人情報を露呈するサンプルを特定するのに有効である。これらのメトリクスは、プライバシーを保ちつつ、参加者に対する適切な報酬付与を可能にする。
実験の結果、VoGとPLISは、モデルアーキテクチャ、データセット、プライバシー水準に関わらず、一貫して有用なサンプルを特定できることが示された。一方で、一般的に使われる損失値やグラジエントノルムベースのメトリクスは、プライバシー保護下では適切に機能しないことが明らかになった。
本研究の成果は、分散型学習環境における個人情報保護と参加者への適切な報酬付与の両立に寄与するものと期待される。
Stats
微分プライバシー下でも、勾配の分散(VoG)は一貫して有用なサンプルを特定できる
入力感受性スコア(PLIS)は、プライバシーに影響の大きいサンプルを特定するのに有効
損失値やグラジエントノルムベースのメトリクスは、プライバシー保護下では適切に機能しない
Quotes
"DP often affects the utility of the resulting model [5], rendering many training analysis techniques infeasible."
"DP training was shown to result in biased models, which perform worse on underrepresented subgroups [11], further reducing the diversity of the shared contributions."