Keskeiset käsitteet
現実世界のデータセットには偏りや欠陥が存在するため、頑健な学習アルゴリズムが必要とされている。しかし、データの収集プロセスによっては、データの汚染が特定のサブグループに局在化する可能性がある。本研究では、サブグループ内の汚染量に応じて頑健性が劣化するマルチグループ頑健アルゴリズムを提案する。
Tiivistelmä
本研究では、現実世界のデータセットの限界に対処するため、頑健な学習アルゴリズムの新しい概念である「多群頑健性」を提案している。
- 従来の頑健性の定義は、データ全体に対する頑健性を保証するものであったが、実際のデータ収集プロセスでは、特定のサブグループのデータのみが汚染される可能性がある。
- 多群頑健性は、各サブグループ内のデータ汚染量に応じて、そのサブグループに対する頑健性が劣化するという概念を導入する。
- 多群頑健性は、アルゴリズムの公平性(multiaccuracy)と密接に関連しており、公平性を満たすアルゴリズムが多群頑健性も満たすことを示した。
- さらに、公平性とユニフォーム収束の仮定から、効率的な多群頑健アルゴリズムを提案した。
- 実験では、標準的な学習アルゴリズムが多群頑健性を満たさないことを示し、提案手法が多群頑健性を維持しつつ精度も保つことを確認した。
Tilastot
訓練データセットSと汚染データセットS'の間の差異は、各サブグループCにおける差異の和で表される。
各サブグループCにおける予測値の期待値の差は、その差異の和と、サブグループCの汚染量に比例する。
Lainaukset
"実際のデータ収集プロセスでは、特定のサブグループのデータのみが汚染される可能性がある。"
"多群頑健性は、各サブグループ内のデータ汚染量に応じて、そのサブグループに対する頑健性が劣化するという概念を導入する。"
"多群頑健性は、アルゴリズムの公平性(multiaccuracy)と密接に関連しており、公平性を満たすアルゴリズムが多群頑健性も満たすことを示した。"