Core Concepts
連邦学習環境においてヒストグラムベースのXGBoostモデルに最小分散サンプリングを適用することで、精度とリグレッション誤差を改善できる。
Abstract
本研究では、連邦学習環境における表形式データの処理のために、ヒストグラムベースのXGBoostモデルに最小分散サンプリング(MVS)を適用した手法を提案している。
まず、XGBoostの基本的な仕組みを説明する。XGBoostは複数の弱学習器(decision tree)の予測を組み合わせることで最終的な予測を行う。MVSは、過去の予測の分散が小さい訓練データサンプルを選択する手法である。これにより、より安定した予測に寄与する訓練データを選択できる。
提案手法では、各クライアントがローカルデータからヒストグラムを構築し、サーバに送信する。サーバは集約したヒストグラムを用いて、MVSに基づいてサンプリングを行いながらXGBoostモデルを学習する。
評価実験では、提案手法がユニフォームサンプリングや無サンプリングの手法に比べて、精度とリグレッション誤差の両方で優れた性能を示すことを確認した。さらに、中央集権型XGBoostと比較しても半数のケースで優れた性能を発揮した。
また、提案手法は連邦データの特性を反映した新しい表形式データセット"FedTab"を用いて評価を行っている。FedTabは、連邦学習の研究に有用な基準データセットとなることが期待される。
Stats
連邦学習環境では、各クライアントが保有するデータの分布が偏っている(non-IID)ことが一般的である。
提案手法のMVSを用いたFedXGBoostは、このようなnon-IIDデータに対しても良好な性能を発揮する。
Quotes
"連邦学習は、プライバシーの向上と分散データの活用が可能であるが、パフォーマンスの低下が課題とされてきた。"
"提案手法のFedXGBoostはMVSを用いることで、精度とリグレッション誤差の両面で優れた性能を示した。"
"提案手法は中央集権型XGBoostと比較しても半数のケースで優れた性能を発揮した。"