Core Concepts
連邦学習の非IIDデータ環境下でも、バッチ正規化は多くの設定で群正規化よりも優れた性能を発揮する。提案手法のFIXBNは、バッチ正規化の長所を活かしつつ、その短所を軽減することができる。
Abstract
本論文は、連邦学習(FL)におけるバッチ正規化(BN)と群正規化(GN)の性能比較を行い、BNがGNを上回る多くの設定を明らかにした。
まず、先行研究では極端な非IID設定でGNがBNに優れるとされていたが、本研究の拡張実験では、通信頻度が低い設定やそれほど非IIDでない設定ではBNがGNを上回ることを示した。
次に、BNが特に性能が悪化する高頻度通信と極端な非IID設定に着目し、その原因を分析した。BNは局所バッチ統計量の不一致により勾配が偏るという問題と、訓練時と推論時の正規化統計量の不一致という問題があることを明らかにした。
これらの問題を解決するため、本研究は簡単な手法FIXBNを提案した。FIXBNは、初期の訓練ではBNの利点を活かし、後半では局所バッチ統計量ではなく蓄積された全体統計量を用いて正規化を行う。これにより、BNの長所を活かしつつ短所を軽減できる。
実験の結果、FIXBNは高頻度通信設定でBNを大幅に改善し、様々な設定でGNや通常のBNを上回る性能を示した。さらに、SGDモーメンタムの維持も提案し、FIXBNとの相乗効果を確認した。
本研究は、BNの連邦学習への適用に関する理解を深め、実用的な解決策を提示した意義深い研究である。
Stats
中央集中型学習と比べ、連邦学習でBNを用いると45%もの精度低下が生じる。
通信頻度が高く(ローカルステップE=1)、極端な非IIDの設定では、BNの性能がGNに大きく劣る。
Quotes
"BN relies on stochastic mini-batch statistics to normalize intermediate features to claim superior convergence and generalization (Luo et al., 2019; Santurkar et al., 2018)."
"the mismatch of mini-batch statistics across non-IID clients leads to deviated local gradients, which cannot be canceled out even under high-frequency settings."