Alapfogalmak
大規模分散深層学習では、モデル同期のための通信が性能のボトルネックとなるため、通信効率的なアルゴリズムが重要である。様々な分散SGDアルゴリズムの変種が提案されており、同期性、非同期性、遅延同期、局所SGDなどの手法が検討されている。また、連邦学習の文脈でも、ヘテロジニアスな環境下でのモデル同期の課題が議論されている。
Kivonat
本論文は、大規模分散深層学習におけるモデル同期の通信効率化に関する研究を包括的に調査している。
まず、分散SGDアルゴリズムの変種について解説する。同期型、非同期型、遅延同期型、局所SGDなどの手法が提案されており、それぞれの特徴と課題が整理されている。
次に、これらの分散SGDアルゴリズムの収束保証に関する理論的な分析が紹介される。局所SGDや非同期SGDなどについて、worker数、局所更新回数、全体の更新回数などの観点から収束性が分析されている。
さらに、連邦学習の文脈でのモデル同期の課題が取り上げられる。ランダムワーカー選択、モデル分割、集約手法の最適化、階層的集約、適応的な学習などの手法が議論されている。ヘテロジニアスな環境下での通信効率化が重要な課題となっている。
最後に、これらの知見をまとめ、今後の研究の方向性が示唆されている。大規模分散深層学習における通信効率的なモデル同期の実現に向けて、アルゴリズム、理論、応用の各側面からの取り組みが必要であることが指摘されている。