Alapfogalmak
分散深層学習において、学習率の減少に応じて同期周期を動的に増加させるQuadratic Synchronization Rule (QSR)を提案する。QSRは通信量を大幅に削減しつつ、最終的な検証精度を向上させることができる。
Kivonat
本論文では、分散深層学習における通信コストの削減と一般化性能の向上を同時に実現するための手法として、Quadratic Synchronization Rule (QSR)を提案している。
QSRの概要は以下の通り:
- 学習率ηが減少するにつれて、各通信ラウンドの同期周期Hを η^-2に比例して動的に増加させる
- これにより、通信量を大幅に削減しつつ、最終的な検証精度を向上させることができる
理論的な分析では、QSRによる同期周期の設定が、SGDやLocal SGDと比べて、より平坦な極小値に収束することを示している。
実験では、ImageNetデータセットにおけるResNet-152とViT-Bの学習で、QSRが以下の効果を示すことを確認した:
- 通信量を大幅に削減しつつ(最大80%削減)、検証精度を向上させる
- 通信量の削減により、訓練時間を大幅に短縮できる(最大35%の時間短縮)
以上より、QSRは分散深層学習の効率化と一般化性能の向上に寄与することが示された。
Statisztikák
分散SGDの通信量は全体の15.9%を占める
QSR(Hbase=2)の通信量は全体の7.0%
QSR(Hbase=4)の通信量は全体の3.9%
Idézetek
"Frequent gradient synchronization can induce huge communication overhead as the number of workers and model size grow, severely hindering the scalability of distributed training."
"It has also been long known that the choice of optimizers or hyperparameters can change not only the optimization speed of the training loss but also their implicit bias towards solutions with different test accuracies."