ReCycleは、大規模なディープニューラルネットワーク(DNN)モデルの学習において、故障に強い分散学習を実現するためのシステムである。
ReCycleの主な特徴は以下の通り:
データ並列グループ間の機能的な冗長性を活用し、故障したワーカーのマイクロバッチを他のデータ並列グループのピアワーカーに動的に再ルーティングすることで、中断なく学習を継続できる。
パイプラインステージ間のバブル(アイドルスロット)を活用することで、ピアワーカーが故障したワーカーのマイクロバッチを処理する際の性能低下を最小限に抑える。
バックプロパゲーションを入力に関する勾配と重みに関する勾配の2つのフェーズに分離することで、より柔軟なスケジューリングを可能にし、さらなる性能最適化を実現する。
オプティマイザステップをパイプラインステージ間でずらすことで、ウォームアップフェーズのバブルを有効活用し、故障時の性能低下をさらに抑える。
これらの技術を組み合わせることで、ReCycleは複数の故障に対応しつつ、高い学習スループットを維持することができる。実験結果では、OobleckやBambooといった最近の提案手法と比較して、最大1.64倍の性能向上を示している。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询