ReCycleは、故障に強い分散学習を実現するためのシステムで、データ並列グループ間の機能的な冗長性と各パイプラインステージのスケジュールのバブルを活用することで、複数の故障に対応しつつ高い学習スループットを維持する。