大規模分散学習における課題である、故障マシンの迅速かつ正確な検出を実現するために、監視メトリクスの類似性と継続性に着目した自動検出ツール「Minder」を開発し、実際の運用環境での評価を通して、その有効性と課題を検証した。