Основні поняття
大規模分散学習における課題である、故障マシンの迅速かつ正確な検出を実現するために、監視メトリクスの類似性と継続性に着目した自動検出ツール「Minder」を開発し、実際の運用環境での評価を通して、その有効性と課題を検証した。
Анотація
Minder: 大規模分散モデル学習における故障マシン検出ツール
本稿は、大規模分散モデル学習における故障マシン検出の課題と、その解決策として開発された自動検出ツール「Minder」についての研究論文である。
近年、大規模言語モデル(LLM)などの大規模な機械学習モデルの学習には、数千台規模のマシンを用いた分散学習が必須となっている。しかし、学習タスクの長時間化と大規模化に伴い、マシン故障の発生頻度も増加しており、迅速な故障検出と復旧が課題となっている。本研究では、従来の手動による故障診断の非効率性を克服し、分散学習タスクの信頼性向上と運用コスト削減を実現するために、自動故障マシン検出ツール「Minder」を提案する。
Minderは、以下の4つの主要なアイデアに基づいて設計されている。
マシンレベルの類似性
分散学習では、各マシンは均等な計算負荷と通信負荷を担うため、監視メトリクスは類似したパターンを示す。故障発生時には、故障マシンのメトリクスのみが異常なパターンを示すことを利用し、マシン間の類似性を比較することで故障マシンを検出する。
マシンレベルの継続性
故障による異常なメトリクスは、一定時間継続して観測される。Minderは、異常パターンの継続時間を監視することで、一時的なノイズと区別し、真の故障を検出する。
メトリクスごとの学習ベースノイズ除去モデル
監視データにはノイズが含まれるため、MinderはLSTM-VAEを用いたノイズ除去モデルを各メトリクスごとに学習し、ノイズの影響を抑制する。
メトリクス優先順位付け
Minderは、故障検出に有効なメトリクスを優先的に使用することで、検出時間の短縮を図る。具体的には、各メトリクスのZスコアを基に決定木を構築し、優先順位を決定する。