Core Concepts
大規模モデルトレーニングにおける効率的なクラスタースケジューリングを実現するCriusシステムの設計と性能評価。
Abstract
この論文は、異種GPUクラスターで大規模モデルのトレーニング効率を向上させるために、Criusという新しいトレーニングシステムを提案しています。Criusは、Cellと呼ばれる新しいスケジュール単位を導入し、適切な粒度でスケジュール空間を分割します。Cellは、リソース割り当てとパイプライン段階が決定されたジョブを表し、正確で低オーバーヘッドなパフォーマンス推定を可能にします。また、Cellによって指示された最適な並列化プランを探索することで、効果的なパフォーマンスチューニングも行います。
Abstract
異種GPUクラスター上での大規模モデルトレーニングの効率向上に向けたCriusシステムの提案。
Cell単位での精密なパフォーマンス推定とチューニング。
物理テストベッドでの実験結果による性能評価。
Introduction
大規模モデルトレーニングにおける異種GPUクラスター上の効率的なクラスタースケジューリングが重要。
CriusはCell単位でパフォマンス推定とチューニングを行う革新的システム。
Data Extraction
新しい論文では93.4%から90.5%までの推定精度が報告されています。
プロファイリング時間は平均30秒程度です。
Stats
Criusは93.4%から90.5%までの推定精度を達成しています。
プロファイリング時間は平均30秒程度です。