核心概念
高性能コンピューターの未使用ノードを活用することで、ディープニューラルネットワークのトレーニングを効率的に行うことができる。
要約
本論文では、MalleTrain というシステムを提案している。MalleTrain は、高性能コンピューターの未使用ノードを活用してディープニューラルネットワークのトレーニングを行うシステムである。
主な特徴は以下の通り:
- 未使用ノードの検出と管理を行う Scavenger コンポーネントと、ノードとジョブの最適な割り当てを行う Resource Allocator コンポーネントを持つ。
- ジョブの進捗状況を監視する Job Monitor コンポーネントと、ジョブを管理する Job Manager コンポーネントを持つ。
- ジョブのスケーラビリティ情報を自動的に収集する Job Profiling Advisor (JPA) コンポーネントを持つ。これにより、ユーザーが事前にジョブ情報を提供する必要がなくなる。
- 効率的なスケーリング手順を採用し、スケールアップ時の オーバーヘッドを最小限に抑える。
実験の結果、MalleTrain は従来手法である FreeTrain と比較して、ニューラルアーキテクチャサーチ (NAS) やハイパーパラメータ最適化 (HPO) などの動的なワークロードにおいて、最大22.3%の性能向上を達成した。また、ネットワークトポロジの影響は小さいことも示された。
統計
高性能コンピューターの平均稼働率は90%程度であり、10%の未使用ノードが存在する。
未使用ノードの割り当て時間は、スケールアップ時の方がスケールダウン時よりも4倍以上長い。
引用
"First-come first-serve scheduling can result in substantial (up to 10%) of transiently idle nodes on supercomputers."
"DNN training workloads can in principle be structured as malleable computations."