מושגי ליבה
分散深層学習トレーニングのためのハードウェアアクセラレータの最適化手法を提案する。パイプラインパラレルおよびテンソルモデルパラレルの分散トレーニングシナリオに対応し、スループットやエネルギー効率などのメトリックを最大化する。
תקציר
本論文は、深層学習モデルの端末から端末までのトレーニングを最適化するための新しい手法を提案している。
- 従来の研究は主にモデルの推論のみを対象としていたが、本手法は訓練時の特有の課題にも対応する。
- 訓練時には、より大きな計算量、メモリ使用量、順伝播と逆伝播の連携が必要となる。
- 提案手法WHAMは、パイプラインパラレルおよびテンソルモデルパラレルの分散トレーニングシナリオに対応し、スループットやエネルギー効率などのメトリックを最大化する。
- WHAMは、アクセラレータの構成要素数や次元を決定する際に、クリティカルパスに基づくヒューリスティックスを用いる。これにより、大規模な探索空間を効率的に探索できる。
- WHAMは、各ステージのアクセラレータ設計を最適化した後、パイプライン全体の最適化を行う。これにより、ホモジニアスなパイプラインよりも優れたヘテロジニアスな設計を得ることができる。
- 評価の結果、WHA Mは既存手法と比べて、高いスループットと電力効率を達成できることが示された。
סטטיסטיקה
提案手法WHA Mは、既存手法と比べて、平均して31倍短い時間で収束し、12倍高いスループットを達成できる。
WHA Mの最適化設計は、TPUアーキテクチャと比べて12%高いスループットを実現できる。
ציטוטים
"分散深層学習トレーニングのための一般的なスケーラブルなアプローチを決定することは、重要ながらも未解決の問題である。"
"訓練は推論と比べて一層複雑であり、より大きな計算量、メモリ使用量、順伝播と逆伝播の連携が必要となる。"