Core Concepts
マシンラーニングワークロードのマルチGPUプラットフォームでの訓練パフォーマンスを正確に予測するには、通信集合演算とGPUストリーム間の同期を適切にモデル化することが不可欠である。
Abstract
本論文では、マシンラーニングワークロードのマルチGPUプラットフォームでの訓練パフォーマンスを正確に予測するための手法を提案している。主な貢献は以下の通り:
通信集合演算(all-to-allとall-reduce)のパフォーマンスモデルを追加した。シグモイド曲線フィッティングを用いた単純かつ効率的なモデルを提案した。
重要経路ベースのエンドツーエンドパフォーマンスモデリングアルゴリズムを拡張し、ランク間およびストリーム間の同期を考慮した。これが正確な予測に不可欠である。
入力データ分布に応じて柔軟にモデル化できる埋め込みテーブルルックアップのパフォーマンスモデルを提案した。
変換ベースのNLPモデルをサポートするため、レイヤーノーマライゼーション、ドロップアウト、要素単位演算などの追加演算子をモデル化した。
提案手法は、産業規模のDLRMモデルとTransformer系NLPモデルの訓練パフォーマンスを高精度(5.21%と3.00%の幾何平均誤差)で予測できる。さらに、DLRMの埋め込みテーブルシャーディング設定を選択する際にも、85%の成功率で最速の設定を選択できることを示した。
Stats
提案手法のDLRMモデルの予測誤差は5.21%の幾何平均誤差
提案手法のTransformer系NLPモデルの予測誤差は3.00%の幾何平均誤差
DLRMの埋め込みテーブルシャーディング設定選択の成功率は85%
Quotes
"マシンラーニングワークロードのマルチGPUプラットフォームでの訓練パフォーマンスを正確に予測するには、通信集合演算とGPUストリーム間の同期を適切にモデル化することが不可欠である。"
"提案手法は、産業規模のDLRMモデルとTransformer系NLPモデルの訓練パフォーマンスを高精度(5.21%と3.00%の幾何平均誤差)で予測できる。"
"DLRMの埋め込みテーブルシャーディング設定を選択する際にも、85%の成功率で最速の設定を選択できる。"