本論文は、パイプラインパラレリズムにおけるバブルの特性を分析し、それらを活用してGPUワークロードを実行するFreeRideシステムを提案している。
バブルは、パイプラインパラレリズムにおいて不可避的に発生する待機時間であり、全体の学習時間の40%以上を占める可能性がある。これらのバブルを活用することで、GPU リソースの活用率を向上させ、学習コストを削減できる。
FreeRideは、バブルの特性に合わせて柔軟にGPUワークロードを実行するためのプログラミングフレームワークを提供する。また、バブルの形状に応じてワークロードを管理し、GPUリソースの消費を制限することで、主要な学習ワークロードへの影響を最小限に抑える。
FreeRideを用いて、モデル学習、グラフ分析、画像処理のワークロードを実行した結果、平均7.8%のコスト削減と1.1%の性能オーバーヘッドを達成した。これは、単純にCUDA MPSを使ってワークロードを共存させる場合の4.5%コスト増加と48.7%のオーバーヘッドと比べて大幅に良い結果である。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Jiashu Zhang... às arxiv.org 09-12-2024
https://arxiv.org/pdf/2409.06941.pdfPerguntas Mais Profundas