Core Concepts
深層強化学習を用いて、ディープニューラルネットワークの実行時間制約を満たしつつ、ハードウェアリソースの利用効率を最大化するオンラインスケジューリングアルゴリズムを提案する。
Abstract
本研究では、ディープニューラルネットワーク(DNN)の実行をクラウドサービスに委託するマルチテナント環境を対象とする。サービスプロバイダにとって、厳しい実行時間制約を満たしつつ、コスト効率的にサービスを提供することが重要な課題となる。そのため、ヘテロジニアスなマルチアクセラレータシステムの活用が重要になってきている。
本論文では、RELMAS(Reinforcement Learning-based Multi-Accelerator Scheduler)と呼ばれる深層強化学習ベースのオンラインスケジューリングアルゴリズムを提案する。RELMASは、アクセラレータの異なるデータフローや、メモリバンド幅の競合を考慮しながら、ユーザ要求に対するサービスレベル合意(SLA)の満足率を最大化し、ハードウェアの利用効率を高めることを目的としている。
RELMASは、長短期記憶(LSTM)ネットワークを用いた深層強化学習アルゴリズムである。LSTMは、異なるDNNモデルの実行時間制約を自動的に理解し、時間的・空間的なワークロードバランシングを行うことができる。評価の結果、RELMASは、状況に応じて最適なスケジューリングポリシーを学習し、従来手法と比べて最大173%のSLA満足率の向上と1.5%未満のエネルギーオーバーヘッドを達成することができた。
Stats
DNNモデルの実行に必要な計算時間と帯域幅は、アクセラレータの種類によって大きく異なる。
メモリバンド幅の制限により、並行実行されるサブジョブ(SJ)の実行時間が遅延する。
提案手法RELMASは、SJの計算時間とメモリ帯域幅要求を考慮しながら、SLAを満たすようなスケジューリングを行う。
Quotes
"現在、DNNの実行をクラウドサービスに委託する傾向が高まっている。サービスプロバイダにとって、厳しい実行時間制約を満たしつつ、コスト効率的にサービスを提供することが重要な課題となる。"
"RELMASは、アクセラレータの異なるデータフローや、メモリバンド幅の競合を考慮しながら、ユーザ要求に対するサービスレベル合意(SLA)の満足率を最大化し、ハードウェアの利用効率を高めることを目的としている。"