Основные понятия
リインフォースメントラーニングを使用して、バックフィリングの決定を直接学習することで、より効率的なスケジューリングを実現する。
Аннотация
本論文は、高性能コンピューティング(HPC)システムにおけるバッチジョブのスケジューリングについて研究している。HPCシステムでは、多数のコンピューティングタスクが同時に実行されるため、効率的なスケジューリングが重要となる。
従来のバックフィリング手法は、ジョブの実行時間の予測精度に依存していた。しかし、予測精度が高くても必ずしもスケジューリングの性能が良くなるわけではないことが分かった。これは、予測精度が高くなるとバックフィリングの機会が減少してしまうためである。
そこで本研究では、リインフォースメントラーニングを用いて、バックフィリングの決定を直接学習するRLBackfillingを提案した。RLBackfillingは、ジョブの待ち行列や利用可能リソースの状況を観察し、ジョブをバックフィリングするかどうかを判断する。この判断は、ジョブの実行時間予測ではなく、報酬に基づいて学習される。
評価の結果、RLBackfillingは従来のEASYバックフィリングと比べて、最大で59%の性能向上(平均ボーンデッドジョブスローダウンの改善)を達成した。また、実際の実行時間を完全に知っている場合と比べても、最大で30%の性能向上が得られた。さらに、RLBackfillingは様々な基本スケジューリングポリシーと組み合わせて使用できる柔軟性も示した。
Статистика
ユーザーが指定したジョブ実行時間を使用したEASYバックフィリングと比べて、RLBackfillingは最大で59%の性能向上を達成した。
実際の実行時間を完全に知っている場合のEASYバックフィリングと比べても、RLBackfillingは最大で30%の性能向上を達成した。
Цитаты
"より正確な実行時間の予測が必ずしもより良いスケジューリングパフォーマンスにつながるわけではない"
"予測精度が高くなるとバックフィリングの機会が減少してしまう"