核心概念
未知の遷移確率を持つマルコフ多腕バンディット問題において、タブラーおよび深層強化学習アルゴリズムを用いてギッティンズ指数を効率的に学習する。
要約
本論文では、マルコフ多腕バンディット問題において、ギッティンズ指数を学習するための新しいタブラーアルゴリズム(QGI)と深層強化学習アルゴリズム(DGN)を提案している。
QGIアルゴリズムは、リタイアメント定式化に基づいており、状態行動価値関数の更新と同時にギッティンズ指数の更新を行う。これにより、既存のアルゴリズムと比べて、Q値の更新回数が少なく、メモリ使用量も小さくなる。
DGNアルゴリズムは、深層ニューラルネットワークを用いてギッティンズ指数を近似する。Double DQNアーキテクチャを採用し、経験リプレイバッファのサイズも小さくなるよう設計されている。
提案手法は、ジョブスケジューリング問題への適用を通して評価されている。未知の処理時間分布を持つジョブのスケジューリングにおいて、提案手法は既存手法と比べて、より速い収束性、少ないメモリ使用量、そして低い経験的後悔を示す。
統計
ジョブスケジューリング問題において、QGIアルゴリズムは既存手法と比べて、Q値の更新回数が少なく、メモリ使用量も小さい。
DGNアルゴリズムは、経験リプレイバッファのサイズが小さくなるよう設計されている。
引用
"提案手法は、ジョブスケジューリング問題への適用を通して評価されている。未知の処理時間分布を持つジョブのスケジューリングにおいて、提案手法は既存手法と比べて、より速い収束性、少ないメモリ使用量、そして低い経験的後悔を示す。"