本論文では、マルコフ多腕バンディット問題において、ギッティンズ指数を学習するための新しいタブラーアルゴリズム(QGI)と深層強化学習アルゴリズム(DGN)を提案している。
QGIアルゴリズムは、リタイアメント定式化に基づいており、状態行動価値関数の更新と同時にギッティンズ指数の更新を行う。これにより、既存のアルゴリズムと比べて、Q値の更新回数が少なく、メモリ使用量も小さくなる。
DGNアルゴリズムは、深層ニューラルネットワークを用いてギッティンズ指数を近似する。Double DQNアーキテクチャを採用し、経験リプレイバッファのサイズも小さくなるよう設計されている。
提案手法は、ジョブスケジューリング問題への適用を通して評価されている。未知の処理時間分布を持つジョブのスケジューリングにおいて、提案手法は既存手法と比べて、より速い収束性、少ないメモリ使用量、そして低い経験的後悔を示す。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor