Core Concepts
未知の遷移関数と敵対的なバンディットフィードバックを持つ休止状態多腕バンディットに対して、効率的な強化学習アルゴリズムを提案し、理論的な保証付きのレグレット上界を示した。
Abstract
本論文では、敵対的な報酬関数と未知の遷移関数を持つ休止状態多腕バンディット(ARMAB)の学習問題を扱っている。具体的には以下の3つの主要な貢献がある:
未知の遷移関数に対して信頼区間を構築し、オンラインミラー降下法(OMD)を用いて緩和された問題を解くことで、敵対的な報酬に対処する。
バンディットフィードバックの下で、偏った過大推定の報酬推定量を提案することで、未知の遷移関数と部分的な報酬観測に対処する。
瞬時活性化制約を満たすためのインデックスポリシーを設計し、その実装に伴うレグレットを明示的に評価する。
これらの技術的な貢献により、提案するUCMD-ARMABアルゴリズムは、˜O(H√T)のレグレット上界を達成できることを示した。これは、これまでの敵対的なMDPやCMDPの結果と同程度のレグレットであるが、より一般的な休止状態多腕バンディットの設定下で初めて達成された。
Stats
敵対的な報酬関数rt
n(s, a)は[0, 1]の範囲にある。
各腕nの遷移関数Pn(s'|s, a)は未知であり、信頼区間Pt
nを用いて表現される。
瞬時活性化制約により、各決定エポックhにおいて最大B個の腕を活性化できる。
Quotes
"Restless multi-armed bandits (RMAB) play a central role in modeling sequential decision making problems under an instantaneous activation constraint that at most B arms can be activated at any decision epoch."
"We show ˜O(H√T) regret bound for our algorithm, where T is the number of episodes and H is the episode length. To our best knowledge, this is the first algorithm to ensure ˜O(√T) regret for adversarial RMAB in our considered challenging settings."