Główne pojęcia
非定常な報酬関数と遷移関数を持つ線形MDPにおいて、動的レグレットを最小化する効率的なアルゴリズムを提案する。
Streszczenie
本論文では、報酬関数と遷移関数が時間とともに変化する非定常線形MDPを考える。具体的には以下の内容が示されている:
非定常線形MDPの最小動的レグレット下限を導出し、定常線形MDPの最小動的レグレット下限も導出した。
報酬関数と遷移関数の変動量が既知の場合と未知の場合に対して、LSVI-UCB-Restartアルゴリズムを提案し、その動的レグレット上限を示した。
報酬関数と遷移関数の変動量が未知の場合に対して、パラメータフリーのAda-LSVI-UCB-Restartアルゴリズムを提案し、その動的レグレット上限を示した。
合成データを用いた数値実験により、提案アルゴリズムの有効性を示した。
Statystyki
報酬関数と遷移関数の変動量の総和Bは、時間経過Tに対して線形に増加する場合、どのようなアルゴリズムも線形レグレットを避けられない。
報酬関数と遷移関数の変動量の総和Bが時間経過Tに対して部分線形に増加する場合、提案アルゴリズムは近最適な動的レグレットを達成できる。
Cytaty
"非定常ランダム過程は自然に多くの設定で発生し、より大きな問題クラスを特徴付けることができる。"
"定常環境を仮定したすべての既存の理論的研究とは対照的に、本論文では非定常環境での学習を考える。"