Temel Kavramlar
本論文は、多目的強化学習(MORL)問題に対して、理論的保証を持つ新しいアクター・クリティック型アルゴリズムMOACを提案する。MOACは、パレート定常解への有限時間収束と標本複雑性の保証を備えている。
Özet
本論文は、多目的強化学習(MORL)問題に取り組んでいる。MORL問題では、複数の報酬信号を同時に最大化する必要があり、従来の単一報酬最大化の強化学習フレームワークでは不十分である。
本論文では、以下の主要な貢献を行っている:
-
割引報酬と平均報酬の両設定において、パレート定常解への有限時間収束と標本複雑性を保証する新しいアクター・クリティック型アルゴリズムMOACを提案した。これは、MORL分野における初の理論的結果である。
-
累積推定バイアスを軽減するためのモメンタム機構を導入し、MOACの収束率と標本複雑性が目的関数の数に依存しないことを示した。これは従来の多目的最適化手法とは対照的である。
-
適切なモメンタム係数スケジューリングにより、MOACが環境からのサンプルを用いて個別の方策勾配の重みを初期化できることを示した。これは実用性と堅牢性を高める。
実験では、合成データと実世界データの両方で、MOACの有効性を確認した。特に実世界データの実験では、MOACが他の関連手法に比べて優れた性能を示した。
İstatistikler
多目的強化学習問題では、M個の報酬信号Ji(θ)を同時に最大化する必要がある。
平均報酬設定では、Ji(θ) = lim T→∞ 1/T Σt=1~T ri(st, at)である。
割引報酬設定では、Ji(θ) = lim T→∞ Σt=1~T (γi)t ri(st, at)である。
Alıntılar
"Reinforcement learning with multiple, potentially conflicting objectives is pervasive in real-world applications, while this problem remains theoretically under-explored."
"To date, although RL has found a large number of applications (e.g., healthcare, financial recommendation, ranking system, resources management and robotics), the standard RL formulation only considers a single reward optimization."
"However, as RL applications with increasingly more complex reward structures emerge, it has become apparent that the single-reward structure in the traditional RL framework is not rich enough to capture the needs of these complex RL applications, particularly those with multiple reward objectives."