本研究では、強化学習におけるポリシーアラインメントの問題を、上位レベルの報酬設計と下位レベルのポリシー最適化を含む統一的な二階層最適化フレームワーク(PARL)として定式化している。
上位レベルでは、ポリシーの評価に基づいて報酬パラメータを最適化し、下位レベルでは最適化された報酬に対してポリシーを最適化する。従来のアプローチでは、ポリシーから生成されるデータ分布と整合的な評価目的関数を考慮していなかったが、本研究のフレームワークではこの依存関係を明示的に考慮している。
具体的には、上位レベルの目的関数は、ポリシーの性能を評価する項と報酬パラメータの正則化項から構成される。下位レベルでは、与えられた報酬パラメータに対してポリシーを最適化する。
提案手法のアルゴリズムであるA-PARLは、この二階層最適化問題を効率的に解くことができ、理論的な収束保証も示されている。実験では、DeepMind control suiteやMetaWorldのロボット制御タスクにおいて、従来手法と比較して大幅な性能向上(最大63%のサンプル効率の改善)を示している。
翻譯成其他語言
從原文內容
arxiv.org
深入探究