Core Concepts
プリミティブ情報に基づく好み学習を用いて報酬モデルを学習し、その報酬モデルを使って階層的な replay buffer の報酬を再ラベリングすることで、階層強化学習における非定常性の問題を解決する。また、プリミティブ情報に基づく正則化を行うことで、上位レベルの方策が下位レベルの方策に対して達成可能なサブゴールを生成するようにする。
Abstract
本研究では、PIPER (Primitive-Informed Preference-based Hierarchical Reinforcement Learning via Hindsight Relabeling) と呼ばれる新しいアプローチを提案している。PIPER は以下の特徴を持つ:
好み学習を用いて報酬モデルを学習し、その報酬モデルを使って階層的な replay buffer の報酬を再ラベリングすることで、階層強化学習における非定常性の問題を解決する。
人間による好み情報の取得が現実的ではないため、プリミティブ情報に基づく好み情報を生成する "Primitive-in-the-Loop (PiL)" アプローチを提案する。
疎報酬の問題に対処するため、ヒンドサイト再ラベリングを適用する。
上位レベルの方策が下位レベルの方策に対して達成可能なサブゴールを生成するよう、プリミティブ情報に基づく正則化を行う。
報酬モデルの学習の安定性を高めるため、ソフトターゲットネットワークを導入する。
これらの技術を組み合わせることで、PIPER は複雑な疎報酬タスクにおいて優れた性能を発揮し、ベースラインと比べて大幅な性能向上を示す。
Stats
環境内の状態 st と目標 gt の L2 距離が ε を超えた場合、報酬 rt = -1 を与える。
上位レベルの replay buffer には、状態 st、目標 g*、予測サブゴール gt、累積報酬 Pt+k−1
i=t
ri、次状態 st+k が記録される。
下位レベルの replay buffer には、状態 st、予測サブゴール gt、アクション at、報酬 rt、次状態 st+1 が記録される。
Quotes
"Since obtaining human feedback is typically impractical, we propose to replace the human-in-the-loop approach with our primitive-in-the-loop approach, which generates feedback using sparse rewards provided by the environment."
"To encourage our higher-level policies to predict subgoals achievable by lower-level policies, we propose a novel value-function regularization scheme that calibrates subgoal selection to the current lower-level policy's abilities."