Core Concepts
サブ最適データを擬似的に最小報酬としてラベル付けすることで、報酬モデルの事前学習を行い、ヒューマンフィードバックの効率を向上させる。
Abstract
本論文では、ヒューマンインザループ強化学習(HitL RL)の効率を向上させるためのアプローチとして、サブ最適データを活用するSub-optimal Data Pre-training (SDP)を提案している。
SDPは以下の2つのフェーズから構成される:
報酬モデルの事前学習フェーズ
サブ最適データを収集し、全てのトランジションに報酬0を擬似的にラベル付けする
この擬似ラベル付きデータを使って報酬モデルを事前学習する
エージェントの更新フェーズ
サブ最適データでエージェントの replay buffer を初期化する
エージェントを環境と相互作用させ、新しい行動を生成する
生成された新しい行動をreplay bufferとreward model datasetに追加する
これにより、報酬モデルは事前学習段階でサブ最適なトランジションに低い報酬を出力するように学習し、ヒューマンフィードバックの効率が向上する。
実験では、スカラーフィードバックとプリファレンスフィードバックの両方のHitL RLアルゴリズムにSDPを適用し、ベースラインと比較して優れた性能を示した。また、サブ最適データが異なるタスクから得られた場合でも、SDPが有効であることを示した。
Stats
低品質なデータを報酬0でラベル付けすることで、報酬モデルが低品質なトランジションに低い報酬を出力するように学習できる。
サブ最適データでエージェントの replay buffer を初期化することで、ヒューマンフィードバックの対象となる新しい行動が生成される。
Quotes
"To create useful reinforcement learning (RL) agents, step zero is to design a suitable reward function that captures the nuances of the task. However, reward engineering can be a difficult and time-consuming process."
"Instead, human-in-the-loop (HitL) RL allows agents to learn reward functions from human feedback. Despite recent successes, many of the HitL RL methods still require numerous human interactions to learn successful reward functions."