Core Concepts
報酬非依存の探索的軌跡を収集し、人間の選好フィードバックを活用して、未知の報酬関数を効率的に学習する。
Abstract
本研究では、報酬非依存の探索的軌跡を収集し、その後に人間の選好フィードバックを活用して未知の報酬関数を効率的に学習する新しい理論的枠組みを提案している。
具体的には以下の4つのステップから成る:
報酬非依存の方法で探索的な状態-行動軌跡のデータセットを収集する。
人間の専門家から収集した選好フィードバックを得る。
収集した軌跡データと選好フィードバックを用いて報酬関数をMLE(最尤推定)により学習する。
学習した報酬関数に基づいて最適な方策を見つける。
この枠組みにより、人間の選好フィードバックを収集する際の効率性が大幅に向上する。従来の手法では、報酬関数と遷移モデルの学習を同時に行う必要があったが、本手法では報酬関数の学習と遷移モデルの学習を分離できるため、人間の関与が必要な部分を最小限に抑えられる。
理論的な分析により、線形報酬パラメータ化と未知の遷移モデルを持つ環境において、提案手法は既存の理論的研究と比べて人間のフィードバックを大幅に削減できることが示された。さらに、行動ベースの選好比較フィードバックの設定においても、効率的なクエリアルゴリズムを提案している。
Stats
報酬の上限rmax以下の軌跡の累積報酬は存在する
特徴ベクトルφの2ノルムは上限Rを持つ
報酬パラメータθの2ノルムは上限Bを持つ
Quotes
報酬関数を適切に設計することは実用的な応用において課題となる
選好ベースの強化学習は、数値的な報酬信号ではなく人間の選好フィードバックを用いる枠組みである