本研究では、人間からのフィードバックに基づいてロボットの報酬関数を学習する際の課題である報酬過最適化の問題に取り組む。従来の手法では、人間からのフィードバックのみを考慮していたが、本手法では報酬関数の学習時に、エージェントの好みも考慮する新しい正則化手法を提案する。
具体的には、提案手法では、人間からのフィードバックに基づく報酬関数の学習目的関数に、エージェントの価値関数に基づく正則化項を追加する。これにより、報酬関数の学習時に、エージェントの好みも考慮されるようになり、報酬過最適化の問題が軽減される。
理論的な分析では、提案手法が二階層最適化問題の一階層近似として導出できることを示し、報酬過最適化を防ぐ仕組みを明らかにする。
実験では、DeepMind Control SuiteやMetaWorldのベンチマーク課題において、従来手法と比較して70%以上の効率改善を達成し、提案手法の有効性を示す。さらに、高次元の視覚環境でも良好な結果が得られることから、提案手法の汎用性も確認できる。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문