Core Concepts
PbRLのサンプル効率性を向上させるために、ダイナミクス認識リワード関数が重要であることを示す。
Abstract
人間のフィードバックを通じてロボットの行動を人間の好みに合わせるために、ダイナミクス認識リワード関数がPbRLのサンプル効率性を向上させることが示されました。このアプローチは、異なるタスクや観測方法で一貫して高いパフォーマンスを発揮しました。REEDメソッドは、特にフィードバックが限られている場合や雑音がある場合に優れた結果を示しました。また、他のサンプル効率性向上手法と比較しても最も一貫して大きなパフォーマンス向上を達成しました。
Stats
50個の好みラベルでquadruped-walk、walker-walk、cheetah-runでは500個の好みラベルと同等のパフォーマンスを達成。
地面事実報酬ポリシー性能の83%および66%回復。
REED報酬関数は既存手法よりも優れた最終ポリシー性能を提供。