強化学習(RL)は、大規模な状態空間を持つ複雑な現実世界の課題に進化してきました。トレーニング時間が制約となる中、報酬形成は人気のある解決策ですが、既存の方法はしばしば価値関数に依存し、拡張性の問題に直面しています。本論文では、バリア関数に着想を得た安全志向の報酬形成フレームワークを提案しました。このフレームワークはさまざまな環境やタスクで実装が容易であり、シンプルさを提供します。提案された報酬形成式の効果を評価するために、CartPole、Ant、Humanoid環境でシミュレーション実験を行いました。また、Go1四足ロボットへの実世界展開も行いました。結果は、当社の手法が収束速度を1.4〜2.8倍高速化し、バニラ報酬と比較して50〜60%低い作用努力であることを示しています。Go1ロボットへのsim-to-real実験では、当社の報酬フレームワークによりボットの制御とダイナミクスが向上したことが示されています。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések