核心概念
既存の作業から始め、制御リャプノフ関数(CLF)を導入することでサンプル複雑さを軽減し、強化学習パフォーマンスを向上させる方法を提案します。
摘要
強化学習は未知の環境で有能なエージェントを訓練するために効果的なデータ駆動手法です。
現在の最先端の強化学習手法は特定のタスクを学ぶために大量のデータが必要であり、実世界アプリケーションでデータ収集コストが高くなります。
本稿では、制御リャプノフ関数(CLF)を導入して報酬関数を再構築し、RLパフォーマンスを向上させる方法に焦点を当てています。
高次元システムでは一般的な方法がないため、システム分解技術を使用して高次元システム用に分解された制御リャプノフ関数(DCLF)を計算します。
DCLFは報酬形成に組み込まれ、低次元および高次元タスクでポリシー学習を加速することが示されています。
I. 導入
複雑な環境で自律ロボット用の制御ポリシーを学習することは多くの応用があります。
ロボットシステムは複雑な非線形ダイナミクスを持ち、常に完全情報が利用可能ではありません。
II. 関連作業
伝統的なRLアルゴリズムは高いサンプル複雑さに苦しんでおり、近年のアプローチはこの依存性を減らすことに焦点を当てています。
III. 予備知識
CLFやCLVFなど、安定性特性キャプチャー手法が紹介されています。
IV. 分解された制御リャプノフ値関数
高次元システム向けにDCLF計算手法が提案されました。各サブシステムごとにCLVFが計算され、それらの合計がDCLFとして使用されます。
V. 結果
Dubins CarやLunar Lander、Droneといった例題でDCLFが計算され、RLアルゴリズムに組み込まれました。我々のアプローチは通常よりも少ないデータ量でポリシー学習しました。