本論文では、制約付き強化学習の理論的な枠組みを提案し、実世界のロボット応用に適用することを示す。制約条件を満たしながら最適な行動を学習するための安全な探索手法を開発する。
モデルフリーの強化学習手法には、学習したポリシーに行動制約を課す内在的なメカニズムがない。本研究では、価値ベースおよびアクター・クリティック型の強化学習手法に対する一般的な双対フレームワークを提案し、様々な種類の制約を自動的に扱うことができる。
提案するSLDACアルゴリズムは、非凸確率的制約条件と環境との相互作用コストが高いという課題に取り組む。アクターモジュールではCSSCA法を使用し、クリティックモジュールでは単一ループ設計と観測の再利用を行うことで、収束性を保証しつつ効率的に最適化を行う。
本稿では、時間論理制約を満たしながら報酬を最大化する強化学習のための新しいアプローチを提案する。このアプローチは、制約充足を優先する固定ポリシーと、報酬最大化を目指す学習ポリシーを適応的に切り替えることで、学習プロセス全体を通して高い確率で制約を満たしつつ、報酬も最大化する。