Core Concepts
モデルフリーの強化学習手法には、学習したポリシーに行動制約を課す内在的なメカニズムがない。本研究では、価値ベースおよびアクター・クリティック型の強化学習手法に対する一般的な双対フレームワークを提案し、様々な種類の制約を自動的に扱うことができる。
Abstract
本論文では、強化学習における最適化問題の双対的な視点を提示している。モデルフリーの強化学習手法には、学習したポリシーに行動制約を課す内在的なメカニズムがない。そのため、特定の制約タイプにしか対応できない拡張手法が提案されてきた。
本研究では、価値ベースおよびアクター・クリティック型の強化学習手法に対する一般的な双対フレームワークを導出する。この双対定式化は、学習したポリシーに追加の制約を課す際に特に有用である。さらに、ポリシーの行動密度や状態遷移に関する制約を新たに導入することができる。
提案手法DualCRLでは、様々な組み合わせの制約を自動的に扱うことができる。実験結果から、本手法の有効性が示されており、システム設計者に対して豊富な制約ツールボックスを提供することができる。
Stats
強化学習タスクにおいて、手動で報酬関数を調整して望ましい挙動を得るのは非常に困難で、予期せぬ挙動を引き起こす可能性がある。
報酬関数を可能な限り単純に保ちつつ、ポリシーの挙動に追加の制約を課すことが実用的な方法である。
本研究では、双対定式化を利用して、様々な種類の制約を自動的に扱うことができる。
Quotes
"モデルフリーの強化学習手法には、学習したポリシーに行動制約を課す内在的なメカニズムがない。"
"本研究では、価値ベースおよびアクター・クリティック型の強化学習手法に対する一般的な双対フレームワークを導出する。"
"提案手法DualCRLでは、様々な組み合わせの制約を自動的に扱うことができる。"