核心概念
非線形システムの強化学習において、凸最適化を使用して最適Q関数の近似を行うアルゴリズムが収束することが示されました。
要約
この論文では、連続的な状態と行動空間を持つ非線形システムの強化学習に焦点を当てています。各エピソードで凸最適化を使用して最適なQ関数の2層ニューラルネットワーク近似を見つけるアルゴリズムが提案されました。このアプローチは、安定した非線形システムに対して収束し、トレーニングされたニューラルネットワークの収束パラメータが最適なパラメータに任意に近づけることができます。また、正則化パラメータや時間枠の変更により、最適パラメータに任意に近づくことが可能です。
統計
正則化パラメータ ρ = 10^-4
時間枠 T = 5
引用
"Most of the recent practical progress is related to Markov Decision Processes (MDPs) with discrete state and/or action spaces."
"Training a convex Q-function is a great way to find a controller that is near optimal."
"We show that as the number of episodes goes to infinity, the algorithm converges to neural network parameters given by w."