この論文では、連続的な状態と行動空間を持つ非線形システムの強化学習に焦点を当てています。各エピソードで凸最適化を使用して最適なQ関数の2層ニューラルネットワーク近似を見つけるアルゴリズムが提案されました。このアプローチは、安定した非線形システムに対して収束し、トレーニングされたニューラルネットワークの収束パラメータが最適なパラメータに任意に近づけることができます。また、正則化パラメータや時間枠の変更により、最適パラメータに任意に近づくことが可能です。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Ather Gattam... às arxiv.org 03-01-2024
https://arxiv.org/pdf/2402.19212.pdfPerguntas Mais Profundas