この論文では、連続的な状態と行動空間を持つ非線形システムの強化学習に焦点を当てています。各エピソードで凸最適化を使用して最適なQ関数の2層ニューラルネットワーク近似を見つけるアルゴリズムが提案されました。このアプローチは、安定した非線形システムに対して収束し、トレーニングされたニューラルネットワークの収束パラメータが最適なパラメータに任意に近づけることができます。また、正則化パラメータや時間枠の変更により、最適パラメータに任意に近づくことが可能です。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Ather Gattam... о arxiv.org 03-01-2024
https://arxiv.org/pdf/2402.19212.pdfГлибші Запити