Core Concepts
Die Verwendung eines konvexen Optimierungsansatzes in der tiefen Verstärkungslernung ermöglicht die Konvergenz zu optimalen neuronalen Netzwerkparametern.
Abstract
Einführung in die tiefe Verstärkungslernung
Konzept der optimalen Steuerung in nichtlinearen Systemen
Verwendung eines konvexen Optimierungsansatzes für die Konvergenz
Experimente und Ergebnisse zur Leistung des vorgeschlagenen Algorithmus
Beweis für die Konvergenz des Algorithmus
Schlussfolgerungen und zukünftige Anwendungen
Stats
Insgesamt 1000 Episoden für das Training
Regularisierungsparameter ρ = 10^-4
Zeitrahmen T = 5 für die Experimente
Quotes
"Unser Hauptbeitrag besteht in der Einführung von Algorithmus 1, bei dem wir episodisch konvexe Optimierung verwenden, um eine zweischichtige neuronale Netzwerkapproximation der optimalen Q-Funktion zu finden."
"Die Konvergenz des Algorithmus zu den optimalen neuronalen Netzwerkparametern wird durch den konvexen Optimierungsansatz garantiert."