Core Concepts
Globale Konvergenz von Policy Gradient Methoden für Markov-Potentialspiele mit durchschnittlicher Belohnung.
Abstract
Studie über Markov-Potentialspiele unter dem Kriterium der durchschnittlichen Belohnung. Analyse von Algorithmen, Konvergenz und Komplexität.
Untersuchung von Gradientenmethoden für durchschnittliche Belohnung.
Analyse von Algorithmen: Policy Gradient, Proximal-Q, Natural Policy Gradient.
Konvergenz zu Nash-Gleichgewicht.
Zeitkomplexität und Sample-Komplexität.
Experimente zur Konvergenz und Leistungsfähigkeit der Algorithmen.
Stats
Wir studieren Markov-Potentialspiele unter dem Kriterium der durchschnittlichen Belohnung.
Wir analysieren Algorithmen wie Policy Gradient, Proximal-Q und Natural Policy Gradient.
Quotes
"Wir studieren Markov-Potentialspiele unter dem Kriterium der durchschnittlichen Belohnung."