Core Concepts
Wir präsentieren zwei Policy-Gradientenbasierte Methoden mit allgemeiner Parametrisierung im Kontext von Markov-Entscheidungsprozessen mit unendlichem Horizont und durchschnittlicher Belohnung. Der erste Ansatz verwendet Impliziten Gradiententransport zur Varianzreduktion und erreicht eine erwartete Regret-Schranke der Größenordnung ̃O(T^{3/5}). Der zweite Ansatz, der auf Hessian-basierten Techniken basiert, erreicht eine erwartete Regret-Schranke der Größenordnung ̃O(√T), was optimal in T ist.
Abstract
Der Artikel untersucht Reinforcement Learning-Probleme mit unendlichem Horizont und durchschnittlicher Belohnung, die in vielen Anwendungsgebieten wie Netzwerken, Transport und Epidemiekontrolle relevant sind. Modellbasierte Ansätze für dieses Setup wurden bereits ausführlich erforscht, haben aber den Nachteil, dass sie viel Speicherplatz für Modellparameter benötigen. Modellfreie Ansätze wurden bisher vor allem für tabellarische Setups untersucht, haben aber Schwierigkeiten, große Zustandsräume effizient zu handhaben.
Der Artikel präsentiert zwei neue Policy-Gradientenbasierte Algorithmen, die diese Herausforderungen adressieren:
Algorithmus 1 verwendet Impliziten Gradiententransport zur Varianzreduktion und erreicht eine Regret-Schranke von ̃O(T^{3/5}). Dieser Algorithmus benötigt keine Informationen zweiter Ordnung.
Algorithmus 2 nutzt einen Hessian-basierten Ansatz innerhalb des Policy-Gradientenrahmens und erreicht eine Regret-Schranke von ̃O(√T), was optimal in T ist. Dieser Algorithmus verwendet Hessian-Schätzungen, kann aber ähnlich effizient wie Hessian-freie Methoden implementiert werden.
Beide Algorithmen verbessern deutlich die bisherigen Regret-Schranken für parametrisierte Policies in diesem Setup, die bisher bei ̃O(T^{3/4}) lagen.
Stats
Die Regret-Schranke von Algorithmus 1 ist von der Größenordnung ̃O(T^{3/5}).
Die Regret-Schranke von Algorithmus 2 ist von der Größenordnung ̃O(√T), was optimal in T ist.
Quotes
Keine relevanten wörtlichen Zitate identifiziert.