Die Studie untersucht die Stichprobenkomplexität zum Lernen einer ε-optimalen Politik in einem durchschnittlichen Belohnungs-MDP unter einem generativen Modell.
Für schwach kommunizierende MDPs wird eine Komplexitätsschranke von eO(SA H/ε^2) etabliert, wobei H die Spanne der Bias-Funktion der optimalen Politik und SA die Kardinalität des Zustands-Aktions-Raums sind. Dieses Ergebnis ist minimax-optimal (bis auf Logarithmusfaktoren) in allen Parametern S, A, H und ε und verbessert bestehende Arbeiten.
Für allgemeine (nicht-schwach-kommunizierende) durchschnittliche Belohnungs-MDPs wird ein neuer transienter Zeitparameter B eingeführt. Es wird eine Komplexitätsschranke von eO((SA (B+H))/ε^2) bewiesen und ein passender (bis auf Logarithmusfaktoren) minimax-unterer Schranke gezeigt.
Beide Ergebnisse basieren auf einer Reduktion des durchschnittlichen Belohnungs-MDPs auf einen diskontierten MDP, was im allgemeinen Fall neue Ideen erfordert. Zur Etablierung der Optimalität dieser Reduktion werden verbesserte Schranken für diskontierte MDPs entwickelt.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Matthew Zure... at arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11477.pdfDeeper Inquiries