Core Concepts
Die Stichprobenkomplexität zum Lernen einer ε-optimalen Politik in einem durchschnittlichen Belohnungs-MDP ist eO(SAH/ε^2), wobei H die Spanne der Bias-Funktion der optimalen Politik ist.
Abstract
Der Artikel untersucht die Stichprobenkomplexität zum Lernen einer ε-optimalen Politik in einem durchschnittlichen Belohnungs-Markov-Entscheidungsprozess (MDP) unter einem generativen Modell.
Kernpunkte:
Es wird eine Komplexitätsschranke von eO(SAH/ε^2) etabliert, wobei H die Spanne der Bias-Funktion der optimalen Politik ist. Dies ist das erste Ergebnis, das minimax-optimal (bis auf Logarithmusfaktoren) in allen Parametern S, A, H und ε ist.
Der Schlüssel ist eine Reduktion des durchschnittlichen Belohnungs-MDPs auf einen diskontierten MDP. Dafür werden verbesserte Schranken für diskontierte MDPs entwickelt, die zeigen, dass eO(SA/H/(1-γ)^2ε^2) Stichproben ausreichen, um eine ε-optimale Politik in schwach kommunizierenden MDPs unter dem Regime γ ≥ 1-1/H zu lernen.
Die Analyse entwickelt Schranken für bestimmte instanzabhängige Varianzparameter in Bezug auf den Spannungsparameter H, die enger sind als Schranken basierend auf der Mischzeit oder dem Durchmesser des MDPs.
Stats
Es gibt keine wichtigen Kennzahlen oder Zahlen im Artikel, die extrahiert werden müssen.
Quotes
Es gibt keine bemerkenswerten Zitate im Artikel, die extrahiert werden müssen.