Główne pojęcia
Die statistische Effizienz von Distributional Temporal Difference-Algorithmen wird analysiert.
Streszczenie
Das Papier untersucht die statistische Effizienz von Distributional Temporal Difference (DTD) Algorithmen, insbesondere von Non-parametric DTD (NTD) und Categorical DTD (CTD). Es werden Konvergenzraten für die Schätzung der Rückkehrverteilungen in verschiedenen Metriken gezeigt. Die Analyse umfasst theoretische Ergebnisse, Beweisstruktur und mathematische Methoden.
Abstract
- Distributional Reinforcement Learning (DRL) modelliert die vollständige Verteilung der Rückkehr.
- Distributional TD-Algorithmen lösen das Problem der Verteilungspolitikbewertung.
Einleitung
- Anwendungen wie Gesundheitswesen erfordern Berücksichtigung von Risiko und Unsicherheiten.
- Asymptotische Konvergenz von CTD und QTD in tabellarischen Fällen.
Hintergrund
- Markov-Entscheidungsprozesse und die Bellman-Gleichung.
- Distributional Bellman-Gleichung und -Operator.
Analyse
- Nicht-asymptotische Konvergenzraten von NTD und CTD in verschiedenen Metriken.
- Sample-Komplexität und Iterationsgrenzen für ε-optimale Schätzer.
Statystyki
In der Fallstudie wird gezeigt, dass eO(1/ε²(1-γ)²p+2) Iterationen für NTD und eO(1/ε²(1-γ)⁴) Iterationen für CTD erforderlich sind.
Cytaty
"Distributional Reinforcement Learning adressiert Risiko und Unsicherheiten."
"NTD und CTD bieten praktikable Parametrisierungen für Rückkehrverteilungen."