Die Arbeit befasst sich mit der Entwicklung und Analyse einer neuen Klasse von Policy Mirror Descent (PMD) Algorithmen, die eine Vorausschau auf mehrere Schritte in den Politikverbesserungsschritt integrieren.
Zunächst wird der Standardalgorithmus PMD und seine Verbindung zum Policy Iteration (PI) Algorithmus erläutert. Dann wird gezeigt, wie die Idee der Mehrschritt-Vorausschau, die bereits für PI untersucht wurde, auf PMD übertragen werden kann, um den h-PMD Algorithmus zu erhalten.
Für den exakten h-PMD Algorithmus, bei dem die Vorausschauwerte exakt berechnet werden können, wird eine γh-lineare Konvergenzrate des Suboptimalitätsfehlers bewiesen. Dies ist eine Verbesserung gegenüber der bisher bekannten Konvergenzrate für PMD.
Für den Fall, dass die Vorausschauwerte nur näherungsweise berechnet werden können, wird ein Monte-Carlo-basiertes Schätzverfahren vorgestellt. Für den daraus resultierenden inexakten h-PMD Algorithmus wird ebenfalls eine Konvergenzanalyse durchgeführt, die eine Verbesserung der Stichprobenkomplexität im Vergleich zu früheren Arbeiten zeigt.
Schließlich wird der h-PMD Algorithmus auf den Fall der Funktionsapproximation erweitert, um große Zustandsräume behandeln zu können. Auch hier wird eine Konvergenzanalyse präsentiert, die eine Unabhängigkeit von der Größe des Zustandsraums aufweist.
Die theoretischen Ergebnisse werden durch Simulationen auf einer Standardumgebung für verstärktes Lernen verifiziert, die den Vorteil der Mehrschritt-Vorausschau empirisch belegen.
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Kimon Protop... : arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14156.pdfDaha Derin Sorular