Effiziente Verarbeitung und Analyse von Inhalten mit Hilfe von Policy Mirror Descent mit Vorausschau
Der Kern dieser Arbeit ist die Einführung einer neuen Klasse von Policy Mirror Descent (PMD) Algorithmen, die eine Vorausschau auf mehrere Schritte in den Politikverbesserungsschritt integrieren. Diese h-PMD Algorithmen zeigen eine schnellere dimensionsunabhängige γh-lineare Konvergenzrate im Vergleich zu herkömmlichen PMD Algorithmen.