Core Concepts
Policy Gradienten konvergieren global in durchschnittlichen Belohnungs-Markow-Entscheidungsprozessen.
Abstract
Autoren und Institutionen
Navdeep Kumar, Technion - Israel Institute of Technology
Yashaswini Murthy, University of Illinois Urbana-Champaign
Itai Shufaro, Technion - Israel Institute of Technology
Kfir Y. Levy, Technion - Israel Institute of Technology
R. Srikant, University of Illinois Urbana-Champaign
Shie Mannor, Technion - Israel Institute of Technology, NVIDIA Research
Zusammenfassung
Erste Analyse zur globalen Konvergenz von Policy Gradienten in durchschnittlichen Belohnungs-Markow-Entscheidungsprozessen.
Konvergenz zu optimaler Politik mit sublinearer Rate.
Verbesserung der Leistungsgrenzen für diskontierte Belohnungs-Markow-Entscheidungsprozesse.
Simulationen zur empirischen Bewertung des durchschnittlichen Belohnungs-Policy-Gradienten-Algorithmus.
Inhaltsverzeichnis
Einleitung
Verwandte Arbeiten
Lokale Konvergenzeigenschaften von Policy Gradienten
Beiträge
Vorarbeiten
Hauptergebnisse
Erweiterung auf diskontierte Belohnungs-Markow-Entscheidungsprozesse
Simulationen
Stats
Unsere Analyse zeigt, dass die Policy Gradienten mit einer sublinearen Rate von O(1/T) konvergieren.
Quotes
"Unsere Analyse zeigt, dass die Policy Gradienten iterativ zur optimalen Politik konvergieren."
"Die Performancegrenzen für diskontierte Belohnungs-Markow-Entscheidungsprozesse wurden verbessert."