Core Concepts
Policy Gradienten konvergieren global in durchschnittlichen Belohnungs-Markow-Entscheidungsprozessen.
Stats
Unsere Analyse zeigt, dass die Policy Gradienten mit einer sublinearen Rate von O(1/T) konvergieren.
Quotes
"Unsere Analyse zeigt, dass die Policy Gradienten iterativ zur optimalen Politik konvergieren."
"Die Performancegrenzen für diskontierte Belohnungs-Markow-Entscheidungsprozesse wurden verbessert."