Policy Gradienten konvergieren global in durchschnittlichen Belohnungs-Markow-Entscheidungsprozessen.