Eine einfache Mischungsrichtlinienparametrisierung zur Verbesserung der Stichprobeneffizienz der CVaR-Optimierung
Eine einfache Mischungsrichtlinienparametrisierung kann die Stichprobeneffizienz von CVaR-Optimierungsalgorithmen verbessern, indem sie alle gesammelten Trajektorien für das Richtlinienupdate verwendet und das Problem des verschwindenden Gradienten bei flachen Verteilungsenden abmildert.