Effiziente risikoempfindliche Gradientenverfahren für Richtlinien: Eine Analyse der Iterationskomplexität
Risikoempfindliche Verstärkungslernen-Algorithmen können eine geringere Iterationskomplexität aufweisen als ihre risikoneutralen Pendants, wenn der Risikoparameter sorgfältig gewählt wird.