Effiziente Identifizierung von Richtungen hoher Krümmung in Richtliniengradienten für verbesserte Optimierung in der Verstärkungslernung
Es existieren Richtungen im Parameterraum, die eine deutlich höhere Krümmung in der Verlustfunktion aufweisen als andere Richtungen. Die Gradienten der Akteur- und Kritikernetzwerke von PPO und SAC liegen zu einem großen Teil in dem von diesen Richtungen aufgespannten Unterraum, der sich auch über den Trainingsverlauf hinweg relativ stabil verhält.