Die Studie untersucht die Eigenschaften von Gradienten-Unterräumen in zwei populären Richtliniengradienten-Algorithmen, PPO und SAC, auf verschiedenen Simulationsaufgaben.
Zunächst zeigt die Analyse, dass es einige wenige Richtungen im Parameterraum gibt, die eine deutlich höhere Krümmung in der Verlustfunktion aufweisen als andere Richtungen. Dies deutet darauf hin, dass das Optimierungsproblem schlecht konditioniert ist.
Weiterhin wird gezeigt, dass die Gradienten der Akteur- und Kritikernetzwerke zu einem großen Teil in dem von den Richtungen hoher Krümmung aufgespannten Unterraum liegen. Dieser Unterraum bleibt auch über den Trainingsverlauf hinweg relativ stabil, was darauf hindeutet, dass Informationen über den Unterraum aus früheren Trainingsphasen für spätere Phasen wiederverwendet werden können.
Die Ergebnisse deuten darauf hin, dass die Ausnutzung der Eigenschaften von Gradienten-Unterräumen vielversprechende Möglichkeiten für effizientere Verstärkungslernung bietet, z.B. durch verbesserte Parameterraum-Exploration oder die Ermöglichung von Optimierungsverfahren zweiter Ordnung.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor