Instabilität und Rauschen in der Rückgabelandschaft kontinuierlicher Steuerung
Tiefe Verstärkungslernsysteme für kontinuierliche Steuerung zeigen erhebliche Instabilität in ihrer Leistung über die Zeit. Diese Arbeit untersucht die Rückgabelandschaft, d.h. die Abbildung zwischen einer Richtlinie und einer Rückgabe, und zeigt, dass populäre Algorithmen verrauschte Nachbarschaften dieser Landschaft durchqueren, in denen ein einzelner Update der Richtlinienparameter zu einer breiten Palette von Rückgaben führt. Durch Betrachtung der Verteilung dieser Rückgaben kartieren wir die Landschaft, charakterisieren fehleranfällige Regionen des Richtlinienraums und enthüllen eine verborgene Dimension der Richtlinienqualität.