แนวคิดหลัก
Tiefe Verstärkungslernsysteme für kontinuierliche Steuerung zeigen erhebliche Instabilität in ihrer Leistung über die Zeit. Diese Arbeit untersucht die Rückgabelandschaft, d.h. die Abbildung zwischen einer Richtlinie und einer Rückgabe, und zeigt, dass populäre Algorithmen verrauschte Nachbarschaften dieser Landschaft durchqueren, in denen ein einzelner Update der Richtlinienparameter zu einer breiten Palette von Rückgaben führt. Durch Betrachtung der Verteilung dieser Rückgaben kartieren wir die Landschaft, charakterisieren fehleranfällige Regionen des Richtlinienraums und enthüllen eine verborgene Dimension der Richtlinienqualität.
บทคัดย่อ
Die Studie untersucht die Rückgabelandschaft in kontinuierlichen Steuerungsaufgaben, wie sie von tiefen Verstärkungslernalgorithmen durchlaufen wird. Es wird gezeigt, dass diese Algorithmen verrauschte Nachbarschaften der Landschaft durchqueren, in denen ein einzelner Update der Richtlinienparameter zu einer breiten Palette von Rückgaben führt.
Durch eine Betrachtung der Verteilung dieser Rückgaben wird die Landschaft kartiert und charakterisiert. Es werden fehleranfällige Regionen des Richtlinienraums identifiziert und eine verborgene Dimension der Richtlinienqualität aufgedeckt.
Die Ergebnisse zeigen, dass unterschiedliche Nachbarschaften unterschiedliche Verteilungen der Post-Update-Rückgaben und Agentenverhaltensweisen entsprechen. Viele dieser Verteilungen sind langschweifig, wobei die Ursache plötzliche Ausfälle einer ansonsten erfolgreichen Richtlinie sind.
Durch Betrachtung globaler Pfade in der Landschaft wird gezeigt, dass Richtlinien aus demselben Lauf überraschenderweise durch lineare Pfade ohne Täler niedriger Leistung verbunden sind, selbst wenn sie durch Hunderttausende von Updates getrennt sind. Basierend auf diesen Erkenntnissen wird ein Verfahren entwickelt, das stabilere Richtlinien durch Navigieren in der Landschaft findet.
สถิติ
Die Rückgabe variiert oft erheblich innerhalb der Nähe eines gegebenen Richtlinienparameters θ, was eine "verrauschte Nachbarschaft" von θ bildet.
Eine einzelne Gradientenaktualisierung kann zu einer breiten Palette von Rückgaben führen, selbst in Umgebungen, in denen sowohl die Richtlinie als auch die Dynamik deterministisch sind.
Unterschiedliche Nachbarschaften entsprechen unterschiedlichen Verteilungen der Post-Update-Rückgaben und Agentenverhaltensweisen.
Viele dieser Verteilungen sind langschweifig, wobei die Ursache plötzliche Ausfälle einer ansonsten erfolgreichen Richtlinie sind.
Richtlinien aus demselben Lauf sind durch lineare Pfade ohne Täler niedriger Leistung verbunden, selbst wenn sie durch Hunderttausende von Updates getrennt sind.
คำพูด
"Tiefe Verstärkungslernsysteme für kontinuierliche Steuerung zeigen erhebliche Instabilität in ihrer Leistung über die Zeit."
"Die Rückgabe variiert oft erheblich innerhalb der Nähe eines gegebenen Richtlinienparameters θ, was eine 'verrauschte Nachbarschaft' von θ bildet."
"Unterschiedliche Nachbarschaften entsprechen unterschiedlichen Verteilungen der Post-Update-Rückgaben und Agentenverhaltensweisen."