Die Autoren präsentieren einen neuen Ansatz für sicheres Verstärkungslernen, der darauf abzielt, die Verhaltensweisen "guter" Trajektorien nachzuahmen und "schlechte" Trajektorien zu vermeiden. Im Gegensatz zu bisherigen Ansätzen, die sich auf die Schätzung von Kostenfunktionen konzentrieren, verfolgt dieser Ansatz einen inkrementellen Lernprozess, bei dem die Menge der guten und schlechten Trajektorien während des Trainings aktualisiert wird.
Der Kern des Ansatzes besteht darin, eine Imitationslernen-basierte Methode zu entwickeln, die einerseits die Wahrscheinlichkeit für "gute" Trajektorien erhöht und andererseits die Wahrscheinlichkeit für "schlechte" Trajektorien reduziert. Dazu werden zwei Diskriminatoren verwendet, um die Differenz zwischen der Besuchsverteilung der Lernpolitik und den Besuchsverteilungen der guten bzw. schlechten Trajektorien zu maximieren.
Die Autoren zeigen theoretisch, dass dieser Ansatz zu einer Verbesserung der Politikleistung führt, ohne die Kostenschätzung explizit berücksichtigen zu müssen. In umfangreichen Experimenten auf verschiedenen Benchmark-Aufgaben demonstrieren sie, dass ihr Ansatz die Leistung bisheriger Methoden für sicheres Verstärkungslernen übertrifft.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor