Beschleunigung der Politikoptimierung durch extremumsuchende Aktionsauswahl
Wir schlagen eine neue Methode der extremumsuchenden Aktionsauswahl (ESA) vor, um die Qualität der Aktionsproben zu verbessern und so die Lerneffizienz in der modellfreien Verstärkungslernung für kontinuierliche Steuerungsprobleme zu erhöhen.