Core Concepts
Durch die Einführung des Generalized Population-Based Training (GPBT) und des Pairwise Learning (PL) wird eine effiziente und dynamische Hyperparameter-Optimierung für Reinforcement Learning erreicht, die die Leistung traditioneller Ansätze wie Population-Based Training (PBT) und Bayesian-optimiertes PBT übertrifft.
Abstract
Der Artikel präsentiert einen neuartigen Ansatz zur Hyperparameter-Optimierung in Reinforcement Learning, der als Generalized Population-Based Training (GPBT) bezeichnet wird. GPBT baut auf den Grundprinzipien des Population-Based Training (PBT) auf, bietet aber eine höhere Flexibilität und Anpassungsfähigkeit.
Kernelemente des GPBT-Ansatzes sind:
Asynchrones, paralleles Training einer Population von Agenten mit zufällig initialisierten Gewichten und Hyperparametern
Regelmäßiges Pairing von Agenten zur Aktualisierung der Hyperparameter, wobei unterlegene Agenten die Gewichte überlegener Agenten übernehmen und ihre Hyperparameter mithilfe spezieller Lernmethoden anpassen
Integration des Pairwise Learning (PL)-Verfahrens, das sich an der Stochastischen Gradientenabstiegsoptimierung mit Momentum orientiert, um die Hyperparameter-Aktualisierung zu beschleunigen und zu stabilisieren
Die empirischen Evaluationen über eine Reihe von OpenAI Gym Benchmarks zeigen, dass der integrierte GPBT-PL-Ansatz die Leistung traditioneller PBT-Methoden und deren Bayesian-optimierte Variante konsistent übertrifft. Insbesondere zeichnet sich GPBT-PL durch eine höhere Anpassungsfähigkeit und Recheneffizienz aus.
Stats
Die Batch-Größe liegt im Bereich [1000, 60000].
Der GAE-Faktor λ liegt im Bereich [0,9, 1,0).
Der PPO-Clip-Faktor ϵ liegt im Bereich 0,99 und [0,95, 1,0).
Die Lernrate η liegt im Bereich [10^-5, 10^-3).
Der Diskontfaktor γ liegt bei 0,99 und im Bereich [0,95, 1,0).
Die SGD-Minibatch-Größe liegt bei 128 und im Bereich [16, 256].
Die Anzahl der SGD-Iterationen liegt bei 10 und im Bereich [5, 15].
Quotes
"Durch die Integration der Fähigkeiten von GPBT und PL verbessert unser Ansatz den traditionellen PBT-Ansatz deutlich in Bezug auf Anpassungsfähigkeit und Recheneffizienz."
"GPBT-PL lieferte konsistent vielversprechende Ergebnisse über kleine und große Populationen hinweg und erzielte beeindruckende Belohnungen auf anspruchsvollen Aufgaben wie Ant und Walker2D."