Der Artikel befasst sich mit dem Offline-zu-Online-Reinforcement-Learning (OtO RL), bei dem ein Agenten-Modell zunächst offline mit einem statischen Datensatz trainiert und dann online mit einer begrenzten Anzahl von Umgebungsinteraktionen feinabgestimmt wird.
Der Autor argumentiert, dass der OtO-Ansatz als Explorationsproblem betrachtet werden sollte, da der Agent sorgfältig auswählen muss, welche Zustands-Aktions-Paare er während der Online-Feinabstimmung sammelt. Dies steht im Gegensatz zu früheren Arbeiten im OtO-RL-Bereich, die sich darauf konzentriert haben, Verzerrungen zu korrigieren, die durch die Beschränkungsmechanismen bestehender Offline-RL-Algorithmen eingeführt werden.
Der Artikel untersucht zunächst die Kompatibilität gängiger Online-RL-Explorationsmethoden wie intrinsische Motivation und Upper Confidence Bound (UCB) mit dem OtO-Setting. Es wird festgestellt, dass intrinsische Belohnungen zu Instabilitäten bei der Initialisierung aus dem Offline-Training führen können und UCB-Methoden myopisch sind und es unklar ist, welche gelernten Komponente für die Aktionsauswahl verwendet werden sollten.
Daraufhin stellt der Autor den PTGOOD-Algorithmus vor, der eine nicht-myopische Planungsprozedur verwendet, um Exploration in Bereichen des Zustands-Aktions-Raums zu fördern, die unwahrscheinlich von der Verhaltenspolitik besucht werden, ohne die Belohnungsfunktion zu verändern. PTGOOD schätzt zunächst die Besetzungsverteilung der Verhaltenspolitik mithilfe des Conditional Entropy Bottleneck und verwendet diese, um Übergänge zu identifizieren, die außerhalb der Verteilung der Offline-Daten liegen.
Die Experimente in verschiedenen kontinuierlichen Steuerungsaufgaben zeigen, dass PTGOOD konsistent und signifikant bessere Ergebnisse als die Baseline-Methoden erzielt und suboptimale Politikkonvergenz vermeidet, die bei vielen OtO-Methoden auftritt. PTGOOD findet oft die optimale Politik in einfacheren Umgebungen in weniger als 10.000 Online-Schritten und in komplexeren Aufgaben in weniger als 50.000 Schritten, selbst wenn die Verhaltenspolitik sehr suboptimal war.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Trevor McInr... lúc arxiv.org 03-28-2024
https://arxiv.org/pdf/2310.05723.pdfYêu cầu sâu hơn