Core Concepts
Das vorgeschlagene GCMR-Framework integriert drei entscheidende Komponenten, um die Zusammenarbeit zwischen den Ebenen zu fördern: 1) Korrektur der Off-Policy-Erfahrungen durch modellbasierte Rollouts, 2) Gradientenstrafe mit einer vom Modell abgeleiteten Obergrenze und 3) einschrittiges rollout-basiertes Planen, um globale Aufgabeninformationen nach unten zu übermitteln.
Abstract
Die Studie präsentiert ein neuartiges zielgesteuertes hierarchisches Reinforcement-Learning-Framework namens "Guided Cooperation via Model-based Rollout" (GCMR), das darauf abzielt, die Zusammenarbeit zwischen den Ebenen zu fördern und so die Lerneffizienz zu verbessern.
Das GCMR-Framework besteht aus drei Hauptkomponenten:
Modellbasierte Rollout-basierte Off-Policy-Korrektur: Um den kumulativen Zustandsübergangsfehler in HIRO [38] zu mildern, schlagen die Autoren einen modellbasierten Rollout-Ansatz vor. Zusätzlich verwenden sie eine "soft goal-relabeling"-Technik, um die Korrektur robuster gegenüber Ausreißern zu machen.
Gradientenstrafe mit modellbasierter Obergrenze: Um die Verhaltensrichtlinie vor Störungen durch ungesehene Zwischenziele und Zustände zu schützen, wird die Gradientenstrafe des unteren Q-Funktions-Gradientens durch eine vom Modell abgeleitete Obergrenze begrenzt, was zu einer stabileren Verhaltensrichtlinie führt.
Einschrittiges rollout-basiertes Planen: Hier wird der Wert zukünftiger Zustände der unteren Ebene unter Verwendung der oberen Kritikfunktion geschätzt, um globale Aufgabeninformationen nach unten zu übermitteln und lokale Fallen zu vermeiden.
Die Autoren integrieren das GCMR-Framework in eine disentangelte Variante von HIGL, nämlich ACLG, und zeigen, dass dies zu einer stabileren und robusteren Politikverbesserung im Vergleich zu verschiedenen Baseline-Methoden und früheren State-of-the-Art-Algorithmen führt.
Stats
Die Umgebung Ant Maze (U-shape) hat eine Größe von 12 x 12.
Die Umgebung Large Ant Maze (U-shape) hat eine Größe von 24 x 24.
Quotes
Keine relevanten Zitate gefunden.