Core Concepts
Dieser Artikel stellt mehrere Methoden vor, um Expertendistributionen in Anwesenheit von Trajektorienkostenbeschränkungen nachzuahmen, indem (a) ein Lagrange-basierter Ansatz, (b) Meta-Gradienten zur Findung eines guten Kompromisses zwischen erwarteter Rendite und Minimierung der Verletzung der Beschränkung und (c) ein kostenüberschreitungsbasierter alternierender Gradient verwendet werden.
Abstract
Der Artikel befasst sich mit dem Problem des Imitationslernens in kosteneingeschränkten Umgebungen. Traditionelle Imitationslernen-Ansätze konzentrieren sich auf das Nachahmen von Expertendemonstrationen in uneingeschränkten Umgebungen, vernachlässigen aber oft Kostenbeschränkungen, die in vielen realen Anwendungen eine wichtige Rolle spielen.
Der Artikel führt drei Methoden ein, um das Problem des kosteneingeschränkten Imitationslernens anzugehen:
Lagrange-basierter Ansatz: Verwendet einen Lagrange-Multiplikator, um Kosten- und Belohnungsoptimierung auszubalancieren.
Meta-Gradienten-Ansatz: Optimiert die Lagrange-Multiplikatoren, um einen besseren Kompromiss zwischen Rendite und Kosteneinhaltung zu finden.
Kostenüberschreitungsbasierter alternierender Gradient: Führt unterschiedliche Gradientenaktualisierungen durch, je nachdem ob die aktuelle Lösung zulässig ist oder nicht.
Die Autoren zeigen, dass diese Ansätze im Vergleich zu bestehenden Imitationslernen-Methoden, die Kostenbeschränkungen nicht berücksichtigen, deutlich bessere Ergebnisse in Bezug auf Rendite und Kosteneinhaltung erzielen.
Stats
Die durchschnittliche Episodenkostenüberschreitung der Expertentrajektorien beträgt 51,1 ± 3,36 für PointGoal1, 93,5 ± 7,8 für PointButton1, 45,2 ± 6,35 für CarGoal1, 196,6 ± 25,44 für CarButton1, 57,9 ± 9,46 für DoggoGoal1 und 181,7 ± 15,48 für DoggoButton1.
Quotes
"In Szenarien, in denen der Entscheidungsprozess sowohl von einem Belohnungsmodell als auch von einem Kostenbeschränkungsmodell beeinflusst wird, wird die Umsetzung des Imitationslernens deutlich komplexer."
"Unser Hauptbeitrag ist die Formulierung des Problems des kosteneingeschränkten Imitationslernens und die Bereitstellung von drei Methoden, um dieses Problem anzugehen."