Imitieren von kosteneingeschränkten Verhaltensweisen im Reinforcement Learning
Dieser Artikel stellt mehrere Methoden vor, um Expertendistributionen in Anwesenheit von Trajektorienkostenbeschränkungen nachzuahmen, indem (a) ein Lagrange-basierter Ansatz, (b) Meta-Gradienten zur Findung eines guten Kompromisses zwischen erwarteter Rendite und Minimierung der Verletzung der Beschränkung und (c) ein kostenüberschreitungsbasierter alternierender Gradient verwendet werden.