Effiziente Exploration und Optimierung der Trajektorien-orientierten Politik mit spärlichen Belohnungen
Eine neue Methode zur Förderung der effizienten Exploration und zuverlässigen Zuordnung von Belohnungen in Aufgaben mit spärlichen Belohnungen. Die zentrale Idee besteht darin, Offline-Demonstrationstrajektorien als Anleitung zu betrachten, anstatt sie lediglich nachzuahmen, um den Agenten dazu anzuregen, eine Verhaltenspolitik zu erwerben, deren Zustandsrandverteilung mit der von Offline-Expertendemonstrationen übereinstimmt.