Generalisierte Maximum-Entropie-Differenzielle Dynamische Programmierung zur Trajektorienoptimierung
Die vorgeschlagene Methode ist eine Verallgemeinerung der klassischen Maximum-Entropie-Differenziellen Dynamischen Programmierung, die auf der Tsallis-Entropie basiert. Dadurch wird eine stärkere Erkundung des Zustandsraums ermöglicht, indem die Steuerpolitik eine schwanzschwerere q-Gauß-Form annimmt. Außerdem wird die Erkundungsvarianz automatisch basierend auf der Wertfunktion der Trajektorie skaliert, was die Exploration weiter fördert.