Effizienter Algorithmus zur Konvergenz eines modellfreien, entropie-regularisierten inversen Reinforcement-Lernens
Der Algorithmus konvergiert nachweislich zu einer Belohnung, für die der Experte nahezu optimal ist, und zu einer Richtlinienpolitik, die der Expertenpolitik nahekommt.