Wie Dynamik-invariante Datenaugmentierung die modellfreie Verstärkungslernung verbessern kann
Datenaugmentierung kann die Dateneffizienz von modellfreier Verstärkungslernung in Aufgaben mit spärlicher Belohnung deutlich verbessern, indem sie die Zustandsaktionsabdeckung erhöht und die Anzahl der Aktualisierungen pro generierter Transition reduziert.