Datenaugmentierung kann die Dateneffizienz von modellfreier Verstärkungslernung in Aufgaben mit spärlicher Belohnung deutlich verbessern, indem sie die Zustandsaktionsabdeckung erhöht und die Anzahl der Aktualisierungen pro generierter Transition reduziert.


coremsg

wie-dynamik-invariante-datenaugmentierung-die-modellfreie-verstärkungslernung-verbessern-kann


Wie Dynamik-invariante Datenaugmentierung die modellfreie Verstärkungslernung verbessern kann