In dieser Studie untersuchen wir, wie verschiedene Aspekte der Datenaugmentierung (DA) die Dateneffizienz in modellfreier Verstärkungslernung beeinflussen. Wir konzentrieren uns auf Aufgaben mit spärlicher Belohnung und Datenaugmentierungsfunktionen, die die Dynamik des Umfelds nicht verändern.
Unsere Experimente zeigen, dass:
Diese Erkenntnisse legen nahe, dass Praktiker bei der Wahl oder Entwicklung von DA-Strategien den Fokus eher auf die Erhöhung der Zustandsaktionsabdeckung als auf die Erhöhung der Belohndichte legen sollten. Außerdem ist es wichtig, das Verhältnis von Aktualisierungen zu generierten Transitionen sorgfältig abzustimmen, um die Leistung zu maximieren.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések