In dieser Studie untersuchen wir, wie verschiedene Aspekte der Datenaugmentierung (DA) die Dateneffizienz in modellfreier Verstärkungslernung beeinflussen. Wir konzentrieren uns auf Aufgaben mit spärlicher Belohnung und Datenaugmentierungsfunktionen, die die Dynamik des Umfelds nicht verändern.
Unsere Experimente zeigen, dass:
Diese Erkenntnisse legen nahe, dass Praktiker bei der Wahl oder Entwicklung von DA-Strategien den Fokus eher auf die Erhöhung der Zustandsaktionsabdeckung als auf die Erhöhung der Belohndichte legen sollten. Außerdem ist es wichtig, das Verhältnis von Aktualisierungen zu generierten Transitionen sorgfältig abzustimmen, um die Leistung zu maximieren.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Nicholas E. ... klokken arxiv.org 03-19-2024
https://arxiv.org/pdf/2310.17786.pdfDypere Spørsmål