In dieser Studie untersuchen wir, wie verschiedene Aspekte der Datenaugmentierung (DA) die Dateneffizienz in modellfreier Verstärkungslernung beeinflussen. Wir konzentrieren uns auf Aufgaben mit spärlicher Belohnung und Datenaugmentierungsfunktionen, die die Dynamik des Umfelds nicht verändern.
Unsere Experimente zeigen, dass:
Diese Erkenntnisse legen nahe, dass Praktiker bei der Wahl oder Entwicklung von DA-Strategien den Fokus eher auf die Erhöhung der Zustandsaktionsabdeckung als auf die Erhöhung der Belohndichte legen sollten. Außerdem ist es wichtig, das Verhältnis von Aktualisierungen zu generierten Transitionen sorgfältig abzustimmen, um die Leistung zu maximieren.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Nicholas E. ... pada arxiv.org 03-19-2024
https://arxiv.org/pdf/2310.17786.pdfPertanyaan yang Lebih Dalam