In dieser Studie untersuchen wir, wie verschiedene Aspekte der Datenaugmentierung (DA) die Dateneffizienz in modellfreier Verstärkungslernung beeinflussen. Wir konzentrieren uns auf Aufgaben mit spärlicher Belohnung und Datenaugmentierungsfunktionen, die die Dynamik des Umfelds nicht verändern.
Unsere Experimente zeigen, dass:
Diese Erkenntnisse legen nahe, dass Praktiker bei der Wahl oder Entwicklung von DA-Strategien den Fokus eher auf die Erhöhung der Zustandsaktionsabdeckung als auf die Erhöhung der Belohndichte legen sollten. Außerdem ist es wichtig, das Verhältnis von Aktualisierungen zu generierten Transitionen sorgfältig abzustimmen, um die Leistung zu maximieren.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Nicholas E. ... lúc arxiv.org 03-19-2024
https://arxiv.org/pdf/2310.17786.pdfYêu cầu sâu hơn