Conceitos essenciais
Datenaugmentierung kann die Dateneffizienz von modellfreier Verstärkungslernung in Aufgaben mit spärlicher Belohnung deutlich verbessern, indem sie die Zustandsaktionsabdeckung erhöht und die Anzahl der Aktualisierungen pro generierter Transition reduziert.
Resumo
In dieser Studie untersuchen wir, wie verschiedene Aspekte der Datenaugmentierung (DA) die Dateneffizienz in modellfreier Verstärkungslernung beeinflussen. Wir konzentrieren uns auf Aufgaben mit spärlicher Belohnung und Datenaugmentierungsfunktionen, die die Dynamik des Umfelds nicht verändern.
Unsere Experimente zeigen, dass:
Eine Erhöhung der Zustandsaktionsabdeckung durch DA oft einen viel größeren Einfluss auf die Dateneffizienz hat als eine Erhöhung der Belohndichte.
Eine Verringerung des Verhältnisses von Aktualisierungen zu generierten Transitionen (Augmented Replay Ratio) die Dateneffizienz deutlich verbessert. Bestimmte Aufgaben können sogar nur dann gelöst werden, wenn dieses Verhältnis ausreichend klein ist.
Diese Erkenntnisse legen nahe, dass Praktiker bei der Wahl oder Entwicklung von DA-Strategien den Fokus eher auf die Erhöhung der Zustandsaktionsabdeckung als auf die Erhöhung der Belohndichte legen sollten. Außerdem ist es wichtig, das Verhältnis von Aktualisierungen zu generierten Transitionen sorgfältig abzustimmen, um die Leistung zu maximieren.
Estatísticas
Keine relevanten Statistiken oder Kennzahlen extrahiert.
Citações
Keine relevanten Zitate extrahiert.