Der Artikel stellt eine Methode namens "Guided Data Augmentation" (GuDA) vor, die es ermöglicht, aus einer begrenzten Menge möglicherweise suboptimaler Daten große Mengen an hochwertigem, expertenähnlichem Datenmaterial zu generieren. Dies ist besonders wichtig für das Offline-Verstärkungslernen, da die Leistung und Generalisierungsfähigkeit von Offline-RL-Algorithmen stark von der Größe und Qualität des Datensatzes abhängt, der dem Lernagenten zur Verfügung gestellt wird.
GuDA ermöglicht es dem Nutzer, Regeln zu definieren, die beschreiben, wie Daten transformiert werden müssen, um Fortschritte bei der Aufgabenlösung zu repräsentieren. Anstatt eine Sequenz optimaler Aktionen demonstrieren zu müssen, muss der Nutzer lediglich charakterisieren, wann ein transformierter Trajektorienabschnitt Fortschritte in Richtung Aufgabenerfüllung darstellt. GuDA generiert dann automatisch Daten, die diesen Fortschritt zeigen.
Die Autoren evaluieren GuDA auf verschiedenen simulierten Navigations-, Fahr- und Fußballtasks sowie einer physischen Fußballaufgabe. GuDA ermöglicht es den Agenten, effektive Strategien zu erlernen, selbst wenn nur eine kleine Menge möglicherweise suboptimaler Daten zur Verfügung steht. Außerdem übertrifft GuDA deutlich Strategien, die Daten zufällig augmentieren.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Nicholas E. ... klokken arxiv.org 03-19-2024
https://arxiv.org/pdf/2310.18247.pdfDypere Spørsmål