In dieser Arbeit stellen wir das Recurrent Action Transformer with Memory (RATE)-Modell vor, das einen rekurrenten Speichermechanismus nutzt, um die Leistung in Offline-Reinforcement-Learning-Aufgaben zu verbessern.
Das Modell verarbeitet die Trajektorie des Agenten als Sequenz von Zuständen, Aktionen und Belohnungen. Es fügt trainierbare Speichereinbettungen am Anfang und Ende der Sequenz ein, um wichtige Informationen aus vorherigen Kontexten zu bewahren.
Umfangreiche Experimente in Umgebungen, die Gedächtnis erfordern (ViZDoom-Two-Colors, T-Maze), zeigen, dass RATE die Leistung deutlich verbessert im Vergleich zu Modellen ohne Speicher. In klassischen Atari-Spielen und MuJoCo-Steuerungsaufgaben erzielt RATE ebenfalls bessere oder vergleichbare Ergebnisse.
Die Autoren untersuchen den Einfluss des Speichermechanismus eingehend und zeigen, dass die Modellentscheidungen tatsächlich von den gespeicherten Informationen profitieren. Die vorgeschlagene Methode ist vielversprechend für weitere Forschung in Bereichen mit langen Sequenzen, einschließlich robotischer Umgebungen, in denen das Training intelligenter Agenten auf vorgesammelten Daten ratsam ist.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Alexey Staro... في arxiv.org 03-28-2024
https://arxiv.org/pdf/2306.09459.pdfاستفسارات أعمق