Core Concepts
Durch die Verwendung von menschlich annotierten Salienz-Karten als zusätzliche Eingabe können visuelle Repräsentationen gelernt werden, die robuster und effizienter für die Lösung visueller Steuerungsaufgaben sind.
Abstract
Die Studie präsentiert einen Ansatz namens "Visual Saliency-Guided Reinforcement Learning" (ViSaRL), der menschlich annotierte Salienz-Karten nutzt, um visuelle Repräsentationen für robotische Steuerungsaufgaben zu lernen.
Der Ansatz besteht aus drei Komponenten:
- Ein Salienz-Prädiktor, der aus wenigen manuell annotierten Beispielen eine Salienz-Karte für beliebige Beobachtungen vorhersagen kann.
- Ein visueller Encoder, der sowohl RGB-Bilder als auch Salienz-Karten als Eingabe verwendet, um robuste visuelle Repräsentationen zu lernen.
- Eine Downstream-Steuerungspolitik, die diese Repräsentationen nutzt, um effizient und erfolgreich Manipulationsaufgaben in Simulationsumgebungen und auf einem realen Roboter zu lösen.
Die Experimente zeigen, dass ViSaRL die Leistung auf einer Reihe von Manipulationsaufgaben im Vergleich zu State-of-the-Art-Methoden deutlich verbessert, insbesondere in Bezug auf Stichprobeneffizienz und Robustheit gegenüber visuellen Störungen. Auf einem realen Roboter verdoppelt ViSaRL nahezu die Erfolgsquote im Vergleich zu Baselines ohne Salienz-Informationen.
Stats
Durch den Einsatz von Salienz-Informationen als zusätzlichen Eingabekanal für den CNN-Encoder konnte die durchschnittliche Erfolgsquote über vier Meta-World-Manipulationsaufgaben um 13% gesteigert werden.
Bei Verwendung eines Transformer-Encoders mit Salienz-Informationen in Vor- und Nachtraining verbesserte sich die durchschnittliche Rückgabe über vier DeepMind Control-Aufgaben um 256% im Vergleich zur Baseline ohne Salienz.
Auf dem realen Roboter-Aufgaben verdoppelte ViSaRL nahezu die Erfolgsquote im Vergleich zur Baseline ohne Salienz-Informationen.
Quotes
"Durch die Verwendung von Salienz-Informationen als zusätzlichen Eingabekanal für den CNN-Encoder konnte die durchschnittliche Erfolgsquote über vier Meta-World-Manipulationsaufgaben um 13% gesteigert werden."
"Bei Verwendung eines Transformer-Encoders mit Salienz-Informationen in Vor- und Nachtraining verbesserte sich die durchschnittliche Rückgabe über vier DeepMind Control-Aufgaben um 256% im Vergleich zur Baseline ohne Salienz."
"Auf dem realen Roboter-Aufgaben verdoppelte ViSaRL nahezu die Erfolgsquote im Vergleich zur Baseline ohne Salienz-Informationen."