Core Concepts
Ein neuartiger Ansatz, der Agenten beim Lernen einer Reihe von Richtlinien unterstützt, um ein hohes Ziel basierend auf einer logischen Spezifikation zu erreichen, während die Anzahl der Umgebungsinteraktionen minimiert wird.
Abstract
Der Artikel präsentiert einen neuartigen Ansatz namens "Logical Specifications-guided Dynamic Task Sampling" (LSTS), der Agenten beim Lernen einer Reihe von Richtlinien unterstützt, um ein hohes Ziel basierend auf einer logischen Spezifikation zu erreichen, während die Anzahl der Umgebungsinteraktionen minimiert wird.
Im Gegensatz zu früheren Arbeiten setzt LSTS keine Informationen über die Umgebungsdynamik oder die Reward Machine voraus und wählt dynamisch vielversprechende Aufgaben aus, die zu erfolgreichen Zielrichtlinien führen. LSTS verwendet einen adaptiven Lehrer-Schüler-Lernansatz, bei dem der Lehrer-Agent seine hochrangige Richtlinie nutzt, um dem Schüler-Agenten aktiv eine Aufgabe zum Erforschen zuzuweisen. Der Schüler-Agent erforscht dann die Umgebung für wenige Interaktionen und aktualisiert gleichzeitig seine niedrigrangige RL-Richtlinie für die ausgewählte Aufgabe.
Die Ergebnisse zeigen, dass LSTS die Anzahl der Umgebungsinteraktionen im Vergleich zu state-of-the-art-Baselines um Größenordnungen reduziert, sowohl in einer teilweise beobachtbaren robotischen Aufgabe als auch in einer kontinuierlichen Steuerungsaufgabe zur Robotermanipulation.
Stats
Die Agenten benötigen (2,72 ± 0,31) × 106 Interaktionen, um eine Erfolgsrate von 0,96 ± 0,02 zu erreichen.
Die modifizierte Version LSTSct benötigt (2,45 ± 0,25) × 106 Interaktionen, um eine Erfolgsrate von 0,95 ± 0,01 zu erreichen.
Die Baseline-Methode DIRLc benötigt (4,06 ± 0,37) × 106 Interaktionen, um eine Erfolgsrate von 0,95 ± 0,03 zu erreichen.
Die Baseline-Methode DIRL benötigt (5,47 ± 0,40) × 106 Interaktionen, um eine Erfolgsrate von 0,94 ± 0,01 zu erreichen.
Quotes
"Im Gegensatz zu früheren Arbeiten setzt LSTS keine Informationen über die Umgebungsdynamik oder die Reward Machine voraus und wählt dynamisch vielversprechende Aufgaben aus, die zu erfolgreichen Zielrichtlinien führen."
"LSTS verwendet einen adaptiven Lehrer-Schüler-Lernansatz, bei dem der Lehrer-Agent seine hochrangige Richtlinie nutzt, um dem Schüler-Agenten aktiv eine Aufgabe zum Erforschen zuzuweisen."