Core Concepts
Unser Ansatz ermöglicht es Reinforcement-Learning-Agenten, mehrere Objekte effizient zu manipulieren, indem er eine strukturierte Repräsentation der Entitäten und ihrer Interaktionen nutzt.
Abstract
In dieser Arbeit präsentieren wir einen Ansatz für zielgesteuertes Reinforcement Learning zur Objektmanipulation aus Pixeln. Der Schlüssel zu unserem Verfahren ist die Fähigkeit, Ziele mit Abhängigkeiten zwischen den Objekten (z.B. Bewegen von Objekten in einer bestimmten Reihenfolge) zu handhaben.
Unser Ansatz besteht aus zwei Komponenten:
- Eine unüberwachte objektzentrische Bildrepräsentation (OCR), die Entitäten und ihre Attribute aus Bilddaten extrahiert.
- Eine Transformer-basierte Architektur für die Richtlinien- und Q-Funktions-Neuronalnetze, die wir Entity Interaction Transformer (EIT) nennen. Der EIT kann Beziehungen zwischen Ziel- und Zustandsentitäten sowie Entität-Entität-Interaktionen im aktuellen Zustand modellieren.
Zusammen können diese Komponenten mit Standard-RL-Algorithmen optimiert werden, um eine gegebene Belohnungsfunktion zu maximieren. Wir führen auch eine neuartige bildbasierte Belohnung ein, die auf der OCR und der Chamfer-Distanz basiert und das Lernen rein aus Pixeln ermöglicht.
Darüber hinaus untersuchen wir die Generalisierungsfähigkeit unseres Ansatzes. Ausgehend von einer formalen Definition der kompositionellen Generalisierung in RL zeigen wir, dass selbstaufmerksamkeitsbasierte Q-Wert-Funktionen eine grundlegende Fähigkeit zur Generalisierung haben. Empirisch zeigen wir, dass ein EIT, der auf bis zu 3 Objekten trainiert wurde, gut auf Aufgaben mit bis zu 6 Objekten abschneidet und in bestimmten Aufgaben sogar auf über 10 Objekte verallgemeinert.
Stats
Die durchschnittliche negative L2-Distanz zwischen jedem Würfel und seiner gewünschten Zielposition auf dem Tisch beträgt 0,014.
Die durchschnittliche negative L2-Distanz zwischen jedem T-förmigen Block und seiner gewünschten Zielausrichtung beträgt 0,022.
Quotes
"Unser Ansatz besteht aus zwei Komponenten: Eine unüberwachte objektzentrische Bildrepräsentation (OCR), die Entitäten und ihre Attribute aus Bilddaten extrahiert, und eine Transformer-basierte Architektur für die Richtlinien- und Q-Funktions-Neuronalnetze, die wir Entity Interaction Transformer (EIT) nennen."
"Wir zeigen, dass selbstaufmerksamkeitsbasierte Q-Wert-Funktionen eine grundlegende Fähigkeit zur Generalisierung haben, und demonstrieren empirisch, dass ein EIT, der auf bis zu 3 Objekten trainiert wurde, gut auf Aufgaben mit bis zu 6 Objekten abschneidet und in bestimmten Aufgaben sogar auf über 10 Objekte verallgemeinert."