Core Concepts
Durch die Nutzung von kontextbewussten Objekteinbettungen und abstrakten temporalen logischen Aufgabenrepräsentationen können nützliche Hilfstasks generiert werden, die ähnliche zugrunde liegende Explorationsanforderungen wie eine gegebene Zielaufgabe aufweisen. Diese generierten Hilfstasks können dann effizient durch gerichtete Exploration und Off-Policy-Lernen erlernt werden.
Abstract
Der Artikel präsentiert einen Ansatz, um Agenten in der Lage zu versetzen, automatisch ausdrucksstarke, zeitlich erweiterte Hilfstasks zu generieren, die die gerichtete Erfahrung eines Einzelaufgaben-Curriculums maximal nutzen können.
Zunächst wird eine Methode vorgestellt, um kontextbewusste Objekteinbettungen unter Verwendung großer Sprachmodelle zu erzeugen. Diese Einbettungen werden dann genutzt, um abstrakte Aufgabenvorlagen zu konstruieren, indem Objektpropositionen in einer gegebenen temporalen logischen Aufgabenspezifikation ersetzt werden.
Aus diesen abstrakten Aufgabenvorlagen werden dann neue Hilfstasks generiert, indem für jede Objektproposition ähnliche Objekte aus der Umgebung ausgewählt werden. Dabei wird ein Ansatz verwendet, der einen Ausgleich zwischen hoch korrelierten Objekten und relevanten, aber noch nicht gesehenen Objekten herstellt.
Schließlich wird gezeigt, wie diese generierten Hilfstasks durch Gegenhypothesen-Überlegungen und Off-Policy-Lernen effizient erlernt werden können, während gleichzeitig die Zielaufgabe erlernt wird. Die Ergebnisse zeigen, dass die von TaskExplore generierten Hilfstasks die gerichtete Explorationserfahrung besser nutzen können als zufällig generierte Aufgaben.
Stats
Keine relevanten Metriken oder Zahlen im Artikel enthalten.
Quotes
Keine markanten Zitate im Artikel enthalten.