Core Concepts
Wir präsentieren einen neuartigen Transformer-basierten Ansatz, der sowohl zeitliche als auch agentenübergreifende Abhängigkeiten effizient erfassen kann, um zeitabhängige Multi-Agenten-Reinforcement-Learning-Probleme mit STL-Spezifikationen zu lösen.
Abstract
Der Artikel befasst sich mit der Lösung von zeitabhängigen Multi-Agenten-Reinforcement-Learning-Problemen unter Verwendung von Signal Temporal Logic (STL) Spezifikationen. Die Autoren identifizieren die Herausforderungen, die sich aus der Zeitabhängigkeit und der Skalierbarkeit mit zunehmender Agentenzahl ergeben.
Um diese Probleme zu adressieren, präsentieren die Autoren einen neuartigen Transformer-basierten Ansatz, den "Time-dependent Multi-agent Transformer" (TD-MAT). Dieser Ansatz ermöglicht es, sowohl zeitliche als auch agentenübergreifende Abhängigkeiten effizient zu erfassen und zu verarbeiten.
Der Kern der Methode ist, dass die Eingabebeobachtungen mit Positionsinformationen codiert werden, bevor sie dem Transformer-Modell zugeführt werden. Dies erlaubt es, die Eingaben in kleinere Häppchen aufzuteilen und die Modellgröße gering zu halten, während gleichzeitig die zeitlichen und agentenübergreifenden Abhängigkeiten erfasst werden können.
Das Transformer-Modell besteht aus drei Hauptkomponenten: einem Encoder, einem Wertfunktionsapproximator und einem Decoder. Der Encoder lernt eine kompakte Darstellung der Eingaben, die dann vom Wertfunktionsapproximator und Decoder genutzt wird, um die Aktionen für die Agenten zu generieren.
Die Autoren evaluieren ihren Ansatz in modifizierten Multi-Agenten-Umgebungen und zeigen, dass TD-MAT im Vergleich zu Baseline-Methoden deutlich bessere Ergebnisse bei der Erfüllung der STL-Spezifikationen erzielt. Statistische Analysen belegen die Überlegenheit des Verfahrens.
Stats
Die Zustandsraumgröße beträgt 18 pro Agent, was eine Gesamtbeobachtungsgröße von 54 ergibt.
Die Aktionen für alle Agenten sind diskret: "HOCH", "RUNTER", "LINKS", "RECHTS", "NICHTS".
Die Episodenlänge während des Trainings beträgt 25 Zeitschritte.
Das Modell wird über 10 Millionen Schritte trainiert, was 400.000 Episoden entspricht.
Das Training erfolgt mit 128 parallelen Rollouts pro Politikverbesserungsiteration.
Quotes
Keine relevanten Zitate identifiziert.