Core Concepts
Ein Graph-Reinforcement-Learning-Rahmenwerk wird entwickelt, um die Heuristiken oder Anreize für einen Bigraph-Matching-Ansatz zur Mehrroboter-Aufgabenzuweisung zu erlernen. Dabei wird ein Capsule-Attention-Modell verwendet, um die Gewichtung der Aufgaben-/Roboter-Paare (Kanten) im Bigraph zu erlernen.
Abstract
Der Artikel beschäftigt sich mit dem Problem der Mehrroboter-Aufgabenzuweisung (MRTA), bei dem mehrere Roboter verschiedene Aufgaben erfüllen müssen. Traditionelle Ansätze wie genetische Algorithmen, Auktionsverfahren und Bigraph-Matching-Methoden verwenden oft von Experten entworfene Heuristiken, um die Zuordnung von Aufgaben zu Robotern zu optimieren. Diese Heuristiken können jedoch schwierig zu entwerfen und anzupassen sein, wenn die Probleme zu komplex werden.
Um diese Herausforderung zu adressieren, entwickeln die Autoren einen Graph-Reinforcement-Learning-Ansatz namens BiG-CAM. Dieser lernt die Heuristiken oder Anreize für einen Bigraph-Matching-Ansatz zur MRTA-Lösung. Dazu wird ein Capsule-Attention-Modell verwendet, um die Gewichtung der Kanten im Bigraphen, der die Aufgaben-Roboter-Zuordnung darstellt, zu erlernen.
Das Capsule-Attention-Modell besteht aus zwei Teilen: Einem Graphen-Encoder, der die Zustände der Aufgaben und Roboter als Graphen repräsentiert, und einem Multi-Head-Attention-basierten Decoder, der die Gewichte der Bigraph-Kanten als Mittelwerte und Standardabweichungen von Lognormal-Verteilungen berechnet. Diese Gewichte werden dann für das Bigraph-Matching verwendet, um die Aufgaben-Roboter-Zuordnung zu optimieren.
Die Leistung des BiG-CAM-Ansatzes wird mit anderen Methoden wie dem ursprünglichen Bigraph-Matching-Ansatz mit von Experten entworfenen Heuristiken und einem rein reinforcement-lernbasierten Ansatz verglichen. Die Ergebnisse zeigen, dass BiG-CAM eine vergleichbare oder sogar leicht bessere Leistung als der Expertenheuristik-basierte Ansatz aufweist, bei gleichzeitig deutlich geringerer Varianz. Außerdem analysieren die Autoren, wie sich die erlernten Anreize im Laufe des Lernprozesses im Vergleich zu den Expertenheuristiken entwickeln.
Stats
Die Nachfrage für die Aufgaben ist eine ganze Zahl zwischen 1 und 10, die einer Gleichverteilung folgt.
Die Zeitfristen für die Aufgaben werden aus einer Gleichverteilung zwischen 165 und 550 Sekunden gezogen.
Quotes
"Kann diese Heuristik maschinell gelernt werden?"
"Können die erlernten Heuristiken die Leistung von manuell entworfenen Heuristiken erreichen oder sogar übertreffen, wenn es darum geht, über verschiedene Problemszenarien zu generalisieren?"