核心概念
Durch Verbesserung der Kommunikationsfähigkeit und Nutzung von vorgeschlagenen Strategien zur Unterstützung der Inferenz erreicht EPH eine wettbewerbsfähige Leistung gegenüber state-of-the-art neuronalen MARL-MAPF-Lösern.
摘要
Der Artikel stellt EPH (Ensembling Prioritized Hybrid Policies) vor, eine neue Methode zur Lösung des Multi-Agenten-Pfadplanungsproblems (MAPF) mit Hilfe von Multi-Agenten-Reinforcement-Learning (MARL).
Zunächst wird ein verbesserter selektiver Kommunikationsblock vorgestellt, um reichhaltigere Informationen für eine bessere Koordination der Agenten innerhalb der Mehragetentenumgebung zu sammeln. Anschließend werden drei fortgeschrittene Inferenzstrategien eingeführt, um die Leistung in der Ausführungsphase zu verbessern:
- Hybridisierung der neuronalen Strategie mit Expertenleitfäden für die Navigation in konfliktfreien Zonen.
- Q-Wert-basierte Methoden für die priorisierte Lösung von Konflikten sowie Deadlock-Situationen.
- Eine robuste Ensemble-Methode, die die besten Lösungen aus mehreren möglichen Lösungen effizient sammeln kann.
Die empirische Auswertung zeigt, dass EPH eine wettbewerbsfähige Leistung gegenüber state-of-the-art neuronalen Methoden für MAPF erzielt.
統計資料
Die Lösung von MAPF-Problemen ist NP-schwer, da es sich um große kombinatorische Constraint-Satisfaction-Probleme handelt.
Klassische zentralisierte Heuristik-Lösungen haben Schwierigkeiten, mit einer hohen Anzahl von Agenten zu skalieren.
MARL-basierte Ansätze bieten eine andere Möglichkeit, das MAPF-Problem zu lösen, indem es als sequentielles Entscheidungsproblem behandelt wird.
引述
"Durch Verbesserung der Kommunikationsfähigkeit und Nutzung von vorgeschlagenen Strategien zur Unterstützung der Inferenz erreicht EPH eine wettbewerbsfähige Leistung gegenüber state-of-the-art neuronalen MARL-MAPF-Lösern."
"EPH übertrifft sowohl DHC als auch DCC in allen Fällen in Bezug auf die durchschnittliche Episodenlänge."
"In hochstrukturierten Umgebungen wie dem Warehouse-Szenario bietet EPH eine deutlich bessere Leistung als alle neuronalen Basislinien in Bezug auf beide Metriken, was die Praxistauglichkeit unserer Methode in Realweltanwendungen zeigt."