Core Concepts
Ein neuartiges MARL-Framework namens SHPPO, das Heterogenität in parameter-geteilte PPO-basierte MARL-Netzwerke integriert, um sowohl inter-individuelle als auch zeitliche Heterogenität zu erreichen und gleichzeitig eine skalierbare Zusammenarbeit zu ermöglichen.
Abstract
Der Artikel präsentiert einen neuartigen Ansatz für Multi-Agenten-Reinforcement-Learning (MARL), der als Scalable and Heterogeneous Proximal Policy Optimization (SHPPO) bezeichnet wird. SHPPO zielt darauf ab, sowohl inter-individuelle als auch zeitliche Heterogenität in parameter-geteilte MARL-Architekturen zu integrieren, um eine skalierbare Zusammenarbeit zwischen Agenten zu ermöglichen.
Der Ansatz umfasst zwei Hauptkomponenten:
Skalierbare Latent-Lernung: Ein Latent-Netzwerk lernt adaptiv niedrigdimensionale latente Variablen, um die Strategiemuster für jeden Agenten darzustellen. Diese latenten Variablen werden dann verwendet, um die Parameter einer heterogenen Schicht im Aktornetzwerk zu generieren.
Heterogene Schicht-Design: Die heterogene Schicht ist eine lineare Schicht im Aktornetzwerk, deren Parameter spezifisch für jeden Agenten generiert werden, basierend auf dessen gelernter latenter Variablen. Dadurch können die Agenten unterschiedliche Entscheidungsstrategien entwickeln, obwohl die meisten Netzwerkparameter geteilt sind.
Durch umfangreiche Experimente in den MARL-Umgebungen Starcraft Multi-Agent Challenge (SMAC) und Google Research Football (GRF) zeigt SHPPO eine überlegene Leistung gegenüber Basislinien wie MAPPO und HAPPO, insbesondere bei der Übertragung auf Szenarien mit unterschiedlichen Agentenpopulationen. Die Visualisierung der gelernten latenten Räume verdeutlicht, wie die Heterogenität die Teamleistung verbessert.
Stats
Die Agenten können unterschiedliche Strategien entwickeln, um besser zusammenzuarbeiten.
SHPPO zeigt eine höhere Gewinnrate als die Basislinien MAPPO und HAPPO auf den ursprünglichen und skalierenden Aufgaben von SMAC und GRF.
SHPPO kann die gelernten Strategiemuster auf neue Szenarien mit unterschiedlichen Agentenzahlen übertragen, ohne weitere Trainingsschritte.
Quotes
"Ein neuartiges MARL-Framework namens SHPPO, das Heterogenität in parameter-geteilte PPO-basierte MARL-Netzwerke integriert, um sowohl inter-individuelle als auch zeitliche Heterogenität zu erreichen und gleichzeitig eine skalierbare Zusammenarbeit zu ermöglichen."
"Durch umfangreiche Experimente in den MARL-Umgebungen Starcraft Multi-Agent Challenge (SMAC) und Google Research Football (GRF) zeigt SHPPO eine überlegene Leistung gegenüber Basislinien wie MAPPO und HAPPO, insbesondere bei der Übertragung auf Szenarien mit unterschiedlichen Agentenpopulationen."