In dieser Arbeit wird ein "State-Adversarial Markov Game" (SAMG) formuliert, um die Eigenschaften und Lösungskonzepte von Mehrfachagenten-Verstärkungslernen (MARL) unter Zustandsunsicherheiten zu untersuchen. Die Analyse zeigt, dass die üblichen Lösungskonzepte der optimal Agentenstrategie und des robusten Nash-Gleichgewichts nicht immer existieren.
Um diese Schwierigkeit zu umgehen, wird ein neues Lösungskonzept, die "robuste Agentenstrategie", eingeführt, bei dem die Agenten darauf abzielen, den schlimmstmöglichen erwarteten Zustandswert zu maximieren. Es wird bewiesen, dass eine robuste Agentenstrategie für endliche Zustands- und Aktionsräume existiert. Außerdem wird ein "Robust Multi-Agent Adversarial Actor-Critic" (RMA3C)-Algorithmus vorgeschlagen, um robuste Strategien für MARL-Agenten unter Zustandsunsicherheiten zu lernen. Die Experimente zeigen, dass der RMA3C-Algorithmus die Robustheit der Agentenpolitiken im Vergleich zu bestehenden MARL-Methoden verbessert.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Songyang Han... um arxiv.org 04-15-2024
https://arxiv.org/pdf/2212.02705.pdfTiefere Fragen