In dieser Arbeit wird ein "State-Adversarial Markov Game" (SAMG) formuliert, um die Eigenschaften und Lösungskonzepte von Mehrfachagenten-Verstärkungslernen (MARL) unter Zustandsunsicherheiten zu untersuchen. Die Analyse zeigt, dass die üblichen Lösungskonzepte der optimal Agentenstrategie und des robusten Nash-Gleichgewichts nicht immer existieren.
Um diese Schwierigkeit zu umgehen, wird ein neues Lösungskonzept, die "robuste Agentenstrategie", eingeführt, bei dem die Agenten darauf abzielen, den schlimmstmöglichen erwarteten Zustandswert zu maximieren. Es wird bewiesen, dass eine robuste Agentenstrategie für endliche Zustands- und Aktionsräume existiert. Außerdem wird ein "Robust Multi-Agent Adversarial Actor-Critic" (RMA3C)-Algorithmus vorgeschlagen, um robuste Strategien für MARL-Agenten unter Zustandsunsicherheiten zu lernen. Die Experimente zeigen, dass der RMA3C-Algorithmus die Robustheit der Agentenpolitiken im Vergleich zu bestehenden MARL-Methoden verbessert.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询