Wir präsentieren eine neuartige äquivariante Netzwerkarchitektur, die Umgebungssymmetrien effektiv nutzt, um die koordinationsfreie Zusammenarbeit zu verbessern. Unsere Methode fungiert auch als "Koordinationsverbesserungsoperator" für generische, vortrainierte Strategien und kann daher in Kombination mit jedem Selbstspiel-Algorithmus eingesetzt werden.
Ein neuartiger Ansatz für priorisiertes Heterogenes Liga-Reinforcement-Learning (PHLRL), der die Herausforderungen großer heterogener Multiagentensysteme effektiv adressiert, indem er robuste Kooperationsstrategien durch das Zusammenspiel verschiedener Agententypen und einen Ausgleich der Stichprobenungleichheit zwischen den Agententypen ermöglicht.
Der Hauptbeitrag dieser Arbeit ist, dass wir die oberen Schranken für die Stichproben- und Kommunikationskomplexität des lokalen TD-Aktualisierungsansatzes in der kooperativen vollständig dezentralisierten MARL-Politikbewertung überwinden. Dadurch wird die Wirkung der lokalen TD-Aktualisierungsschritte in der konsensbasierten TD-Lernmethode für MARL-Politikbewertung mit durchschnittlicher Belohnung beleuchtet.
In dieser Arbeit wird ein Reinforcement-Learning-Verfahren entwickelt, das nachweislich ein Nash-Gleichgewicht in kooperativ-wettbewerblichen Spielen erreicht, indem eine Mean-Field-Approximation verwendet wird.