Effiziente und kommunikationsarme vollständig dezentralisierte MARL-Politikbewertung durch einen neuen Ansatz: Lokale TD-Aktualisierung
Der Hauptbeitrag dieser Arbeit ist, dass wir die oberen Schranken für die Stichproben- und Kommunikationskomplexität des lokalen TD-Aktualisierungsansatzes in der kooperativen vollständig dezentralisierten MARL-Politikbewertung überwinden. Dadurch wird die Wirkung der lokalen TD-Aktualisierungsschritte in der konsensbasierten TD-Lernmethode für MARL-Politikbewertung mit durchschnittlicher Belohnung beleuchtet.