Der Artikel untersucht Strategiedynamiken in Normalformenspielen, bei denen die Spieler ihre Strategie nur dann wechseln, wenn sie nicht optimal spielen (zufriedenstellende Pfade). Es wird gezeigt, dass für jedes endliche Normalformenspiel und jede Ausgangsstrategie ein solcher zufriedenstellender Pfad existiert, der in einem Nashgleichgewicht endet.
Der Beweis konstruiert einen solchen Pfad, indem die Strategien der unzufriedenen Spieler so gewechselt werden, dass die Zahl der unzufriedenen Spieler in jedem Schritt wächst. Sobald alle Spieler unzufrieden sind, kann in einem Schritt ein Nashgleichgewicht erreicht werden.
Die Ergebnisse haben Implikationen für die Entwicklung von Lernalgorithmen in der Multiagenten-Reinforcement-Lerntheorie, da sie zeigen, dass unkoordiniertes, verteiltes Zufallssuchen effektiv sein kann, um Nashgleichgewichte zu finden.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы