Der Artikel befasst sich mit den Herausforderungen des Lernens in Multiagentensystemen, insbesondere in allgemeinen Summenspielen mit nicht-stationären Gegnern und inkonsistenten Anreizen.
Zunächst wird gezeigt, dass viele aktuelle Ansätze zum Opponent Shaping (OS) als Approximationen von Stackelberg-Strategien abgeleitet werden können. Stackelberg-Strategien bieten ein sinnvolles Lösungskonzept für Zweipersonenspiele, auch in Spielen ohne Nash-Gleichgewichte.
Allerdings versagen Stackelberg-Strategien in sogenannten nicht-koinzidenten Spielen, in denen das Stackelberg-Strategieprofil kein Nash-Gleichgewicht ist. Dies erklärt, warum OS-Algorithmen, die Stackelberg-Strategien approximieren, in Selbstspiel in solchen Spielen ebenfalls versagen können.
Um dieses Problem zu lösen, führt der Artikel Wohlfahrtsgleichgewichte (WE) als Verallgemeinerung von Stackelberg-Strategien ein. WE können wünschenswerte Lösungen auch in nicht-koinzidenten Spielen finden. Außerdem wird Welfare Function Search (WelFuSe) vorgestellt, ein praktischer Ansatz, um effektive Wohlfahrtsfunktionen aus Erfahrung zu lernen. WelFuSe vermeidet Katastrophen im Selbstspiel, während es die Leistung gegen naive Lernende beibehält.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jake Levi,Ch... at arxiv.org 03-29-2024
https://arxiv.org/pdf/2402.01088.pdfDeeper Inquiries