Die Studie untersucht die Herausforderungen des Multiagenten-Reinforcement-Lernens in teilweise wettbewerbsorientierten Umgebungen, in denen traditionelle Methoden Schwierigkeiten haben, reziprozitätsbasierte Kooperation zu fördern.
Der vorgestellte BRS-Ansatz trainiert einen Agenten, indem er durch einen Gegner differenziert wird, der die beste Antwort approximiert. Dazu wird ein "Detective"-Gegner verwendet, der die Politik des Agenten berücksichtigt, um seine Aktionen auszuwählen. Der Agent wird dann durch Differenzierung durch den Detective trainiert.
Um kooperatives Verhalten zu fördern, wird außerdem eine Selbstspiel-Regularisierung vorgeschlagen, die dem Agenten Anreize gibt, mit sich selbst zu kooperieren.
Die Methode wird empirisch auf dem Iterierten Gefangenendilemma und dem Coin Game validiert. Die Ergebnisse zeigen, dass der BRS-Agent eine Tit-für-Tat-Politik erlernt, bei der die beste Antwort des Gegners vollständige Kooperation ist. Im Gegensatz dazu ist die beste Antwort auf den POLA-Agenten nicht vollständige Kooperation.
To Another Language
from source content
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Milad Aghajo... ที่ arxiv.org 04-11-2024
https://arxiv.org/pdf/2404.06519.pdfสอบถามเพิ่มเติม