In dieser Arbeit betrachten wir das Problem des Mehrspielerverstärkungslernens (Multi-Agent Reinforcement Learning, MARL) unter Differentieller Privatsphäre (Differential Privacy, DP). Dies ist in vielen Anwendungen mit sensiblen Daten von großer Bedeutung, um die privaten Informationen der Nutzer zu schützen.
Zunächst erweitern wir die Definitionen von Joint Differential Privacy (JDP) und Local Differential Privacy (LDP) auf zweispielige Nullsummen-Markov-Spiele, wobei beide Definitionen einen trajektorienweisen Schutz der Privatsphäre gewährleisten. Dann entwickeln wir einen nachweislich effizienten Algorithmus, der auf optimistischer Nash-Wert-Iteration und Privatisierung von Bernstein-artigen Boni basiert. Der Algorithmus kann sowohl JDP als auch LDP erfüllen, wenn er mit geeigneten Privatisierungsmechanismen instanziiert wird.
Für beide DP-Konzepte verallgemeinert unser Regretbound das bisher beste bekannte Ergebnis für den Einzelagenten-RL-Fall, während unser Regret auch auf das beste bekannte Ergebnis für MARL ohne Privatsphärenanforderungen reduziert. Nach unserem Wissen sind dies die ersten Ergebnisse zum Verständnis des trajektorienweisen Privatsphärenschutzes im MARL.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問