Privates Verteiltes Lineares Bandit-Lernen mit Teilweiser Rückmeldung
In diesem Artikel wird ein neues Modell des differentiell privaten verteilten linearen Bandit-Lernens (DP-DLB) eingeführt, bei dem nur eine Teilmenge der Nutzer (Klienten) Rückmeldung an den zentralen Server gibt, um den globalen Modellparameter zu schätzen. Es wird ein einheitlicher Algorithmus-Lernrahmen, DP-DPE, entwickelt, der sowohl die Regret-Minimierung als auch die Kommunikationseffizienz und Datenschutzgarantien berücksichtigt.