The authors explore algorithms to shape population preferences in a non-stationary multi-armed bandit setting, focusing on influencing user opinions through rewards.
Aktive Nutzung von Präferenzverstärkungen zur Beeinflussung von Bevölkerungspräferenzen in einem nicht-stationären Multi-Armed Bandit-Modell.