Flexibles Bayesianisches Multi-Armed Bandit-Framework für nicht-stationäre und nichtlineare Belohnungsmodelle
Wir erweitern Bayesianische Multi-Armed Bandit-Algorithmen über ihren ursprünglichen Anwendungsbereich hinaus, indem wir sequenzielle Monte-Carlo-Methoden (SMC) verwenden. Unser SMC-basiertes Multi-Armed Bandit-Framework kann nicht-stationäre Bandits mit nichtlinearen und nicht-Gaußschen Belohnungsfunktionen erfolgreich adressieren.