Core Concepts
Die Autoren untersuchen das Problem der incentivierte Exploration für das Multi-Armed Bandit (MAB) Problem mit nicht-stationären Belohnungsverteilungen. Dabei erhalten die Spieler eine Vergütung für das Erkunden von Armen, die nicht die gierige Wahl sind, und können verzerrtes Feedback über die Belohnung geben. Die Autoren schlagen Algorithmen vor, die sowohl sublineare Reue als auch sublineare Vergütung erreichen.
Abstract
Die Autoren betrachten zwei Modelle für nicht-stationäre Umgebungen: abrupt wechselnde und kontinuierlich wechselnde Umgebungen. Für jedes Modell entwickeln sie einen Algorithmus für incentivierte Exploration, der sowohl sublineare Reue als auch sublineare Vergütung erreicht.
Für die abrupt wechselnde Umgebung verwenden sie die Discounted UCB (DUCB) und Sliding Window UCB (SWUCB) Algorithmen als Grundlage. Sie zeigen, dass der vorgeschlagene Algorithmus eine Reue von ˜OpT^{1/2}) und eine Vergütung von ˜OpT^{1/2}) bzw. ˜OpT^{1/4}) erreicht.
Für die kontinuierlich wechselnde Umgebung verwenden sie einen Restart-Mechanismus, bei dem der Principal in regelmäßigen Abständen einen MAB-Algorithmus wie UCB1, ϵ-Greedy oder Thompson Sampling neu startet. Sie zeigen, dass der vorgeschlagene Algorithmus eine Reue von ˜OpT^{2/3}) und eine Vergütung von ˜OpT^{2/3}) bzw. ˜OpT^{1/3}) erreicht.
Die theoretischen Analysen zeigen, dass die vorgeschlagenen Algorithmen effektiv die Exploration anreizen, obwohl die Belohnungen nicht-stationär sind und das Feedback verzerrt ist.
Stats
Die Reue und Vergütung der vorgeschlagenen Algorithmen sind in Tabelle I zusammengefasst.
Quotes
Keine relevanten Zitate identifiziert.