Core Concepts
Der Kern der Arbeit ist die Entwicklung eines neuen Feel-Good Thompson Sampling Algorithmus (FGTS.CDB) für das Problem der linearen kontextuellen Duell-Banditen. Der Algorithmus erreicht eine nahezu minimax-optimale Regret-Schranke und übertrifft bestehende Algorithmen deutlich in empirischen Experimenten.
Abstract
Die Arbeit befasst sich mit dem Problem der kontextuellen Duell-Banditen, bei dem ein Lernagent wiederholt zwei Optionen basierend auf einem Kontext auswählt und Feedback erhält, welche Option bevorzugt wird.
Kernpunkte:
- Entwicklung eines neuen Feel-Good Thompson Sampling Algorithmus (FGTS.CDB) für lineare kontextuelle Duell-Banditen
- Der Algorithmus erreicht eine nahezu minimax-optimale Regret-Schranke von e
O(d√T), wobei d die Modell-Dimension und T der Zeithorizont sind
- Der Algorithmus überwindet Einschränkungen bestehender UCB-basierter Ansätze und kann auch mit unendlichen Aktionsräumen umgehen
- Empirische Evaluierung zeigt, dass FGTS.CDB die bestehenden Algorithmen deutlich übertrifft
Stats
Der Regret-Ausdruck für kontextuelle Duell-Banditen lautet: r∗(xt, a∗
t) - (r∗(xt, a1
t) + r∗(xt, a2
t))/2
Die Belohnungsfunktion hat eine lineare Struktur: r∗(x, a) = ⟨θ∗, ϕ(x, a)⟩, wobei ∥ϕ(x, a)∥2 ≤ 1 und ∥θ∗∥2 ≤ B
Quotes
"Contextual dueling bandits, where a learner compares two options based on context and receives feedback indicating which was preferred, extends classic dueling bandits by incorporating contextual information for decision-making and preference learning."
"We show that our algorithm achieves nearly minimax-optimal regret, i.e., e
O(d√T), where d is the model dimension and T is the time horizon."