Core Concepts
Die Studie untersucht die Bayesianische Reue eines Thompson-Sampling-Algorithmus für Bandit-Probleme und bietet neue Schranken für die Reue-Rate.
Abstract
Die Studie untersucht die Bayesianische Reue eines Thompson-Sampling-Algorithmus für Bandit-Probleme. Es wird auf die Informationstheorie und die Rate-Verzerrungsanalyse eingegangen. Der Fokus liegt auf Bandit-Problemen mit metrischem Aktionsraum. Neue Schranken werden unter Verwendung eines Kettenarguments etabliert, die von der metrischen Entropie des Aktionsraums abhängen. Die Studie bietet eine enge Rate von O(d√T) für d-dimensionale lineare Bandit-Probleme.
Introduction
- Bandit-Probleme: Agent interagiert mit unbekannter Umgebung.
- Ziel: Maximierung der kumulativen Belohnung.
- Regret-Analyse: Differenz zwischen Algorithmus- und Optimal-Aktionen-Belohnung.
Thompson Sampling Regret
- Information Ratio: Trade-off zwischen Information und Reue.
- Regret-Kontrolle durch komprimierte Statistik.
Chaining Technique
- Verwendung bei Bandit-Problemen mit kontinuierlichen Belohnungen.
- Approximatives Lernen durch feinere Quantisierungen.
- Abhängigkeit der Belohnungen von benachbarten Aktionen.
Hauptergebnis
- Chained Bound für Two Steps Thompson Sampling Regret.
- Abhängigkeit von Aktionsraumkomplexität.
Stats
Dong und Van Roy leiten eine optimale Reue-Rate von O(d√T log T) für lineare Bandit-Probleme her.
Quotes
"Die Studie bietet eine enge Rate von O(d√T) für d-dimensionale lineare Bandit-Probleme."