Kernkonzepte
Die Studie präsentiert einen Algorithmus für lineare kontextuelle Banditen, der auf dem Best-of-Both-Worlds-Konzept basiert und die Tsallis-Entropie verwendet.
Zusammenfassung
Die Studie untersucht lineare kontextuelle Banditen mit unabhängigen und identisch verteilten Kontexten. Es wird ein neuer Algorithmus vorgeschlagen, der eine verbesserte Abhängigkeit von T aufweist und die Tsallis-Entropie anstelle der Shannon-Entropie verwendet. Es werden verschiedene Regime für die Daten-generierenden Prozesse betrachtet, darunter ein adversarisches Regime und ein stochastisches Regime mit einer Margin-Bedingung. Der vorgeschlagene Algorithmus, der α-Linear-Contextual (LC)-Tsallis-INF, wird detailliert beschrieben und analysiert. Es werden Regret-Obergrenzen für verschiedene Regime abgeleitet und verglichen.
Einleitung
Lineare kontextuelle Banditen mit unabhängigen und identisch verteilten Kontexten werden untersucht.
Ein neuer Algorithmus, der Tsallis-Entropie verwendet, wird vorgeschlagen.
Daten-Generierungsprozess
Unterscheidung zwischen adversarischem und stochastischem Regime.
Einführung einer Margin-Bedingung für das stochastische Regime.
Vorgeschlagener Algorithmus
Beschreibung des α-Linear-Contextual (LC)-Tsallis-INF Algorithmus.
Unterscheidung der Implementierung je nach verfügbaren Informationen über die Kovarianzmatrix.
Regret-Analyse
Ableitung von Regret-Obergrenzen für verschiedene Regime.
Statistiken
Die Regret-Obergrenze beträgt O(ξTsallis * √(T)), wobei ξTsallis abhängig von der verfügbaren Information über die Kovarianzmatrix ist.
Zitate
"Unser vorgeschlagener Algorithmus basiert auf dem Best-of-Both-Worlds-Konzept und der Tsallis-Entropie."