Core Concepts
Der WSU-UX-Algorithmus, der für das Online-Lernen mit strategischen Experten unter Bandit-Feedback entwickelt wurde, kann im schlimmsten Fall keine bessere Regret-Garantie als Ω(T^2/3) erreichen.
Abstract
Der Artikel untersucht die Leistungsfähigkeit des WSU-UX-Algorithmus, der von Freeman et al. (2020) für das Online-Lernen mit strategischen Experten unter Bandit-Feedback entwickelt wurde.
Der Hauptbeitrag ist der Nachweis einer expliziten Regret-Unteren Schranke von Ω(T^2/3) für den WSU-UX-Algorithmus, unabhängig von der Wahl der Hyperparameter. Dies zeigt, dass der WSU-UX-Algorithmus keine bessere Regret-Garantie als O(T^2/3) erreichen kann, was nicht dem minimax-optimalen Regret von O(√T) für das klassische "ehrliche Experten"-Problem entspricht.
Die Autoren unterteilen die Menge der gültigen Hyperparameter in zwei Fälle - den trivialen Fall, in dem entweder die Lernrate η zu klein oder die Exploration-Wahrscheinlichkeit γ zu groß ist, und den nicht-trivialen Fall. Für den nicht-trivialen Fall konstruieren sie eine spezielle Verlustsequenz, für die sie eine detaillierte Analyse der Wahrscheinlichkeitsupdates durchführen, um die Regret-Untere Schranke zu zeigen.
Insgesamt zeigt der Artikel, dass das Lernen mit strategischen Experten unter Bandit-Feedback strikt schwieriger sein kann als das klassische Bandit-Problem, zumindest für den WSU-UX-Algorithmus.
Stats
Keine relevanten Statistiken oder Zahlen im Artikel.
Quotes
Keine hervorstechenden Zitate im Artikel.