Centrala begrepp
Wir präsentieren zwei Algorithmen, B-GLinCB und RS-GLinCB, die optimale Regret-Garantien für generalisierte lineare kontextuelle Banditen in Szenarien mit begrenzter Anpassungsfähigkeit liefern. Unsere Algorithmen eliminieren die Abhängigkeit vom Nichtlinearitätsparameter κ, der in früheren Arbeiten auftrat.
Sammanfattning
Die Studie befasst sich mit dem Problem der generalisierten linearen kontextuellen Banditen unter Berücksichtigung von Anforderungen an die begrenzte Anpassungsfähigkeit. Es werden zwei Algorithmen, B-GLinCB und RS-GLinCB, vorgestellt, die jeweils zwei gängige Modelle für begrenzte Anpassungsfähigkeit adressieren:
-
Batch-Lernen mit stochastischen Kontexten:
- B-GLinCB teilt die Runden in M Batches ein, wobei die Richtlinienupdates nur am Ende jedes Batches erfolgen.
- Mit Ω(log log T) Batches erreicht B-GLinCB einen Regret von ̃O(√T).
-
Seltene Richtlinienwechsel mit adversariellen Kontexten:
- RS-GLinCB aktualisiert seine Richtlinie höchstens ̃O(log2 T) Mal und erreicht einen Regret von ̃O(√T).
Darüber hinaus eliminieren beide Algorithmen die Abhängigkeit vom Nichtlinearitätsparameter κ, was ein unabhängiges Interesse darstellt.
Statistik
Der Nichtlinearitätsparameter κ ist definiert als κ := max_{x∈∪_t^T X_t} 1/̇μ(⟨x, θ*⟩).
Der Parameter S ist eine obere Schranke für die Norm des unbekannten Parameters θ*, also ∥θ*∥ ≤ S.
Citat
Keine relevanten Zitate gefunden.