Konsep Inti
EVILL bietet eine effektive Erkundungsmethode für strukturierte stochastische Bandit-Probleme.
Statistik
EVILL reduziert sich zu einer Variante von GLM-PHE, in der der Störungsvektor von PHE im Schritt t wie folgt gewählt wird: Zt ∼ N(0, a2 diag(I(X⊤1 ˆθt−1), ..., I(X⊤t−1ˆθt−1))).
Kutipan
"EVILL bietet eine effektive Erkundungsmethode für strukturierte stochastische Bandit-Probleme."