Core Concepts
Effiziente Exploration in Low-Rank MDPs durch das VoX-Algorithmus.
Stats
Für alle θ ∈ Rd mit ∥θ∥ = 1, wird das Ergebnis ˆzθ = LinOpt(θ) erzielt, sodass θ⊺wˆzθ ≥ supz∈Z θ⊺wz - ε.
Für alle z ∈ Z, wird das Ergebnis ˆwz = LinEst(z) erzielt, sodass ∥ ˆwz - wz∥ ≤ ε.
Quotes
"Die Verwendung von baryzentrischen Spannern für belohnungsfreie Exploration ist von entscheidender Bedeutung." - Lemma 3.1