Die Stichprobenkomplexität zum Lernen einer ε-optimalen Politik in einem durchschnittlichen Belohnungs-MDP ist eO(SAH/ε^2), wobei H die Spanne der Bias-Funktion der optimalen Politik ist.
Die Stichprobenkomplexität zum Lernen einer ε-optimalen Politik in einem durchschnittlichen Belohnungs-Markov-Entscheidungsprozess (MDP) unter einem generativen Modell kann durch die Spanne der Bias-Funktion der optimalen Politik und den begrenzten transienten Zeitparameter charakterisiert werden.