Scharfe, nichtasymptotische Schranken für die relative Entropie zwischen den Verteilungen von Stichproben mit und ohne Zurücklegen aus einer Urne mit Kugeln in c ≥2 Farben werden hergeleitet. Diese Schranken sind in bestimmten Regimes asymptotisch scharf und hängen im Gegensatz zu früheren Ergebnissen von der Anzahl der Kugeln jeder Farbe in der Urne ab.
Der Kern dieser Arbeit ist, die statistischen Methoden zu verbessern, die verwendet werden, um Übergangswahrscheinlichkeiten in Markov-Entscheidungsprozessen (MDPs) zu schätzen, wenn die genauen Wahrscheinlichkeiten unbekannt sind. Die Autoren zeigen, dass einfachere statistische Methoden wie die Hoeffding-Ungleichung durch fortgeschrittenere Methoden wie das Wilson-Score-Intervall mit Kontinuitätskorrektur oder das Clopper-Pearson-Intervall ersetzt werden können, um die Genauigkeit der Schätzungen deutlich zu verbessern.