Effiziente und robuste Bewertung von Off-Policy-Strategien mit unbekannter Protokollierungsstrategie
Der Artikel präsentiert einen neuartigen doppelt-robusten (DR) Schätzer für die Bewertung von Off-Policy-Strategien (OPE) in Markov-Entscheidungsprozessen, der sowohl die Protokollierungsstrategie als auch die Wertfunktion nicht kennt. Der vorgeschlagene Schätzer schätzt zunächst die Protokollierungsstrategie und dann die Wertfunktion, indem er die asymptotische Varianz des Schätzers unter Berücksichtigung des Schätzeffekts der Protokollierungsstrategie minimiert.