核心概念
Der Artikel präsentiert einen neuartigen doppelt-robusten (DR) Schätzer für die Bewertung von Off-Policy-Strategien (OPE) in Markov-Entscheidungsprozessen, der sowohl die Protokollierungsstrategie als auch die Wertfunktion nicht kennt. Der vorgeschlagene Schätzer schätzt zunächst die Protokollierungsstrategie und dann die Wertfunktion, indem er die asymptotische Varianz des Schätzers unter Berücksichtigung des Schätzeffekts der Protokollierungsstrategie minimiert.
要約
Der Artikel befasst sich mit dem Problem der Off-Policy-Evaluation (OPE), bei dem der Wert einer Zielstrategie anhand von Daten geschätzt wird, die von einer anderen Protokollierungsstrategie generiert wurden.
Zunächst wird das Problem des Markov-Entscheidungsprozesses (MDP) und die OPE-Aufgabe definiert. Dann werden die bisherigen Methoden zur OPE, wie der direkte Ansatz (DM), der inverse Wahrscheinlichkeitsgewichtungsansatz (IPW) und der doppelt-robuste (DR) Ansatz, diskutiert.
Der Hauptbeitrag des Artikels ist die Einführung eines neuen DR-OPE-Schätzers namens DRUnknown, der sowohl die Protokollierungsstrategie als auch die Wertfunktion schätzt. Der DRUnknown-Schätzer verwendet den Maximum-Likelihood-Schätzer (MLE) für die Protokollierungsstrategie und minimiert die asymptotische Varianz, um die Wertfunktion zu schätzen, wobei der Einfluss der Schätzung der Protokollierungsstrategie berücksichtigt wird.
Es wird gezeigt, dass der DRUnknown-Schätzer bei korrekter Spezifikation des Protokollierungsmodells den kleinsten asymptotischen Varianzwert innerhalb der Klasse der DR-OPE-Schätzer mit geschätzter Protokollierungsstrategie aufweist. Wenn auch das Wertfunktionsmodell korrekt spezifiziert ist, erreicht der DRUnknown-Schätzer die semiparametrische untere Schranke und ist asymptotisch optimal.
Schließlich werden Simulationsexperimente in kontextabhängigen Banditen und Verstärkungslernen durchgeführt, um die Leistung des DRUnknown-Schätzers mit bestehenden Methoden zu vergleichen. Die Ergebnisse zeigen, dass der DRUnknown-Schätzer konsistent kleinere mittlere quadratische Fehler aufweist.
統計
Die Belohnungen werden aus einer Gaußverteilung mit Mittelwert exp(x⊤β) und Varianz 1 generiert, wobei β zufällig aus der Gleichverteilung U(-1/√d, 1/√d) gezogen wird.
Die Protokollierungsstrategie μ und die Zielstrategie π folgen einem linearen logistischen Modell mit zufälligen Koeffizienten ϕμ und ϕπ.
引用
Keine relevanten Zitate gefunden.