Der Artikel befasst sich mit dem Problem der Off-Policy-Evaluation (OPE), bei dem der Wert einer Zielstrategie anhand von Daten geschätzt wird, die von einer anderen Protokollierungsstrategie generiert wurden.
Zunächst wird das Problem des Markov-Entscheidungsprozesses (MDP) und die OPE-Aufgabe definiert. Dann werden die bisherigen Methoden zur OPE, wie der direkte Ansatz (DM), der inverse Wahrscheinlichkeitsgewichtungsansatz (IPW) und der doppelt-robuste (DR) Ansatz, diskutiert.
Der Hauptbeitrag des Artikels ist die Einführung eines neuen DR-OPE-Schätzers namens DRUnknown, der sowohl die Protokollierungsstrategie als auch die Wertfunktion schätzt. Der DRUnknown-Schätzer verwendet den Maximum-Likelihood-Schätzer (MLE) für die Protokollierungsstrategie und minimiert die asymptotische Varianz, um die Wertfunktion zu schätzen, wobei der Einfluss der Schätzung der Protokollierungsstrategie berücksichtigt wird.
Es wird gezeigt, dass der DRUnknown-Schätzer bei korrekter Spezifikation des Protokollierungsmodells den kleinsten asymptotischen Varianzwert innerhalb der Klasse der DR-OPE-Schätzer mit geschätzter Protokollierungsstrategie aufweist. Wenn auch das Wertfunktionsmodell korrekt spezifiziert ist, erreicht der DRUnknown-Schätzer die semiparametrische untere Schranke und ist asymptotisch optimal.
Schließlich werden Simulationsexperimente in kontextabhängigen Banditen und Verstärkungslernen durchgeführt, um die Leistung des DRUnknown-Schätzers mit bestehenden Methoden zu vergleichen. Die Ergebnisse zeigen, dass der DRUnknown-Schätzer konsistent kleinere mittlere quadratische Fehler aufweist.
翻譯成其他語言
從原文內容
arxiv.org
深入探究