Der Artikel befasst sich mit dem Problem der Off-Policy-Evaluation (OPE), bei dem der Wert einer Zielstrategie anhand von Daten geschätzt wird, die von einer anderen Protokollierungsstrategie generiert wurden.
Zunächst wird das Problem des Markov-Entscheidungsprozesses (MDP) und die OPE-Aufgabe definiert. Dann werden die bisherigen Methoden zur OPE, wie der direkte Ansatz (DM), der inverse Wahrscheinlichkeitsgewichtungsansatz (IPW) und der doppelt-robuste (DR) Ansatz, diskutiert.
Der Hauptbeitrag des Artikels ist die Einführung eines neuen DR-OPE-Schätzers namens DRUnknown, der sowohl die Protokollierungsstrategie als auch die Wertfunktion schätzt. Der DRUnknown-Schätzer verwendet den Maximum-Likelihood-Schätzer (MLE) für die Protokollierungsstrategie und minimiert die asymptotische Varianz, um die Wertfunktion zu schätzen, wobei der Einfluss der Schätzung der Protokollierungsstrategie berücksichtigt wird.
Es wird gezeigt, dass der DRUnknown-Schätzer bei korrekter Spezifikation des Protokollierungsmodells den kleinsten asymptotischen Varianzwert innerhalb der Klasse der DR-OPE-Schätzer mit geschätzter Protokollierungsstrategie aufweist. Wenn auch das Wertfunktionsmodell korrekt spezifiziert ist, erreicht der DRUnknown-Schätzer die semiparametrische untere Schranke und ist asymptotisch optimal.
Schließlich werden Simulationsexperimente in kontextabhängigen Banditen und Verstärkungslernen durchgeführt, um die Leistung des DRUnknown-Schätzers mit bestehenden Methoden zu vergleichen. Die Ergebnisse zeigen, dass der DRUnknown-Schätzer konsistent kleinere mittlere quadratische Fehler aufweist.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Kyungbok Lee... lúc arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01830.pdfYêu cầu sâu hơn