Die Studie befasst sich mit der Auswertung einer Politik unter besten und schlechtesten Fällen von Störungen eines Markov-Entscheidungsprozesses (MDP), basierend auf Beobachtungen des Übergangs aus dem ursprünglichen MDP, unabhängig davon, ob unter derselben oder einer anderen Politik.
Die Autoren schlagen ein Störungsmodell vor, das die Übergangskerneldichten bis zu einem gegebenen multiplikativen Faktor oder dessen Kehrwert modifizieren kann, was das klassische Modell der marginalen Sensitivität (MSM) für einmalige Entscheidungen auf unendlich-Horizont-RL erweitert.
Sie charakterisieren die scharfen Grenzen des Politikwerts unter diesem Modell und entwickeln einen Schätzer mit mehreren attraktiven Garantien: Er ist semiparametrisch effizient und bleibt es auch, wenn bestimmte notwendige Hilfsfunktionen wie die schlimmstmöglichen Q-Funktionen mit langsamen nichtparametrischen Raten geschätzt werden. Außerdem ist er asymptotisch normalverteilt, was eine einfache statistische Inferenz mit Wald-Konfidenzintervallen ermöglicht.
Darüber hinaus schätzen sie weiterhin gültige, wenn auch möglicherweise nicht scharfe Grenzen für den Politikwert, selbst wenn bestimmte Hilfsfunktionen inkonsistent geschätzt werden. Die Kombination aus Berücksichtigung von Umgebungsverschiebungen vom Training zum Test (Robustheit), Unempfindlichkeit gegenüber der Schätzung von Hilfsfunktionen (Orthogonalität) und Berücksichtigung endlicher Stichproben zum Lernen (Inferenz) führt zu glaubwürdigen und zuverlässigen Politikauswertungen.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Andrew Benne... om arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00099.pdfDiepere vragen