Effiziente und präzise Off-Policy-Auswertung in robusten Markov-Entscheidungsprozessen
Die Autoren entwickeln ein orthogonales Schätzverfahren, das robust gegenüber Fehlern in Hilfsfunktionen ist und die semiparametrische Effizienz erreicht, um den besten und schlechtesten Fall des Politikwerts in robusten Markov-Entscheidungsprozessen zu schätzen.