Core Concepts
Bestehende Off-Policy-Bewertungsmethoden sind sehr anfällig für Daten-Vergiftungsangriffe, selbst bei kleinen Veränderungen der Eingabedaten. Dies stellt die Zuverlässigkeit der mit diesen Methoden abgeleiteten Richtlinienwerte in Frage und erfordert die Entwicklung robusterer Off-Policy-Bewertungsmethoden.
Abstract
Die Studie untersucht die Anfälligkeit von Off-Policy-Bewertungsmethoden (OPE) gegenüber Daten-Vergiftungsangriffen. OPE-Methoden sind wichtig, um Richtlinien in Hochrisikobereichen wie dem Gesundheitswesen zu bewerten, ohne diese direkt einsetzen zu müssen. Die Autoren entwickeln einen generischen Daten-Vergiftungsrahmen, der Einflussanalysen aus der robusten Statistik nutzt, um sorgfältig konstruierte Veränderungen zu finden, die den Fehler in den Richtlinienwertschätzungen maximieren.
Die Experimente mit mehreren Datensätzen aus den Bereichen Gesundheitswesen und Steuerung zeigen, dass viele bestehende OPE-Methoden sehr anfällig für große Schätzfehler sind, wenn sie Daten-Vergiftungsangriffen ausgesetzt sind, selbst bei kleinen Veränderungen. Diese Ergebnisse stellen die Zuverlässigkeit der mit OPE-Methoden abgeleiteten Richtlinienwerte in Frage und motivieren die Notwendigkeit, OPE-Methoden zu entwickeln, die statistisch robust gegenüber Daten-Vergiftungsangriffen sind.
Stats
Die Autoren zeigen, dass durch Veränderung von nur 3% bis 5% der beobachteten Zustände der Schätzfehler des Wertfunktionswertes der optimalen Richtlinie im HIV-Bereich um mehr als 340% und im MountainCar-Bereich um mehr als 100% erhöht werden kann.
Quotes
"Bestehende OPE-Methoden sind sehr anfällig für große Schätzfehler, wenn sie Daten-Vergiftungsangriffen ausgesetzt sind, selbst bei kleinen Veränderungen."
"Diese Ergebnisse stellen die Zuverlässigkeit der mit OPE-Methoden abgeleiteten Richtlinienwerte in Frage und motivieren die Notwendigkeit, OPE-Methoden zu entwickeln, die statistisch robust gegenüber Daten-Vergiftungsangriffen sind."