Core Concepts
Das System soll eine kalibrierte Schätzung der Wahrscheinlichkeit aufrechterhalten, mit der es das Benutzerziel erreichen wird. Wenn diese Wahrscheinlichkeit unter einen bestimmten Schwellenwert fällt, sollte es den Benutzer warnen, damit entsprechende Maßnahmen ergriffen werden können.
Abstract
Der Artikel befasst sich mit der Schätzung der Wahrscheinlichkeit, dass das Verhalten eines autonomen Systems innerhalb eines vom Benutzer vorgegebenen Zielintervalls liegt.
Zunächst wird gezeigt, dass die Conformalized Quantile Regression (CQR) Methode nicht invertierbar ist und daher nicht verwendet werden kann, um Deckungswahrscheinlichkeiten für benutzerdefinierte Zielintervalle vorherzusagen.
Daher wird eine neue Methode, die Probability-space Conformalized Quantile Regression (PCQR), eingeführt. PCQR behält die Invertierbarkeit der geschätzten bedingten Quantilfunktion bei, indem die Konformitätskorrektur in den Wahrscheinlichkeitsraum verschoben wird. PCQR-1, die inverse Methode von PCQR, kann dann verwendet werden, um kalibrierte Schätzungen der bedingten Deckungswahrscheinlichkeiten für benutzerdefinierte Zielintervalle zu berechnen.
Die Experimente in den Domänen Starcraft 2 und Tamarisk zeigen, dass PCQR-1 gut kalibrierte Wahrscheinlichkeitsschätzungen liefert.
Stats
Die Summe der Belohnungen bis zum Zeitpunkt t ist bt = r0 + ... + rt-1.
Das Zielintervall ist [y-, y+].
Die geschätzte bedingte kumulative Verteilungsfunktion ist ̂FY|x.
Quotes
Keine relevanten Zitate gefunden.