Belangrijkste concepten
Die Arbeit charakterisiert die "universelle" Verteilung der konformen p-Werte und leitet daraus eine nichtasymptotische Konzentrations-Ungleichung für die empirische Verteilungsfunktion der p-Werte ab. Dies ermöglicht gleichmäßige Fehlerschranken für die False Coverage/False Discovery Proportion, die mit hoher Wahrscheinlichkeit gelten, im Gegensatz zu üblichen Ergebnissen, die nur marginal oder in Erwartung sind und nicht gleichmäßig in der Entscheidung. Da die Ergebnisse nur unter der Annahme der Austauschbarkeit der Scores gelten, sind sie auf adaptive Score-Verfahren anwendbar, die den Kalibrierungs- und Testdatensatz für das Training nutzen.
Samenvatting
Die Arbeit befasst sich mit der konformen Inferenz, einem allgemeinen Rahmenwerk zur Quantifizierung der Unsicherheit bei der Verwendung von Blackbox-Lernalgorithmen. Ein zentrales Element sind die "Nicht-Konformitäts-Scores", die auf einem Trainingsdatensatz erlernt und auf einem Kalibrierungsdatensatz kalibriert werden, um dann auf einem Testdatensatz angewendet zu werden.
Die Autoren betrachten zwei konkrete Anwendungsfälle:
- Vorhersageintervalle: Ziel ist es, für m neue Datenpunkte m Vorhersageintervalle zu konstruieren, so dass die Abdeckungsfehlerquote kontrolliert ist.
- Neuartigkeitserkennung: Ziel ist es, für m neue Datenpunkte zu entscheiden, ob sie aus der gleichen Verteilung wie die Trainingsdaten stammen oder "neuartig" sind, wobei die False Discovery Rate kontrolliert wird.
Die Hauptbeiträge der Arbeit sind:
- Charakterisierung der Verteilung der konformen p-Werte als Pólya-Urnen-Modell, was zu einer nichtasymptotischen Konzentrations-Ungleichung für die empirische Verteilungsfunktion der p-Werte führt.
- Ableitung gleichmäßiger, in Wahrscheinlichkeit geltender Schranken für die False Coverage Proportion (FCP) bei Vorhersageintervallen und die False Discovery Proportion (FDP) bei Neuartigkeitserkennung. Diese Schranken gelten gleichmäßig über die Wahl der Entscheidungsparameter (z.B. Intervallradius, Schwellenwert).
- Die Theorie erlaubt es, adaptive Scores zu verwenden, die den Kalibrierungs- und Testdatensatz für das Training nutzen, was in Transferlern-Szenarien von Vorteil sein kann.
Statistieken
Die Vorhersageintervalle haben eine Länge von 2L.
Der Schwellenwert für die Neuartigkeitserkennung beträgt t.
Citaten
Keine relevanten Zitate identifiziert.