Core Concepts
Das Ziel ist es, einen relativ einfachen und recheneffizenten Test zu entwickeln, um zu überprüfen, ob die beobachteten Daten der SCAR-Annahme (Selected Completely at Random) entsprechen oder ob die realistischere SAR-Annahme (Selected at Random) zutrifft.
Abstract
Der Artikel befasst sich mit dem Positiv-Unlabeled-Lernen, bei dem das Ziel ist, einen binären Klassifikator auf der Grundlage von Trainingsdaten zu trainieren, die positive und unlabeled Instanzen enthalten. Die Modellierung von PU-Daten erfordert bestimmte Annahmen über den Labelingmechanismus, der beschreibt, welche positiven Beobachtungen mit einem Label versehen werden.
Die einfachste Annahme ist SCAR (Selected Completely at Random), bei der die Propensity-Score-Funktion, also die Wahrscheinlichkeit, eine positive Beobachtung zu labeln, konstant ist. Eine realistischere Annahme ist SAR (Selected at Random), bei der die Propensity-Score-Funktion allein von dem beobachteten Merkmalsvektor abhängt.
Die Autoren schlagen einen relativ einfachen und recheneffizienten Test vor, um zu überprüfen, ob die beobachteten Daten der SCAR-Annahme entsprechen. Der Test besteht aus zwei Schritten: Zuerst wird die Menge der positiven Beobachtungen approximiert, dann werden künstliche Labels erzeugt, die der SCAR-Situation entsprechen, um die Verteilung der Teststatistik unter der Nullhypothese der SCAR-Annahme nachzuahmen.
In Experimenten zeigen die Autoren, dass der Test verschiedene Abweichungen von der SCAR-Situation erfolgreich erkennt und gleichzeitig die Kontrolle des Fehlers 1. Art möglich ist. Der vorgeschlagene Test kann als Vorverarbeitungsschritt empfohlen werden, um zu entscheiden, welcher endgültige PU-Algorithmus in Fällen gewählt werden soll, in denen die Natur des Labelingmechanismus nicht bekannt ist.
Stats
Die Wahrscheinlichkeit, eine positive Beobachtung zu labeln, hängt nicht vom Merkmalsvektor ab (SCAR-Annahme).
Die Wahrscheinlichkeit, eine positive Beobachtung zu labeln, hängt vom Merkmalsvektor ab (SAR-Annahme).
Quotes
"SCAR-basierte Algorithmen sind relativ einfach und recheneffizient. Die SCAR-Annahme ist jedoch in vielen praktischen Situationen nicht erfüllt."
"Eine viel realistischere Annahme ist SAR (Selected at Random), die besagt, dass die Propensity-Score-Funktion allein vom beobachteten Merkmalsvektor abhängt."