Die Autoren stellen einen Rahmen namens "Calibrate-Extrapolate" vor, um die Häufigkeit bestimmter Klassen in unmarkierten Datensätzen zu schätzen, wenn ein vorgefertigter Klassifikator verwendet wird.
In der Kalibrierungsphase wird eine kleine Stichprobe des Basisdatensatzes manuell annotiert, um eine Kalibrationskurve zu schätzen, die die Ausgaben des Klassifikators in kalibrierte Wahrscheinlichkeiten umwandelt. In der Extrapolationsphase werden dann verschiedene Annahmen über die Stabilität der Kalibrierungskurve oder der klassenspezifischen Dichten getroffen, um die Prävalenz im Zieldatensatz zu schätzen.
Die Autoren zeigen anhand von Simulationen, dass die Wahl der richtigen Stabilitätsannahme und die Vorhersagekraft des Klassifikators entscheidend für die Genauigkeit der Schätzungen sind. Sie wenden den Rahmen dann an, um die Prävalenz von toxischen Kommentaren auf Reddit, Twitter/X und YouTube über ein Jahr hinweg zu schätzen.
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Siqi Wu,Paul... às arxiv.org 04-03-2024
https://arxiv.org/pdf/2401.09329.pdfPerguntas Mais Profundas