核心概念
Eine neuartige Methode des Positiv-Unlabeled-Lernens, die auf intraktablen Dichteschätzungsmodellen basiert und keine Kenntnis der Klassenpriorisierung erfordert, um effizient Dokumente zu identifizieren, die zu einem gegebenen Satz von Beispieldokumenten passen.
摘要
Die Dokumentensatzerweiterung (DSE) ist eine Aufgabe, bei der aus einer großen Dokumentensammlung relevante Dokumente basierend auf einem begrenzten Satz von Beispieldokumenten identifiziert werden sollen. Bisherige Forschung hat Positiv-Unlabeled (PU) Lernen als vielversprechenden Ansatz für diese Aufgabe hervorgehoben.
Die meisten PU-Methoden basieren jedoch auf der unrealistischen Annahme, dass die Klassenpriorisierung für positive Samples in der Sammlung bekannt ist. Um diese Einschränkung zu adressieren, stellt diese Arbeit einen neuartigen PU-Lernrahmen vor, der intraktable Dichteschätzungsmodelle nutzt.
Die durchgeführten Experimente auf PubMed- und Covid-Datensätzen in einem transduktiven Szenario zeigen die Effektivität der vorgeschlagenen Methode für die DSE-Aufgabe. Im Vergleich zu bisherigen PU-Methoden, die die Klassenpriorisierung benötigen, übertrifft der vorgeschlagene Ansatz die Leistung deutlich, ohne diese Information zu verwenden.
統計資料
Die Verteilung der positiven und negativen Samples in den ungelabelten Daten ist unbekannt.
Der Anteil der gelabelten positiven Samples an allen positiven Samples (Labelfrequenz) ist unbekannt.
引述
"PU-Methoden, die auf Fehlklassifikationsrisiko basieren, wie nnPU, setzen voraus, dass die Klassenpriorisierung π = P(Y = 1) bekannt ist. Die Klassenpriorisierung bezeichnet den Anteil der positiven Daten in den ungelabelten Daten und spielt eine wichtige Rolle im PU-Lernen. In praktischen Anwendungen ist π jedoch in der Regel unbekannt und kann nicht als trainierbare Größe behandelt werden."
"DSE ist im Grunde ein transduktives Problem, da wir alle positiven Dokumente aus dem ungelabelten Satz (U) identifizieren möchten. In diesem Fall sollte der ungelabelte Satz sowohl für das Training als auch für das Testen verwendet werden."