Die Dokumentensatzerweiterung (DSE) ist eine Aufgabe, bei der aus einer großen Dokumentensammlung relevante Dokumente basierend auf einem begrenzten Satz von Beispieldokumenten identifiziert werden sollen. Bisherige Forschung hat Positiv-Unlabeled (PU) Lernen als vielversprechenden Ansatz für diese Aufgabe hervorgehoben.
Die meisten PU-Methoden basieren jedoch auf der unrealistischen Annahme, dass die Klassenpriorisierung für positive Samples in der Sammlung bekannt ist. Um diese Einschränkung zu adressieren, stellt diese Arbeit einen neuartigen PU-Lernrahmen vor, der intraktable Dichteschätzungsmodelle nutzt.
Die durchgeführten Experimente auf PubMed- und Covid-Datensätzen in einem transduktiven Szenario zeigen die Effektivität der vorgeschlagenen Methode für die DSE-Aufgabe. Im Vergleich zu bisherigen PU-Methoden, die die Klassenpriorisierung benötigen, übertrifft der vorgeschlagene Ansatz die Leistung deutlich, ohne diese Information zu verwenden.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Haiyang Zhan... a las arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17473.pdfConsultas más profundas