Die Dokumentensatzerweiterung (DSE) ist eine Aufgabe, bei der aus einer großen Dokumentensammlung relevante Dokumente basierend auf einem begrenzten Satz von Beispieldokumenten identifiziert werden sollen. Bisherige Forschung hat Positiv-Unlabeled (PU) Lernen als vielversprechenden Ansatz für diese Aufgabe hervorgehoben.
Die meisten PU-Methoden basieren jedoch auf der unrealistischen Annahme, dass die Klassenpriorisierung für positive Samples in der Sammlung bekannt ist. Um diese Einschränkung zu adressieren, stellt diese Arbeit einen neuartigen PU-Lernrahmen vor, der intraktable Dichteschätzungsmodelle nutzt.
Die durchgeführten Experimente auf PubMed- und Covid-Datensätzen in einem transduktiven Szenario zeigen die Effektivität der vorgeschlagenen Methode für die DSE-Aufgabe. Im Vergleich zu bisherigen PU-Methoden, die die Klassenpriorisierung benötigen, übertrifft der vorgeschlagene Ansatz die Leistung deutlich, ohne diese Information zu verwenden.
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Haiyang Zhan... ที่ arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17473.pdfสอบถามเพิ่มเติม