Core Concepts
Eine End-to-End-Methode zur Förderung lokaler und globaler Signale für die automatische Namensauflösung von akademischen Autoren, die die lokale Ähnlichkeitsberechnung und das globale Clustering in einem gemeinsamen Lernrahmen integriert.
Abstract
Dieser Artikel stellt eine neue Methode namens BOND (BOotstrapping From-Scratch Name Disambiguation with Multi-task Promoting) vor, um das Problem der automatischen Namensauflösung für akademische Autoren zu lösen.
Das Kernproblem besteht darin, Papiere, die von identisch benannten Einzelpersonen verfasst wurden, in Gruppen zu unterteilen, die verschiedene reale Experten repräsentieren. Traditionelle Methoden behandeln dies als zwei entkoppelte Aufgaben: Zunächst wird die lokale paarweise Ähnlichkeit zwischen Dokumenten geschätzt, gefolgt von einem globalen Clustering der Dokumente.
BOND integriert diese beiden Aufgaben in einem End-to-End-Lernrahmen, bei dem die lokalen paarweisen Ähnlichkeitssignale und die globalen Clustering-Signale einander wechselseitig fördern. Konkret nutzt BOND die lokalen paarweisen Ähnlichkeiten, um das globale Clustering anzutreiben und generiert dann Pseudo-Clustering-Labels. Diese globalen Signale verfeinern wiederum die lokalen paarweisen Charakterisierungen.
Die Experimente zeigen, dass BOND die Leistung deutlich verbessert und andere fortgeschrittene Baselines deutlich übertrifft. Eine erweiterte Version, BOND+, die Ensemble- und Post-Match-Techniken einbezieht, konkurriert sogar mit den besten Methoden im WhoIsWho-Wettbewerb.
Stats
Die DBLP-Datenbank enthält über 300 Autorenprofile mit dem Namen "Wei Wang" im Bereich der Informatik.
Das WhoIsWho-v3-Datensatz umfasst 480 eindeutige Autornamen, 12.431 Autoren und 285.252 Papiere.
Quotes
"Name disambiguation is a core component in online academic systems such as Google Scholar, DBLP, and AMiner."
"Previous research has traditionally treated SND as a clustering problem, which can be broken down into two main tasks: (1). Local Metric Learning and (2). Global Clustering."