Core Concepts
Durch massives Skalieren der Anzahl und Granularität der Entitätstypen in der Labelinterpretationsphase kann die Leistung der wenig-Schuss-Named-Entity-Erkennung deutlich verbessert werden.
Abstract
Dieser Artikel untersucht den Einfluss einer starken semantischen Vorprägung auf die Interpretation von Beschreibungen neuer Entitätstypen in der wenig-Schuss-Named-Entity-Erkennung (NER). Dazu wird ein Datensatz mit deutlich mehr Entitätstypen und detaillierteren Beschreibungen als bisher verwendet.
Die Autoren stellen zunächst ein Validierungsexperiment vor, das den positiven Einfluss einer größeren Anzahl und ausdrucksstärkerer Beschreibungen von Entitätstypen in der Labelinterpretationsphase auf die wenig-Schuss-NER-Leistung zeigt.
Darauf aufbauend präsentieren sie einen Ansatz namens LITSET, bei dem ein Datensatz mit Millionen von Entitätstypen und Beschreibungen aus dem Entity-Linking-Benchmark ZELDA genutzt wird. Die Experimente zeigen, dass LITSET die Leistung in in-domain, cross-domain und sogar cross-lingualen Szenarien deutlich verbessert und damit das Potenzial heuristischer datenbasierter Optimierung für die wenig-Schuss-NER unterstreicht.
Stats
Die Anzahl der Entitätstypen in gängigen NER-Datensätzen wie CoNLL-03 (4 Typen), WNUT-17 (6 Typen), OntoNotes (18 Typen) und FewNERD (66 Typen) ist deutlich geringer als in dem von den Autoren verwendeten LITSET-Datensatz (~817.000 Typen).
Quotes
"Durch massives Skalieren der Anzahl und Granularität der Entitätstypen in der Labelinterpretationsphase kann die Leistung der wenig-Schuss-Named-Entity-Erkennung deutlich verbessert werden."
"Unsere Ergebnisse deuten auf ein erhebliches Potenzial für die Verbesserung der wenig-Schuss-NER durch heuristische datenbasierte Optimierung hin."