Der Artikel stellt SCANNER, ein zweistufiges Modell für die robuste multimodale Namensnennung (MNER) und die gegrundete multimodale Namensnennung (GMNER), vor.
In der ersten Stufe wird ein Modul zur Erkennung von Entitätskandidaten verwendet, um potenzielle Namensentitäten im Text zu identifizieren. In der zweiten Stufe nutzt das Entitätserkennungsmodul diese Kandidaten als Abfragen, um relevantes Wissen aus verschiedenen Quellen, wie Wikipedia, Bildunterschriften und Objektwissen, zu extrahieren und zu verwenden. Dadurch kann das Modell auch mit unbekannten Entitäten umgehen, die nicht im Training vorkamen.
Darüber hinaus führt die Autoren eine neuartige Selbstdistillationsmethode ein, die "Trust Your Teacher" genannt wird. Diese Methode nutzt sowohl die Vorhersagen des Lehrermodells als auch die Ground-Truth-Logits, um das Modell robust gegen Rauschen in den Annotationen zu machen.
Die Experimente zeigen, dass SCANNER im Vergleich zu bestehenden Methoden eine überlegene Leistung in NER-, MNER- und GMNER-Benchmarks erzielt. Insbesondere in der GMNER-Aufgabe, die das Auffinden von Entitäten und deren Begrenzungsboxen in Bildern erfordert, stellt SCANNER einen neuen Spitzenreiter auf.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Hyunjong Ok,... at arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01914.pdfDeeper Inquiries