Effiziente Verarbeitung und Analyse von Inhalten zur Gewinnung von Erkenntnissen: Eine Reformulierung der Grounded Multimodalen Namensidentifikation
Die Studie stellt ein neues Rahmenwerk namens RiVEG vor, das die Grounded Multimodale Namensidentifikation (GMNER) als eine Vereinigung von Multimodaler Namensidentifikation (MNER), Visuellem Schlussfolgerungsvermögen (VE) und Visueller Verankerung (VG) reformuliert. Dieses Rahmenwerk nutzt Großsprachmodelle (LLMs) als Brücke, um die Leistungsfähigkeit fortschrittlicher Methoden für jede Teilaufgabe in den entsprechenden Modulen zu integrieren.