DWE+ kann feinere Semantik erfassen und die semantische Konsistenz mit Entitäten dynamisch aufrechterhalten, indem es drei Aspekte nutzt: (a) Extraktion feinkörniger Bildmerkmale durch Partitionierung des Bildes in mehrere lokale Objekte und Verwendung von hierarchischem kontrastivem Lernen zur Ausrichtung von Semantik. (b) Extraktion visueller Attribute aus Bildern zur Verbesserung der Fusionsmerkmale. (c) Nutzung von Wikipedia und ChatGPT, um die Entitätsrepräsentation semantisch anzureichern, sowohl aus statischer als auch aus dynamischer Perspektive.
Die Studie stellt ein neues Rahmenwerk namens RiVEG vor, das die Grounded Multimodale Namensidentifikation (GMNER) als eine Vereinigung von Multimodaler Namensidentifikation (MNER), Visuellem Schlussfolgerungsvermögen (VE) und Visueller Verankerung (VG) reformuliert. Dieses Rahmenwerk nutzt Großsprachmodelle (LLMs) als Brücke, um die Leistungsfähigkeit fortschrittlicher Methoden für jede Teilaufgabe in den entsprechenden Modulen zu integrieren.
Das Kernziel dieses Artikels ist es, ein Rahmenwerk namens MMIDR vorzustellen, das darauf abzielt, große Sprachmodelle dabei zu unterstützen, multimodale Desinformation effizient zu erkennen und zu interpretieren. Dazu werden die Fähigkeiten proprietärer großer Sprachmodelle durch einen Wissenstransfer-Ansatz auf quelloffene Sprachmodelle übertragen.