Ein einfaches und effizientes generatives Framework zur Verknüpfung von Entitäten in multimodalen Kontexten, das auf großen Sprachmodellen basiert und nur einen geringen Teil der Modellparameter feinabstimmt.
DWE+ kann feinere Semantik erfassen und die semantische Konsistenz mit Entitäten dynamisch aufrechterhalten, indem es drei Aspekte nutzt: (a) Extraktion feinkörniger Bildmerkmale durch Partitionierung des Bildes in mehrere lokale Objekte und Verwendung von hierarchischem kontrastivem Lernen zur Ausrichtung von Semantik. (b) Extraktion visueller Attribute aus Bildern zur Verbesserung der Fusionsmerkmale. (c) Nutzung von Wikipedia und ChatGPT, um die Entitätsrepräsentation semantisch anzureichern, sowohl aus statischer als auch aus dynamischer Perspektive.