Ein semantisch angereichertes 3D-Visuelle-Verankerung-Modell mit Kreuzmodaler Graphaufmerksamkeit
Ein semantisch angereichertes Modell auf Basis eines Graphaufmerksamkeitsnetzwerks, das die Beziehungen zwischen Objekten in 3D-Szenen besser erfasst und so die Zuordnung von Sprache zu visuellen Informationen verbessert.