Das vorgeschlagene Modell SeCG verbessert die Leistung bei der 3D-visuellen Verankerung, insbesondere bei Beschreibungen mit mehreren referenzierten Objekten, durch semantisch verstärkte relationale Lernmethoden auf Basis eines Graphaufmerksamkeitsnetzwerks.
Ein semantisch angereichertes Modell auf Basis eines Graphaufmerksamkeitsnetzwerks, das die Beziehungen zwischen Objekten in 3D-Szenen besser erfasst und so die Zuordnung von Sprache zu visuellen Informationen verbessert.