Offene Vokabular-Spatio-Temporale Video-Grounding: Überlegungen zur Verbesserung der Leistung in geschlossenen und offenen Szenarien
Dieser Artikel präsentiert einen Ansatz für offene Vokabular-Spatio-Temporale Video-Grounding, der die Stärken von Grundmodellen für räumliches Grounding nutzt, um sowohl in geschlossenen als auch in offenen Szenarien starke Leistung zu erzielen.