Video-basierte Textdarstellungen für die Aktivitätserkennung
Wir stellen VicTR vor, ein Framework zur Anpassung von bildbasierten Vision-Language-Modellen (VLMs) an Video, mit Fokus auf video-konditionierte Textdarstellungen. Unser Modell kann auch von frei verfügbaren semantischen Informationen in Form von visuell verankerten Texten profitieren, um den erlernten latenten Raum zu steuern.