Vorausschauende Blickvorhersage durch Audio-Visuelle Verarbeitung in der Egozentrische Videoanalyse
Ein neuartiger Ansatz zur Fusion von Audio- und Videosignalen, der räumliche und zeitliche Korrelationen separat modelliert, um die Blickvorhersage in egozentrische Videos zu verbessern.