Effiziente zeitliche Filterung für Video-Grounding durch ein vereinheitlichtes statisches und dynamisches Netzwerk
Ein vereinheitlichtes statisches und dynamisches Netzwerk (UniSDNet) wird entwickelt, um die semantische Assoziation zwischen Video und Text-/Audioabfragen in einer crossmodalen Umgebung für ein effizientes Video-Grounding zu lernen. Das statische Modul ist ein vollständig interaktives ResMLP-Netzwerk, das eine globale crossmodale Umgebung für mehrere Abfragen und das Video bereitstellt. Das dynamische Modul ist ein Temporal-Gaussian-Filter-Netzwerk, das den feinen Kontext des Videos mit angehängter Abfrage lernt.