Zählen von Wiederholungen in Videos durch Verwendung von Beispielen
Das ESCounts-Modell verwendet Aufmerksamkeitsmechanismen, um visuelle Entsprechungen von Videobeispielen über Wiederholungen hinweg in Zielvideos zu entdecken, um die Anzahl der Wiederholungen genau vorherzusagen.