Effiziente Verarbeitung und Analyse von Audio-Visuellen Inhalten durch Equivariance-basiertes Lernen
Durch die Übertragung der Equivariance-Prinzipien vom intra-modalen auf den inter-modalen Raum kann EquiAV robuste und leistungsfähige Audio-Visuelle Repräsentationen lernen, die die Nachteile von Datenaugmentationen vermeiden.