VideoMAC kombiniert Video Masked Autoencoders mit ConvNets, übertrifft ViT-basierte Ansätze in verschiedenen Aufgaben.