Unser Modell lernt, wie Alltagshandlungen klingen, indem es die Übereinstimmung zwischen Audio, Video und Sprache in narrativen egozentrischenVideos nutzt.
VIT-LENS ermöglicht eine effiziente omni-modale Repräsentationslernung, indem es neuartige Modalitäten mit einem vortrainierten ViT wahrnimmt und an einen vordefinierter Raum ausrichtet.