Unser Modell lernt, wie Alltagshandlungen klingen, indem es die Übereinstimmung zwischen Audio, Video und Sprache in narrativen egozentrischenVideos nutzt.