Die Semantik von Instruktionsvideos hat einen entscheidenden Einfluss auf den emotionalen Zustand der Lernenden. Durch die Fusion von Videosemantik und physiologischen Signalen (Augenbewegungen, PPG) kann die Leistung der Emotionserkennung in MOOC-Lernszenarien deutlich verbessert werden.
Der Kerngedanke dieses Artikels ist es, die Textmodaliät als Zwischenschritt zu nutzen, um die feinkörnige audio-visuelle Korrespondenz in Mehrquellenmischungen zu entflechten und so die visuelle Lokalisierung von Schallquellen zu verbessern.