Durch die Kombination von Temporal Convolutional Networks (TCN) zur Erfassung zeitlicher Dynamiken und dem Einsatz von vortrainierten Modellen wie iResNet und GPT-2 zur Extraktion komplexer visueller und kontextueller Merkmale, erreicht unser Ansatz eine deutliche Verbesserung der Genauigkeit bei der Erkennung von Gesichtsaktionseinheiten in natürlichen Videoaufnahmen.
Untersuchung von audiovisuellen Deep-Learning-Ansätzen zur Emotion-Erkennung in freier Wildbahn, mit Fokus auf feinabgestimmten Convolutional Neural Networks (CNN) und dem Public Dimensional Emotion Model (PDEM) für Video- und Audiomodalität.