核心概念
Untersuchung von audiovisuellen Deep-Learning-Ansätzen zur Emotion-Erkennung in freier Wildbahn, mit Fokus auf feinabgestimmten Convolutional Neural Networks (CNN) und dem Public Dimensional Emotion Model (PDEM) für Video- und Audiomodalität.
要約
Dieser Beitrag präsentiert den Forschungsbeitrag des SUN-Teams zum ABAW 2024 Wettbewerb. Das Team untersuchte audiovisuelle Deep-Learning-Ansätze zur Emotion-Erkennung in freier Wildbahn.
Für die Audiomodalität verwendeten sie drei leicht unterschiedliche Modelle, die auf dem PDEM-Modell basieren. Für die Videomodalität experimentierten sie mit statischen Modellen wie EfficientNet und ViT, die zunächst auf Vortrainingsdatensätzen trainiert und dann auf den AffWild2-Datensatz feinabgestimmt wurden. Darauf aufbauend entwickelten sie dynamische Modelle, die den zeitlichen Kontext berücksichtigen.
Zur Fusion der Audio- und Videomodalitäten testeten sie verschiedene Entscheidungs- und Modell-basierte Fusionsstrategien. Die besten Einzelmodelle und Fusionsansätze wurden für die Einreichungen zum Test-Set des ABAW 2024 Wettbewerbs verwendet.
統計
Die Audiomodelle erreichten auf dem Entwicklungsset eine F1-Punktzahl von 0,347 für die Ausdruck-Erkennung und eine durchschnittliche CCC von 0,345 für die Valenz-Arousal-Schätzung.
Die besten Videomodelle erreichten auf dem Entwicklungsset eine F1-Punktzahl von 0,397 für die Ausdruck-Erkennung und eine durchschnittliche CCC von 0,574 für die Valenz-Arousal-Schätzung.
Die besten Multimodalen Fusionsansätze erreichten auf dem Entwicklungsset eine F1-Punktzahl von 0,458 für die Ausdruck-Erkennung und eine durchschnittliche CCC von 0,763 für die Valenz-Arousal-Schätzung.
引用
"Untersuchung von audiovisuellen Deep-Learning-Ansätzen zur Emotion-Erkennung in freier Wildbahn"
"Fokus auf feinabgestimmte Convolutional Neural Networks (CNN) und das Public Dimensional Emotion Model (PDEM) für Video- und Audiomodalität"
"Entwicklung dynamischer Modelle, die den zeitlichen Kontext berücksichtigen"