Dieser Beitrag präsentiert den Forschungsbeitrag des SUN-Teams zum ABAW 2024 Wettbewerb. Das Team untersuchte audiovisuelle Deep-Learning-Ansätze zur Emotion-Erkennung in freier Wildbahn.
Für die Audiomodalität verwendeten sie drei leicht unterschiedliche Modelle, die auf dem PDEM-Modell basieren. Für die Videomodalität experimentierten sie mit statischen Modellen wie EfficientNet und ViT, die zunächst auf Vortrainingsdatensätzen trainiert und dann auf den AffWild2-Datensatz feinabgestimmt wurden. Darauf aufbauend entwickelten sie dynamische Modelle, die den zeitlichen Kontext berücksichtigen.
Zur Fusion der Audio- und Videomodalitäten testeten sie verschiedene Entscheidungs- und Modell-basierte Fusionsstrategien. Die besten Einzelmodelle und Fusionsansätze wurden für die Einreichungen zum Test-Set des ABAW 2024 Wettbewerbs verwendet.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Denis Dresvy... at arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12609.pdfDeeper Inquiries