Dieser Beitrag präsentiert den Forschungsbeitrag des SUN-Teams zum ABAW 2024 Wettbewerb. Das Team untersuchte audiovisuelle Deep-Learning-Ansätze zur Emotion-Erkennung in freier Wildbahn.
Für die Audiomodalität verwendeten sie drei leicht unterschiedliche Modelle, die auf dem PDEM-Modell basieren. Für die Videomodalität experimentierten sie mit statischen Modellen wie EfficientNet und ViT, die zunächst auf Vortrainingsdatensätzen trainiert und dann auf den AffWild2-Datensatz feinabgestimmt wurden. Darauf aufbauend entwickelten sie dynamische Modelle, die den zeitlichen Kontext berücksichtigen.
Zur Fusion der Audio- und Videomodalitäten testeten sie verschiedene Entscheidungs- und Modell-basierte Fusionsstrategien. Die besten Einzelmodelle und Fusionsansätze wurden für die Einreichungen zum Test-Set des ABAW 2024 Wettbewerbs verwendet.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Denis Dresvy... klokken arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12609.pdfDypere Spørsmål