Durch die Kombination von Temporal Convolutional Networks (TCN) zur Erfassung zeitlicher Dynamiken und dem Einsatz von vortrainierten Modellen wie iResNet und GPT-2 zur Extraktion komplexer visueller und kontextueller Merkmale, erreicht unser Ansatz eine deutliche Verbesserung der Genauigkeit bei der Erkennung von Gesichtsaktionseinheiten in natürlichen Videoaufnahmen.


coremsg

multimodale-methode-zur-präzisen-erkennung-von-gesichtsaktionseinheiten-in-natürlichen-videoaufnahmen


Multimodale Methode zur präzisen Erkennung von Gesichtsaktionseinheiten in natürlichen Videoaufnahmen


title_rewrite


Untersuchung von audiovisuellen Deep-Learning-Ansätzen zur Emotion-Erkennung in freier Wildbahn, mit Fokus auf feinabgestimmten Convolutional Neural Networks (CNN) und dem Public Dimensional Emotion Model (PDEM) für Video- und Audiomodalität.


audiovisuelle-emotion-erkennung-und-ausdruck-erkennung-für-den-abaw-2024-wettbewerb


Audiovisuelle Emotion-Erkennung und Ausdruck-Erkennung für den ABAW 2024 Wettbewerb