Die Studie beschreibt einen multimedialen Ansatz zur präzisen Erkennung von Gesichtsaktionseinheiten (AUs) in "in-the-wild"-Szenarien. Der Prozess beginnt mit der Vorverarbeitung von Videodaten, bei der Audio- und Videoströme extrahiert werden. Für die Audioanalyse werden Log-Mel-Spektrogramme und MFCC-Merkmale verwendet, die dann durch ein vortrainiertes VGGish-Netzwerk verarbeitet werden. Für die Videoanalyse wird ein vortrainiertes iResNet-Modell eingesetzt, um visuelle Merkmale zu extrahieren.
Um die zeitlichen Dynamiken in den Videodaten zu erfassen, werden Temporal Convolutional Networks (TCN) mit dilatierten Konvolutionsschichten verwendet. Anschließend werden die multimodalen Merkmale durch eine feinabgestimmte GPT-2-Architektur fusioniert, um die kontextbezogenen Zusammenhänge und Nuancen der Gesichtsausdrücke zu erfassen.
Die Ergebnisse zeigen, dass dieser integrierte Ansatz, der fortschrittliche Merkmalsextraktions- und Fusionsmethoden kombiniert, zu einer deutlichen Verbesserung der AU-Erkennungsgenauigkeit führt. Die Studie unterstreicht das Potenzial, zeitliche Dynamiken und kontextuelle Interpretation in die Affektanalyse zu integrieren, um die Interpretation komplexer Verhaltensweisen zu verbessern.
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Jun Yu,Zerui... às arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13678.pdfPerguntas Mais Profundas