Die Studie beschreibt einen multimedialen Ansatz zur präzisen Erkennung von Gesichtsaktionseinheiten (AUs) in "in-the-wild"-Szenarien. Der Prozess beginnt mit der Vorverarbeitung von Videodaten, bei der Audio- und Videoströme extrahiert werden. Für die Audioanalyse werden Log-Mel-Spektrogramme und MFCC-Merkmale verwendet, die dann durch ein vortrainiertes VGGish-Netzwerk verarbeitet werden. Für die Videoanalyse wird ein vortrainiertes iResNet-Modell eingesetzt, um visuelle Merkmale zu extrahieren.
Um die zeitlichen Dynamiken in den Videodaten zu erfassen, werden Temporal Convolutional Networks (TCN) mit dilatierten Konvolutionsschichten verwendet. Anschließend werden die multimodalen Merkmale durch eine feinabgestimmte GPT-2-Architektur fusioniert, um die kontextbezogenen Zusammenhänge und Nuancen der Gesichtsausdrücke zu erfassen.
Die Ergebnisse zeigen, dass dieser integrierte Ansatz, der fortschrittliche Merkmalsextraktions- und Fusionsmethoden kombiniert, zu einer deutlichen Verbesserung der AU-Erkennungsgenauigkeit führt. Die Studie unterstreicht das Potenzial, zeitliche Dynamiken und kontextuelle Interpretation in die Affektanalyse zu integrieren, um die Interpretation komplexer Verhaltensweisen zu verbessern.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Jun Yu,Zerui... alle arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13678.pdfDomande più approfondite