Die Studie beschreibt einen multimedialen Ansatz zur präzisen Erkennung von Gesichtsaktionseinheiten (AUs) in "in-the-wild"-Szenarien. Der Prozess beginnt mit der Vorverarbeitung von Videodaten, bei der Audio- und Videoströme extrahiert werden. Für die Audioanalyse werden Log-Mel-Spektrogramme und MFCC-Merkmale verwendet, die dann durch ein vortrainiertes VGGish-Netzwerk verarbeitet werden. Für die Videoanalyse wird ein vortrainiertes iResNet-Modell eingesetzt, um visuelle Merkmale zu extrahieren.
Um die zeitlichen Dynamiken in den Videodaten zu erfassen, werden Temporal Convolutional Networks (TCN) mit dilatierten Konvolutionsschichten verwendet. Anschließend werden die multimodalen Merkmale durch eine feinabgestimmte GPT-2-Architektur fusioniert, um die kontextbezogenen Zusammenhänge und Nuancen der Gesichtsausdrücke zu erfassen.
Die Ergebnisse zeigen, dass dieser integrierte Ansatz, der fortschrittliche Merkmalsextraktions- und Fusionsmethoden kombiniert, zu einer deutlichen Verbesserung der AU-Erkennungsgenauigkeit führt. Die Studie unterstreicht das Potenzial, zeitliche Dynamiken und kontextuelle Interpretation in die Affektanalyse zu integrieren, um die Interpretation komplexer Verhaltensweisen zu verbessern.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Jun Yu,Zerui... pada arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13678.pdfPertanyaan yang Lebih Dalam