核心概念
Durch die Kombination von Temporal Convolutional Networks (TCN) zur Erfassung zeitlicher Dynamiken und dem Einsatz von vortrainierten Modellen wie iResNet und GPT-2 zur Extraktion komplexer visueller und kontextueller Merkmale, erreicht unser Ansatz eine deutliche Verbesserung der Genauigkeit bei der Erkennung von Gesichtsaktionseinheiten in natürlichen Videoaufnahmen.
要約
Die Studie beschreibt einen multimedialen Ansatz zur präzisen Erkennung von Gesichtsaktionseinheiten (AUs) in "in-the-wild"-Szenarien. Der Prozess beginnt mit der Vorverarbeitung von Videodaten, bei der Audio- und Videoströme extrahiert werden. Für die Audioanalyse werden Log-Mel-Spektrogramme und MFCC-Merkmale verwendet, die dann durch ein vortrainiertes VGGish-Netzwerk verarbeitet werden. Für die Videoanalyse wird ein vortrainiertes iResNet-Modell eingesetzt, um visuelle Merkmale zu extrahieren.
Um die zeitlichen Dynamiken in den Videodaten zu erfassen, werden Temporal Convolutional Networks (TCN) mit dilatierten Konvolutionsschichten verwendet. Anschließend werden die multimodalen Merkmale durch eine feinabgestimmte GPT-2-Architektur fusioniert, um die kontextbezogenen Zusammenhänge und Nuancen der Gesichtsausdrücke zu erfassen.
Die Ergebnisse zeigen, dass dieser integrierte Ansatz, der fortschrittliche Merkmalsextraktions- und Fusionsmethoden kombiniert, zu einer deutlichen Verbesserung der AU-Erkennungsgenauigkeit führt. Die Studie unterstreicht das Potenzial, zeitliche Dynamiken und kontextuelle Interpretation in die Affektanalyse zu integrieren, um die Interpretation komplexer Verhaltensweisen zu verbessern.
統計
Die Aff-Wild2-Datenbank umfasst 567 Videos mit Annotationen für Valenz-Erregungs-Dynamiken, 548 Videos mit Annotationen für acht Ausdruckskategorien und 547 Videos mit Annotationen für 12 Aktionseinheiten. Insgesamt sind 172.360 Bilder mit Annotationen für Valenz-Erregungs-Spektrum, sechs Basisausdrücke plus neutral und "andere" Zustände sowie 12 Aktionseinheiten enthalten.
引用
"Durch die Kombination von Temporal Convolutional Networks (TCN) zur Erfassung zeitlicher Dynamiken und dem Einsatz von vortrainierten Modellen wie iResNet und GPT-2 zur Extraktion komplexer visueller und kontextueller Merkmale, erreicht unser Ansatz eine deutliche Verbesserung der Genauigkeit bei der Erkennung von Gesichtsaktionseinheiten in natürlichen Videoaufnahmen."
"Die Studie unterstreicht das Potenzial, zeitliche Dynamiken und kontextuelle Interpretation in die Affektanalyse zu integrieren, um die Interpretation komplexer Verhaltensweisen zu verbessern."