Concepts de base
Ein Zero-Shot-Ansatz zur Erkennung von zusammengesetzten Gesichtsausdrücken durch die Verwendung eines vortrainierten visuellen Sprachmodells in Kombination mit traditionellen CNN-Netzwerken.
Résumé
Die Studie präsentiert einen Zero-Shot-Ansatz zur Erkennung von zusammengesetzten Gesichtsausdrücken. Dafür wird ein vortrainiertes visuelles Sprachmodell (Claude3) verwendet, um ungelabelte Daten aus der C-EXPR-DB-Datenbank zu annotieren. Anschließend werden fünf CNN-Klassifikationsnetze (MobileNetV2, ResNet152, DenseNet121, ResNet18, DenseNet201) mit diesen Pseudo-Labels trainiert und feinabgestimmt. Die Autoren nutzen spezielle Verlustfunktionen (BalCELoss, MultiDiceLoss), um mit der Datenunsicherheit und -unausgewogenheit umzugehen. Die Evaluierung erfolgt anhand des durchschnittlichen F1-Scores über alle 7 zusammengesetzten Ausdrücke. Die Ergebnisse zeigen, dass der vorgeschlagene Ansatz eine effektive Lösung für die Erkennung von zusammengesetzten Gesichtsausdrücken in Echtzeit-Szenarien darstellt.
Stats
Die Datenbank C-EXPR-DB enthält insgesamt 400 Videos mit ca. 200.000 Frames, die mit 12 zusammengesetzten Ausdrücken annotiert sind.
Für die Herausforderung werden 7 zusammengesetzte Ausdrücke betrachtet: Ängstlich überrascht, Glücklich überrascht, Traurig überrascht, Angeekelt überrascht, Wütend überrascht, Traurig ängstlich und Traurig wütend.
Citations
"Konventionelle Ansätze zur Gesichtsausdruckserkennung konzentrieren sich in erster Linie auf die Klassifizierung der sechs Grundgesichtsausdrücke. Dennoch weisen Situationen im realen Leben eine viel größere Komplexität auf als diese vordefinierten Kategorien."
"Die Einführung von zusammengesetzten Ausdrücken eröffnet ein neues Forschungsfeld für die Gesichtsausdruckserkennung und hat das Potenzial, die Bereiche Computer Vision und Künstliche Intelligenz auf ein höheres Niveau zu heben."