Die Studie präsentiert einen Zero-Shot-Ansatz zur Erkennung von zusammengesetzten Gesichtsausdrücken. Dafür wird ein vortrainiertes visuelles Sprachmodell (Claude3) verwendet, um ungelabelte Daten aus der C-EXPR-DB-Datenbank zu annotieren. Anschließend werden fünf CNN-Klassifikationsnetze (MobileNetV2, ResNet152, DenseNet121, ResNet18, DenseNet201) mit diesen Pseudo-Labels trainiert und feinabgestimmt. Die Autoren nutzen spezielle Verlustfunktionen (BalCELoss, MultiDiceLoss), um mit der Datenunsicherheit und -unausgewogenheit umzugehen. Die Evaluierung erfolgt anhand des durchschnittlichen F1-Scores über alle 7 zusammengesetzten Ausdrücke. Die Ergebnisse zeigen, dass der vorgeschlagene Ansatz eine effektive Lösung für die Erkennung von zusammengesetzten Gesichtsausdrücken in Echtzeit-Szenarien darstellt.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Jiahe Wang,J... klokken arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11450.pdfDypere Spørsmål