Ein Zero-Shot-Ansatz zur Erkennung von zusammengesetzten Gesichtsausdrücken durch die Verwendung eines vortrainierten visuellen Sprachmodells in Kombination mit traditionellen CNN-Netzwerken.
Eine neuartige Methode zur Verbesserung der kontinuierlichen Emotionserkennung, die Selbstvortraining mit Masked Autoencodern, Temporale Konvolutionsnetzwerke und Transformatoren integriert.