Durch den Einsatz eines Ensemble-Lernverfahrens, das mehrere Modelle wie konvolutionelle Netzwerke, Vision Transformer und Multi-Skalen-Aufmerksamkeitsnetzwerke kombiniert, kann die Genauigkeit der Erkennung von zusammengesetzten Gesichtsausdrücken erhöht werden.
Ein Zero-Shot-Ansatz zur Erkennung von zusammengesetzten Gesichtsausdrücken durch die Verwendung eines vortrainierten visuellen Sprachmodells in Kombination mit traditionellen CNN-Netzwerken.