Die vorgeschlagene Methode MDHR modelliert umfassend die mehrstufigen dynamischen und hierarchischen räumlich-zeitlichen Beziehungen zwischen Gesichtsaktionseinheiten, um deren Auftreten effizient zu erkennen.
Durch die Konstruktion eines kausalen Diagramms zur Modellierung der Beziehungen zwischen Gesichtsbildern, Probanden, latenten semantischen Beziehungen von Aktionseinheiten und geschätzten Auftrittswahrscheinlichkeiten von Aktionseinheiten wird ein Rahmenwerk für kausale Inferenz vorgeschlagen, um den Einfluss des Störfaktors "Proband" zu entfernen und so eine subjektunabhängige Erkennung von Gesichtsaktionseinheiten zu ermöglichen.
Durch die Kombination von Temporal Convolutional Networks (TCN) zur Erfassung zeitlicher Dynamiken und dem Einsatz von vortrainierten Modellen wie iResNet und GPT-2 zur Extraktion komplexer visueller und kontextueller Merkmale, erreicht unser Ansatz eine deutliche Verbesserung der Genauigkeit bei der Erkennung von Gesichtsaktionseinheiten in natürlichen Videoaufnahmen.
Durch die Verwendung von synthetisch generierten Daten und Multi-Source-Domain-Adaptation können sowohl die Leistung als auch die Fairness bei der Erkennung von Gesichtsaktionseinheiten verbessert werden.