Centrala begrepp
Ein einheitliches und interpretierbare Emotionsrepräsentationsmodell, das vier bestehende Modelle (kanonisch, zusammengesetzt, Aktionseinheiten und Erregung-Valenz) vereint, wird vorgestellt. Dieses Modell ermöglicht eine feinkörnigere Generierung von Gesichtsausdrücken durch Text-zu-Bild-Diffusionsmodelle.
Sammanfattning
Die Autoren präsentieren ein neues, einheitliches und interpretierbare Emotionsrepräsentationsmodell, das als C2A2 (Canonical, Compound, Action units, Arousal-valence) bezeichnet wird. Dieses Modell vereint vier bestehende Emotionsmodelle (kanonisch, zusammengesetzt, Aktionseinheiten und Erregung-Valenz) in einem gemeinsamen Rahmen.
Das Kernkonzept ist, das Erregung-Valenz-Modell um eine dritte Dimension zu erweitern, um zusätzliche zusammengesetzte Emotionen abbilden zu können. Die Autoren heben die "Furcht" in die positive dritte Dimension und die "Traurigkeit" in die negative Seite an, um die meisten zusammengesetzten Emotionen abzudecken.
Um die fehlenden Annotationen für die dritte Dimension zu lernen, nutzen die Autoren eine Methode inspiriert von GANmut, die implizit Aktionseinheiten-Informationen verwendet. Darüber hinaus entwickeln sie eine Methode, um Text-zu-Bild-Diffusionsmodelle so zu erweitern, dass sie kontinuierliche Emotionsvektoren als Eingabe verstehen können.
Die Experimente zeigen, dass das vorgeschlagene 3D-Emotionsmodell deutlich bessere Ergebnisse liefert als 2D-Modelle bei der Generierung von Gesichtsausdrücken. Außerdem können mit dem erweiterten Text-zu-Bild-Modell sehr überzeugende Ausdrücke erzeugt werden.
Statistik
Die Erweiterung des Erregung-Valenz-Modells um eine dritte Dimension ermöglicht die Darstellung von 15 von 17 gewünschten zusammengesetzten Emotionen, während das 2D-Modell nur 6 von 17 darstellen kann.
Die vorgeschlagene 3D-Repräsentation erzielt einen deutlich niedrigeren Fr´
echet Emotion Distance (FED) Wert von 16,060 im Vergleich zu 20,347 für das 2D-Modell.
Die Emotionsrekonstruktionsgenauigkeit (ERE) der 3D-Repräsentation beträgt 0,0536, während sie für das 2D-Modell 0,0774 beträgt.
Die Bewertungen der Psychologen zeigen, dass die mit dem 3D-Modell generierten Bilder deutlich besser die gewünschten Emotionen darstellen als die Bilder der anderen Methoden.
Citat
"Wir schlagen ein interpretierbares und einheitliches Emotionsmodell vor, das als C2A2 (Canonical, Compound, Action units, Arousal-valence) bezeichnet wird."
"Unser vorgeschlagenes Vereinigungsangebot bietet eine bessere Darstellung und führt zu einer vielseitigeren Emotionsgenerierung."
"Wir modifizieren auch die textbedingten Diffusionsmodelle, um kontinuierliche Zahlen zu verstehen, die dann verwendet werden, um kontinuierliche Ausdrücke unter Verwendung unseres einheitlichen Emotionsmodells zu generieren."