Ein einheitliches und interpretierbare Emotionsrepräsentationsmodell, das vier bestehende Modelle (kanonisch, zusammengesetzt, Aktionseinheiten und Erregung-Valenz) vereint, wird vorgestellt. Dieses Modell ermöglicht eine feinkörnigere Generierung von Gesichtsausdrücken durch Text-zu-Bild-Diffusionsmodelle.
Automatische Annotationsmethoden wie Best-Worst-Skalierung zeigen eine höhere Zuverlässigkeit als direkte Bewertungsskalen bei der Vorhersage von Emotionsintensität in Texten.