Die Autoren präsentieren ein neues, einheitliches und interpretierbare Emotionsrepräsentationsmodell, das als C2A2 (Canonical, Compound, Action units, Arousal-valence) bezeichnet wird. Dieses Modell vereint vier bestehende Emotionsmodelle (kanonisch, zusammengesetzt, Aktionseinheiten und Erregung-Valenz) in einem gemeinsamen Rahmen.
Das Kernkonzept ist, das Erregung-Valenz-Modell um eine dritte Dimension zu erweitern, um zusätzliche zusammengesetzte Emotionen abbilden zu können. Die Autoren heben die "Furcht" in die positive dritte Dimension und die "Traurigkeit" in die negative Seite an, um die meisten zusammengesetzten Emotionen abzudecken.
Um die fehlenden Annotationen für die dritte Dimension zu lernen, nutzen die Autoren eine Methode inspiriert von GANmut, die implizit Aktionseinheiten-Informationen verwendet. Darüber hinaus entwickeln sie eine Methode, um Text-zu-Bild-Diffusionsmodelle so zu erweitern, dass sie kontinuierliche Emotionsvektoren als Eingabe verstehen können.
Die Experimente zeigen, dass das vorgeschlagene 3D-Emotionsmodell deutlich bessere Ergebnisse liefert als 2D-Modelle bei der Generierung von Gesichtsausdrücken. Außerdem können mit dem erweiterten Text-zu-Bild-Modell sehr überzeugende Ausdrücke erzeugt werden.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Reni Paskale... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.01243.pdfDeeper Inquiries