Die Autoren präsentieren ein neues, einheitliches und interpretierbare Emotionsrepräsentationsmodell, das als C2A2 (Canonical, Compound, Action units, Arousal-valence) bezeichnet wird. Dieses Modell vereint vier bestehende Emotionsmodelle (kanonisch, zusammengesetzt, Aktionseinheiten und Erregung-Valenz) in einem gemeinsamen Rahmen.
Das Kernkonzept ist, das Erregung-Valenz-Modell um eine dritte Dimension zu erweitern, um zusätzliche zusammengesetzte Emotionen abbilden zu können. Die Autoren heben die "Furcht" in die positive dritte Dimension und die "Traurigkeit" in die negative Seite an, um die meisten zusammengesetzten Emotionen abzudecken.
Um die fehlenden Annotationen für die dritte Dimension zu lernen, nutzen die Autoren eine Methode inspiriert von GANmut, die implizit Aktionseinheiten-Informationen verwendet. Darüber hinaus entwickeln sie eine Methode, um Text-zu-Bild-Diffusionsmodelle so zu erweitern, dass sie kontinuierliche Emotionsvektoren als Eingabe verstehen können.
Die Experimente zeigen, dass das vorgeschlagene 3D-Emotionsmodell deutlich bessere Ergebnisse liefert als 2D-Modelle bei der Generierung von Gesichtsausdrücken. Außerdem können mit dem erweiterten Text-zu-Bild-Modell sehr überzeugende Ausdrücke erzeugt werden.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Reni Paskale... pada arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.01243.pdfPertanyaan yang Lebih Dalam