Core Concepts
Ein kleines emotionales Sehsprache-Modell (SEVLM) wird entwickelt, um Emotionen in Kunstwerken zu verstehen und zu erklären.
Abstract
Die Studie entwickelt ein kleines Sehsprache-Modell, um Emotionen in Kunstwerken zu verstehen. Das Modell soll zum einen die Emotionskategorie eines Kunstwerks identifizieren und zum anderen eine natürlichsprachliche Erklärung dafür liefern.
Kleine Modelle sind zwar recheneffizient, haben aber eine begrenzte Kapazität im Vergleich zu großen Modellen. Um diesen Zielkonflikt zu durchbrechen, wird das SEVLM-Modell durch Emotionsmodellierung und Ausrichtung von Eingabe-Ausgabe-Merkmalen aufgebaut.
Einerseits werden emotionale Merkmale aus einem VAD-Wörterbuch (Valenz-Erregung-Dominanz) und einem VAD-Kopf verwendet, um die VAD-Vektoren der vorhergesagten Emotionserklärung und der Grundwahrheit anzugleichen. Dies ermöglicht es dem Sehsprache-Modell, emotionale Texte besser zu verstehen und zu generieren.
Andererseits wird ein Kontrastkopf entwickelt, um die Einbettungen von Bild, Emotionsklasse und Erklärung näher zusammenzubringen und so die Ausrichtung von Modellausgaben und -eingaben zu verbessern.
Auf zwei öffentlichen Datensätzen zur affektiven Erklärung zeigt sich, dass die vorgeschlagenen Techniken die Leistung der Baseline-SEVLM-Modelle beim Verständnis von Kunstwerken konsistent verbessern. Das Modell übertrifft nicht nur die neuesten kleinen Modelle, sondern ist auch konkurrenzfähig im Vergleich zu großen Modellen wie LLaVA 7B und GPT4(V).
Stats
Das SEVLM-Modell kann auf einer einzelnen RTX 2080 Ti GPU trainiert und evaluiert werden.
Das SEVLM-Modell ist 42-mal kleiner als das LLaVA 7B-Modell.
Das SEVLM-Modell hat eine höhere Inferenzgeschwindigkeit als das LLaVA 7B-Modell.
Quotes
"Das SEVLM-Modell nicht nur die neuesten kleinen Modelle übertrifft, sondern auch konkurrenzfähig im Vergleich zu großen Modellen wie LLaVA 7B und GPT4(V) ist."
"Das SEVLM-Modell kann auf einer einzelnen RTX 2080 Ti GPU trainiert und evaluiert werden."