Die Studie entwickelt ein kleines Sehsprache-Modell, um Emotionen in Kunstwerken zu verstehen. Das Modell soll zum einen die Emotionskategorie eines Kunstwerks identifizieren und zum anderen eine natürlichsprachliche Erklärung dafür liefern.
Kleine Modelle sind zwar recheneffizient, haben aber eine begrenzte Kapazität im Vergleich zu großen Modellen. Um diesen Zielkonflikt zu durchbrechen, wird das SEVLM-Modell durch Emotionsmodellierung und Ausrichtung von Eingabe-Ausgabe-Merkmalen aufgebaut.
Einerseits werden emotionale Merkmale aus einem VAD-Wörterbuch (Valenz-Erregung-Dominanz) und einem VAD-Kopf verwendet, um die VAD-Vektoren der vorhergesagten Emotionserklärung und der Grundwahrheit anzugleichen. Dies ermöglicht es dem Sehsprache-Modell, emotionale Texte besser zu verstehen und zu generieren.
Andererseits wird ein Kontrastkopf entwickelt, um die Einbettungen von Bild, Emotionsklasse und Erklärung näher zusammenzubringen und so die Ausrichtung von Modellausgaben und -eingaben zu verbessern.
Auf zwei öffentlichen Datensätzen zur affektiven Erklärung zeigt sich, dass die vorgeschlagenen Techniken die Leistung der Baseline-SEVLM-Modelle beim Verständnis von Kunstwerken konsistent verbessern. Das Modell übertrifft nicht nur die neuesten kleinen Modelle, sondern ist auch konkurrenzfähig im Vergleich zu großen Modellen wie LLaVA 7B und GPT4(V).
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jing Zhang,L... at arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11150.pdfDeeper Inquiries