이 논문은 미술 작품에 대한 감정을 이해하고 설명하는 작은 시각 언어 모델을 개발한다. 주요 내용은 다음과 같다:
감정 이해 능력을 높이기 위해 VAD(Valence-Arousal-Dominance) 감정 모델링 기법을 도입한다. VAD 사전에서 추출한 감정 특징을 텍스트 임베딩에 추가하고, VAD 헤드를 통해 예측된 감정 설명의 VAD 벡터와 정답 VAD 벡터의 유사도를 최소화한다.
이미지, 감정 범주, 설명 간의 정렬을 위해 대조 헤드를 제안한다. 이를 통해 세 요소 간의 유사도를 높여 입출력 간 정렬을 개선한다.
실험 결과, 제안 모델은 기존 작은 모델 대비 감정 분류 정확도와 설명 생성 성능이 크게 향상되었으며, 대형 모델인 LLaVA 7B와도 경쟁력 있는 수준을 보였다. 또한 단일 RTX 2080 Ti GPU에서 학습 및 평가가 가능한 계산 효율성을 달성했다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究