Core Concepts
주어진 미술 작품에 대해 감정 범주를 식별하고 이를 자연어로 설명하는 작은 시각 언어 모델을 개발한다.
Abstract
이 논문은 미술 작품에 대한 감정을 이해하고 설명하는 작은 시각 언어 모델을 개발한다. 주요 내용은 다음과 같다:
감정 이해 능력을 높이기 위해 VAD(Valence-Arousal-Dominance) 감정 모델링 기법을 도입한다. VAD 사전에서 추출한 감정 특징을 텍스트 임베딩에 추가하고, VAD 헤드를 통해 예측된 감정 설명의 VAD 벡터와 정답 VAD 벡터의 유사도를 최소화한다.
이미지, 감정 범주, 설명 간의 정렬을 위해 대조 헤드를 제안한다. 이를 통해 세 요소 간의 유사도를 높여 입출력 간 정렬을 개선한다.
실험 결과, 제안 모델은 기존 작은 모델 대비 감정 분류 정확도와 설명 생성 성능이 크게 향상되었으며, 대형 모델인 LLaVA 7B와도 경쟁력 있는 수준을 보였다. 또한 단일 RTX 2080 Ti GPU에서 학습 및 평가가 가능한 계산 효율성을 달성했다.
Stats
감정 분류 정확도(ACC)가 기존 모델 대비 2.1%p 향상되었다.
감정 설명 정렬 점수(EA)가 기존 모델 대비 3.2%p 향상되었다.
감정 분류 정확도(ACC)와 감정 설명 정렬 점수(EA)가 각각 3.5%p, 3.9%p 향상되었다.
Quotes
"주어진 미술 작품에 대해 감정 범주를 식별하고 이를 자연어로 설명하는 것은 시각 언어 모델에 있어 중요한 이정표가 될 수 있다."
"작은 모델은 계산적으로 효율적이지만 용량이 크게 제한되어 있다. 이 문제를 해결하기 위해 본 논문에서는 감정 모델링과 입출력 특징 정렬을 통해 작은 감정 시각 언어 모델(SEVLM)을 구축한다."