핵심 개념
다중 모달 학습 가능 쿼리를 이용하여 이미지와 사용자 댓글로부터 미학 관련 특징을 효과적으로 추출하고, 이를 통해 이미지 미학 평가 성능을 향상시킬 수 있다.
초록
이 논문은 이미지 미학 평가(IAA)를 위해 다중 모달 학습 가능 쿼리(MMLQ)를 제안한다. MMLQ는 사전 학습된 비전 및 텍스트 인코더로부터 이미지와 사용자 댓글의 미학 관련 특징을 효과적으로 추출한다.
구체적으로, MMLQ는 다음과 같은 과정을 거친다:
- 사전 학습된 비전 및 텍스트 인코더를 통해 이미지와 사용자 댓글의 특징을 추출한다.
- 다중 모달 상호작용 블록(MMIB)을 통해 학습 가능한 쿼리를 이용해 이미지와 사용자 댓글의 미학 관련 특징을 추출한다. MMIB는 대체 가능한 자기 주의 층, 교차 주의 층, 피드포워드 층으로 구성된다.
- 추출된 시각적, 텍스트적 미학 특징을 평균하여 연결하고, 선형 층을 통해 최종 미학 점수 분포를 예측한다.
실험 결과, MMLQ는 기존 방법들을 SRCC와 PLCC 기준으로 각각 7.7%, 8.3% 개선하며 새로운 최신 성능을 달성했다. 또한 다양한 실험을 통해 MMLQ의 설계 선택이 미치는 영향을 분석했다.
통계
이미지 미학 점수 분포(MOS)는 1에서 10 사이의 범위를 가진다.
각 이미지에는 78에서 549개의 미학 점수가 있으며, 평균 210개의 점수가 있다.
학습 데이터는 235,510개의 이미지, 테스트 데이터는 19,998개의 이미지로 구성된다.
인용구
"Comments keywords such as "phenomenal", "magical", and "love" for the left image and "blurry", "out of focus", and "messy" for the right image express strong inherent sentiments that could be potentially beneficial for IAA."
"Extensive experimental results demonstrate that MMLQ achieves new state-of-the-art performance on multi-modal IAA, beating previous methods by 7.7% and 8.3% in terms of SRCC and PLCC, respectively."