Conceitos Básicos
통합 멀티모달 이미지 미적 평가 프레임워크(UNIAA)를 제안하여, 인간의 미적 평가 과정과 일치하는 방식으로 미적 지각, 설명, 평가 능력을 통합적으로 평가할 수 있는 기준선 및 벤치마크를 제공한다.
Resumo
이 논문은 이미지 미적 평가(IAA)를 위한 통합 멀티모달 프레임워크인 UNIAA를 제안한다. UNIAA는 인간의 미적 평가 과정을 반영하여 미적 지각, 설명, 평가 능력을 통합적으로 평가할 수 있는 기준선 및 벤치마크를 제공한다.
UNIAA의 핵심 구성요소는 다음과 같다:
UNIAA-LLaVA: 멀티모달 대형 언어 모델(MLLM)을 기반으로 한 IAA 기준선 모델. MLLM의 시각적 지각 능력과 언어 능력을 활용하여 통합적인 IAA 수행이 가능하다.
IDCP(IAA Dataset Conversion Paradigm): 기존 IAA 데이터셋을 MLLM 학습을 위한 시각적 지침 데이터로 변환하는 저비용 방법론.
UNIAA-Bench: IAA 능력을 미적 지각, 설명, 평가의 3가지 측면에서 종합적으로 평가하는 벤치마크.
실험 결과, UNIAA-LLaVA는 UNIAA-Bench의 모든 측면에서 우수한 성능을 보였다. 특히 미적 지각 능력에서는 GPT-4V를 능가하고 초급 수준 인간에 근접한 성과를 달성했다. 이를 통해 MLLM이 IAA 분야에서 큰 잠재력을 가지고 있음을 확인할 수 있었다.
Estatísticas
이 사진은 대칭적인 구도를 사용하여 건축물의 엄숙함과 조화로움을 보여준다.
주요 피사체가 시각적 중심에 위치하여 두드러지게 나타난다.
색상은 차갑고 통일된 레이어링을 보인다.
전반적인 조명은 깊고 음울하다.