이 연구는 이미지 미학 인식을 위한 멀티모달리티 기반 모델 AesExpert를 제안하였다. 먼저 21,904개의 다양한 이미지와 88,000개의 사용자 피드백으로 구성된 AesFeedback 데이터셋을 구축하였다. 이를 바탕으로 409,000개의 미학 관련 지침 데이터셋인 AesMMIT를 생성하였다. 이 데이터셋을 활용하여 기존 오픈소스 모델들을 미세 조정하여 AesExpert 모델을 개발하였다. 실험 결과, AesExpert 모델은 기존 최첨단 모델들보다 월등한 미학 인식 성능을 보였다. 특히 기존 모델들의 약점이었던 인공지능 생성 이미지에 대한 미학 인식 성능이 크게 향상되었다. 또한 미학 해석 능력에서도 큰 성능 향상을 보였다. 이를 통해 제안된 AesExpert 모델이 다양한 이미지 미학 인식 과제에서 우수한 성능을 발휘할 수 있음을 확인하였다.
To Another Language
from source content
arxiv.org
Djupare frågor