이 논문은 GPT-4V의 감정 인식 능력을 정량적으로 평가했다. 21개의 벤치마크 데이터셋을 활용해 6가지 감정 인식 과제(시각적 감정 분석, 트윗 감정 분석, 미세 표정 인식, 얼굴 감정 인식, 동적 얼굴 감정 인식, 다중 모달 감정 인식)를 수행했다.
실험 결과, GPT-4V는 시각적 이해 능력이 뛰어나 다양한 감정 인식 과제에서 우수한 성능을 보였다. 특히 다중 모달리티 융합과 시간적 정보 활용에서도 중요한 역할을 하는 것으로 나타났다. 그러나 전문 지식이 필요한 미세 표정 인식에서는 한계를 보였다.
이 논문은 GPT-4V의 감정 인식 능력에 대한 최초의 정량적 평가를 제공하며, 향후 연구자들이 더 많은 과제와 데이터셋을 포함하여 평가 범위를 확장할 수 있는 제로샷 벤치마크를 제공한다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문