이 연구는 비디오에서 사람들이 웃는 이유를 이해하는 새로운 과제인 "비디오 웃음 추론"을 제안한다. 이를 위해 SMILE이라는 새로운 데이터셋을 구축했다. SMILE은 비디오 클립과 그에 대한 언어 설명으로 구성되어 있다.
연구진은 대규모 언어 모델(LLM)과 멀티모달 텍스트 표현을 활용한 기준선 모델을 제안했다. 실험 결과, 이 모델은 웃음의 이유에 대한 타당한 설명을 생성할 수 있음을 보여주었다. 또한 데이터 분석과 ablation 연구를 통해 멀티모달 정보가 웃음 이해에 중요한 역할을 한다는 것을 확인했다. 나아가 LLM과 텍스트 표현을 활용하는 접근법의 확장성을 다른 비디오 이해 과제와 실제 비디오에 적용하여 검증했다.
이 연구의 주요 기여는 다음과 같다: 1) 비디오 내 웃음의 이유를 이해하는 새로운 과제 제안, 2) 웃음 이유 설명을 포함하는 SMILE 데이터셋 구축, 3) LLM과 멀티모달 텍스트 표현을 활용한 웃음 추론 기준선 모델 제시 및 확장성 검증.
To Another Language
from source content
arxiv.org
Głębsze pytania