Concetti Chiave
화자 주목을 활용하여 비디오와 언어 모달리티를 효과적으로 정렬하고 융합함으로써 사회적 지능 질문 답변 성능을 향상시킨다.
Sintesi
이 연구는 사회적 지능 질문 답변(SIQA) 문제를 해결하기 위한 새로운 접근법을 제안한다. SIQA 문제는 비디오 내 사회적 상호작용을 이해하고 해석하는 것을 요구하며, 이를 위해서는 다중 모달리티(비디오, 오디오, 텍스트) 간의 효과적인 정렬과 융합이 필요하다.
제안하는 접근법은 다음과 같은 핵심 구성요소로 이루어진다:
화자 주목 기반 비디오 프레임 샘플링(Speaking Turn Sampling, STS): 오디오 정보를 활용하여 대화가 이루어지는 구간을 식별하고, 해당 구간의 비디오 프레임을 선별적으로 샘플링한다. 이를 통해 대화와 관련된 시각 정보를 효과적으로 추출할 수 있다.
비전-언어 교차 문맥화(Vision-Language Cross Contextualization, VLCC): 샘플링된 비디오 프레임과 대응되는 대화 텍스트를 CLIP 모델을 통해 임베딩한 후, 이를 융합하여 언어 모델에 입력한다. 이를 통해 비디오와 언어 정보 간의 상호작용을 효과적으로 모델링할 수 있다.
실험 결과, 제안하는 접근법은 기존 최신 모델 대비 3.89%p 향상된 82.06%의 정확도를 달성하며, 사회적 지능 질문 답변 문제에서 새로운 최고 성능을 보여준다. 또한 비디오 정보 활용도와 언어 정보 활용도가 모두 향상되어, 다중 모달리티 간 균형 잡힌 융합이 가능함을 확인하였다.
Statistiche
비디오 내 화자 간 대화 구간의 길이가 전체 비디오 길이에서 차지하는 비율은 평균 약 50%이다.
비디오 내 등장인물 중 약 85%가 백인으로 나타나, 데이터셋의 다양성이 부족한 것으로 확인되었다.
Citazioni
"비디오 질문 답변(VQA)은 시각적 이해와 자연어 처리 사이의 격차를 해소하는 것을 목표로 하는 도전적인 분야이다."
"사회적 지능 질문 답변(SIQA)은 문맥 이해, 시간적 추론, 다중 모달리티 정보 통합을 요구하며, 더불어 미묘한 인간 행동을 처리해야 한다."