Główne pojęcia
대규모 멀티모달 모델(LMM)을 활용하여 비디오 질문 답변 문제를 해결하기 위해, 질문 관련 핵심 장면을 자동으로 선별하는 약하게 감독된 가우시안 대조 그라운딩 기법을 제안한다.
Streszczenie
이 논문은 비디오 질문 답변(VideoQA) 문제를 해결하기 위해 대규모 멀티모달 모델(LMM)을 활용하는 방법을 제안한다. 기존 LMM은 비디오의 균일하게 샘플링된 프레임을 사용하여 답변을 예측하지만, 이는 질문과 관련된 핵심 장면을 고려하지 않는다는 한계가 있다.
이를 해결하기 위해 저자들은 약하게 감독된 가우시안 대조 그라운딩(GCG) 기법을 제안한다. 먼저 CLIP 모델을 활용하여 질문-답변 쌍을 기반으로 질문 관련 핵심 프레임에 대한 약한 감독 레이블을 생성한다. 이를 바탕으로 GCG 모듈은 다중 가우시안 마스크를 학습하여 질문 관련 핵심 장면을 선별하고, 대조 손실 함수를 통해 선별된 장면과 질문-답변 쌍의 관련성을 높인다.
실험 결과, 제안 방법은 다양한 비디오 질문 답변 벤치마크에서 기존 방법 대비 큰 성능 향상을 보였다. 특히 복잡한 인과관계와 시간적 추론이 요구되는 질문에서 두드러진 성능 향상을 보였다.
Statystyki
비디오 길이가 평균 44초인 NExT-QA 데이터셋에서 기존 방법 대비 2.1%p 향상된 정확도를 달성했다.
비디오 길이가 평균 10초인 MSVD-QA 데이터셋에서 2%p 향상된 정확도를 달성했다.
비디오 길이가 평균 180초인 ActivityNet-QA 데이터셋에서 3.6%p 향상된 정확도를 달성했다.
Cytaty
"비디오 질문 답변(VideoQA)은 비디오에서 관찰된 정보를 바탕으로 자연어 질문에 답변하는 것을 목표로 한다."
"현재 LMM은 단순히 균일하게 샘플링된 프레임을 시각적 입력으로 사용하여 VideoQA를 다루고 있지만, 이는 질문 관련 시각적 단서를 무시하고 있다."