본 연구는 비디오 질문 답변 모델의 시각적 근거 기반 예측 능력을 분석하고자 한다. 구체적으로:
NExT-GQA 데이터셋을 구축하여 기존 비디오 질문 답변 데이터셋에 시간적 근거 레이블을 추가하였다. 이를 통해 모델의 답변이 비디오 내용과 얼마나 잘 연관되어 있는지 평가할 수 있다.
다양한 최신 비디오 질문 답변 모델을 분석한 결과, 이들 모델은 우수한 답변 성능에도 불구하고 시각적 근거 제시에 매우 취약한 것으로 나타났다. 이는 모델이 언어 단서나 관련 없는 시각 맥락에 크게 의존하고 있음을 시사한다.
이를 해결하기 위해 가우시안 마스크 최적화와 교차 모달 학습을 통한 시각적 근거 기반 질문 답변 방법을 제안하였다. 실험 결과, 제안 방법은 시각적 근거 제시와 질문 답변 성능을 모두 향상시킬 수 있음을 보였다.
본 연구는 신뢰할 수 있는 비디오 질문 답변 모델 개발을 위한 중요한 시사점을 제공한다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Junbin Xiao,... في arxiv.org 04-02-2024
https://arxiv.org/pdf/2309.01327.pdfاستفسارات أعمق