核心概念
현재 강력한 언어 모델을 기반으로 한 비디오 질문 답변 모델은 시각적 질문에 대한 답변 성능이 우수하지만, 관련 시각 정보와의 강한 연관성이 부족하고 언어 단서와 관련 없는 시각 맥락에 크게 의존하고 있다. 이는 모델의 해석 가능성과 신뢰성 향상을 위한 노력이 필요함을 시사한다.
要約
본 연구는 비디오 질문 답변 모델의 시각적 근거 기반 예측 능력을 분석하고자 한다. 구체적으로:
-
NExT-GQA 데이터셋을 구축하여 기존 비디오 질문 답변 데이터셋에 시간적 근거 레이블을 추가하였다. 이를 통해 모델의 답변이 비디오 내용과 얼마나 잘 연관되어 있는지 평가할 수 있다.
-
다양한 최신 비디오 질문 답변 모델을 분석한 결과, 이들 모델은 우수한 답변 성능에도 불구하고 시각적 근거 제시에 매우 취약한 것으로 나타났다. 이는 모델이 언어 단서나 관련 없는 시각 맥락에 크게 의존하고 있음을 시사한다.
-
이를 해결하기 위해 가우시안 마스크 최적화와 교차 모달 학습을 통한 시각적 근거 기반 질문 답변 방법을 제안하였다. 실험 결과, 제안 방법은 시각적 근거 제시와 질문 답변 성능을 모두 향상시킬 수 있음을 보였다.
본 연구는 신뢰할 수 있는 비디오 질문 답변 모델 개발을 위한 중요한 시사점을 제공한다.
統計
현재 비디오 질문 답변 모델의 전체 예측 중 62.5%가 언어 모델만으로도 가능한 수준이다.
현재 비디오 질문 답변 모델의 정답 예측 중 66%와 오답 예측 중 79%가 언어 모델과 중복된다.
현재 최고 성능 비디오 질문 답변 모델(SoTA)의 정답 예측 중 16%만이 시각적 근거를 가지고 있다.
사람은 93%의 질문을 정답으로 예측하고, 그 중 82%에 대해 시각적 근거를 제시할 수 있다.
引用
"현재 비디오 질문 답변 모델의 예측이 과연 관련 비디오 내용에 근거하고 있는지, 아니면 언어 단서나 관련 없는 시각 맥락에 의존하고 있는지에 대한 근본적인 의문이 제기된다."
"비디오 질문 답변 모델의 우수한 답변 성능이 반드시 시각적 근거에 기반한 것은 아니며, 오히려 언어 단서나 관련 없는 시각 맥락에 크게 의존하고 있음을 시사한다."
"사람은 93%의 질문을 정답으로 예측하고, 그 중 82%에 대해 시각적 근거를 제시할 수 있는 반면, 현재 최고 성능 비디오 질문 답변 모델은 정답 예측 중 16%만이 시각적 근거를 가지고 있다."