현재 강력한 언어 모델을 기반으로 한 비디오 질문 답변 모델은 시각적 질문에 대한 답변 성능이 우수하지만, 관련 시각 정보와의 강한 연관성이 부족하고 언어 단서와 관련 없는 시각 맥락에 크게 의존하고 있다. 이는 모델의 해석 가능성과 신뢰성 향상을 위한 노력이 필요함을 시사한다.