언어 인식 행동을 통해 비디오와 언어 간의 상호작용을 개선하여 비디오 질문 답변 성능을 향상시킴
TraveLER은 비디오를 따라 이동하며 질문에 대한 답변을 찾기 위해 키프레임에서 관련 정보를 대화형으로 수집하는 다중 LMM 에이전트 프레임워크이다.
본 논문은 비디오 질문 답변을 위한 분해된 다단계 모듈식 추론 프레임워크를 제안한다. 기존 모듈식 접근법은 단일 계획 단계에서 시각적 내용과 연결되지 않은 한계가 있었다. 이를 해결하기 위해 본 논문에서는 이벤트 파싱, 그라운딩, 추론의 3단계로 구성된 다단계 시스템을 제안한다. 이를 통해 해석 가능한 중간 출력을 생성하면서도 기존 접근법을 능가하는 성능을 달성한다.
화자 주목을 활용하여 비디오와 언어 모달리티를 효과적으로 정렬하고 융합함으로써 사회적 지능 질문 답변 성능을 향상시킨다.
대규모 멀티모달 모델(LMM)을 활용하여 비디오 질문 답변 문제를 해결하기 위해, 질문 관련 핵심 장면을 자동으로 선별하는 약하게 감독된 가우시안 대조 그라운딩 기법을 제안한다.
본 연구에서는 효율적인 비디오-언어 정렬 (ViLA) 네트워크를 제안합니다. ViLA 모델은 효율적인 프레임 샘플링과 효과적인 크로스-모달 정렬을 통합적으로 다룹니다.