Conceitos essenciais
본 연구에서는 효율적인 비디오-언어 정렬 (ViLA) 네트워크를 제안합니다. ViLA 모델은 효율적인 프레임 샘플링과 효과적인 크로스-모달 정렬을 통합적으로 다룹니다.
Resumo
본 연구에서는 효율적이고 효과적인 비디오-언어 정렬을 위해 두 가지 새로운 모듈을 제안합니다:
텍스트 기반 Frame-Prompter: 질문 텍스트에 따라 중요한 프레임을 선택하는 모듈입니다. 이를 통해 정확도를 높이면서 추론 지연 시간을 줄일 수 있습니다.
QFormer-Distiller: 비디오 정보를 효과적으로 대형 언어 모델 (LLM)의 입력 도메인으로 전달하는 모듈입니다. 교사-학생 학습 메커니즘을 통해 적은 수의 프레임으로도 우수한 성능을 달성할 수 있습니다.
실험 결과, ViLA 모델은 다양한 비디오 질문 답변 벤치마크에서 최신 기술 수준을 능가하며, 특히 시간적 (인과관계, 시퀀스 등) 유형의 질문에서 강점을 보입니다. 또한 추론 지연 시간을 크게 줄일 수 있습니다.
Estatísticas
비디오 데이터는 하루 평균 122만 시간 이상 YouTube에서 스트리밍되고 있습니다.
비디오 질문 답변 문제는 이미지 질문 답변보다 시간 차원이 추가되어 더 복잡합니다.
기존 방식의 무작위 또는 균일 프레임 샘플링은 중요 정보를 놓칠 수 있습니다.
Citações
"If a picture is worth thousands of words, what is a video worth?" [36]
"Video watching has become a new social norm."