이 논문에서는 언어 저장소(LangRepo)라는 해석 가능한 표현을 소개한다. LangRepo는 동영상 청크에 해당하는 캡션을 반복적으로 처리하여 다중 스케일의 언어 표현을 생성한다. 쓰기 작업(write-to-repo)에서는 중복 정보를 제거하고 간결한 설명을 생성한다. 읽기 작업(read-from-repo)에서는 다양한 시간적 스케일의 저장소 항목을 요약하여 동영상 VQA(Visual Question Answering)에 활용한다. 실험 결과, 제안 방식은 EgoSchema, NExT-QA, IntentQA, NExT-GQA 벤치마크에서 우수한 성능을 보였다. 또한 입력 길이가 증가해도 안정적인 성능을 유지하는 것으로 나타났다.
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Kumara Kahat... às arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14622.pdfPerguntas Mais Profundas