이 논문에서는 언어 저장소(LangRepo)라는 해석 가능한 표현을 소개한다. LangRepo는 동영상 청크에 해당하는 캡션을 반복적으로 처리하여 다중 스케일의 언어 표현을 생성한다. 쓰기 작업(write-to-repo)에서는 중복 정보를 제거하고 간결한 설명을 생성한다. 읽기 작업(read-from-repo)에서는 다양한 시간적 스케일의 저장소 항목을 요약하여 동영상 VQA(Visual Question Answering)에 활용한다. 실험 결과, 제안 방식은 EgoSchema, NExT-QA, IntentQA, NExT-GQA 벤치마크에서 우수한 성능을 보였다. 또한 입력 길이가 증가해도 안정적인 성능을 유지하는 것으로 나타났다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Kumara Kahat... ב- arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14622.pdfשאלות מעמיקות