이 논문에서는 언어 저장소(LangRepo)라는 해석 가능한 표현을 소개한다. LangRepo는 동영상 청크에 해당하는 캡션을 반복적으로 처리하여 다중 스케일의 언어 표현을 생성한다. 쓰기 작업(write-to-repo)에서는 중복 정보를 제거하고 간결한 설명을 생성한다. 읽기 작업(read-from-repo)에서는 다양한 시간적 스케일의 저장소 항목을 요약하여 동영상 VQA(Visual Question Answering)에 활용한다. 실험 결과, 제안 방식은 EgoSchema, NExT-QA, IntentQA, NExT-GQA 벤치마크에서 우수한 성능을 보였다. 또한 입력 길이가 증가해도 안정적인 성능을 유지하는 것으로 나타났다.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Kumara Kahat... klokken arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14622.pdfDypere Spørsmål