본 논문은 비디오 질문 답변(VideoQA) 문제를 해결하기 위한 새로운 모듈식 추론 프레임워크 MoReVQA를 제안한다. 기존 접근법은 단일 단계의 계획 방식을 사용하여 시각적 내용과 연결되지 않는 한계가 있었다. 이를 해결하기 위해 MoReVQA는 다음 3단계로 구성된다:
각 단계는 대형 언어 모델(LLM)을 활용하여 해석 가능한 중간 출력을 생성한다. 또한 외부 메모리를 통해 단계 간 정보를 공유하여 보다 효과적인 추론이 가능하다. 실험 결과, MoReVQA는 기존 단일 단계 모듈식 접근법을 능가하는 성능을 보였으며, 4개의 표준 VideoQA 벤치마크에서 최신 수준의 결과를 달성했다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Juhong Min,S... lúc arxiv.org 04-10-2024
https://arxiv.org/pdf/2404.06511.pdfYêu cầu sâu hơn