이 논문은 장기 동영상 이해를 위한 Hierarchical Event-based Memory-enhanced LLM(HEM-LLM) 모델을 제안한다.
먼저, 장기 동영상에 포함된 다양한 이벤트를 개별적으로 처리하기 위해 적응형 시퀀스 분할 기법을 도입한다. 이를 통해 각 이벤트에 대한 독립적인 메모리 모델링을 수행하여 정보 중복을 줄일 수 있다.
다음으로, 현재 이벤트를 모델링할 때 이전 이벤트의 정보를 압축하여 주입함으로써 동영상 내 장기 이벤트 간 의존성을 강화한다.
마지막으로, 다양한 동영상 이해 작업에 대한 실험을 통해 제안 모델의 우수한 성능을 검증한다. 특히 장기 동영상에서 더 큰 성능 향상을 보여, 이벤트 기반 계층적 메모리 모델링의 효과를 입증한다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Dingxin Chen... lúc arxiv.org 09-11-2024
https://arxiv.org/pdf/2409.06299.pdfYêu cầu sâu hơn