이 논문은 장기 동영상 이해를 위한 Hierarchical Event-based Memory-enhanced LLM(HEM-LLM) 모델을 제안한다.
먼저, 장기 동영상에 포함된 다양한 이벤트를 개별적으로 처리하기 위해 적응형 시퀀스 분할 기법을 도입한다. 이를 통해 각 이벤트에 대한 독립적인 메모리 모델링을 수행하여 정보 중복을 줄일 수 있다.
다음으로, 현재 이벤트를 모델링할 때 이전 이벤트의 정보를 압축하여 주입함으로써 동영상 내 장기 이벤트 간 의존성을 강화한다.
마지막으로, 다양한 동영상 이해 작업에 대한 실험을 통해 제안 모델의 우수한 성능을 검증한다. 특히 장기 동영상에서 더 큰 성능 향상을 보여, 이벤트 기반 계층적 메모리 모델링의 효과를 입증한다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Dingxin Chen... at arxiv.org 09-11-2024
https://arxiv.org/pdf/2409.06299.pdfDeeper Inquiries