장기 동영상에 포함된 다양한 이벤트 정보를 개별적으로 처리하여 정보 중복을 줄이고, 이벤트 간 장기 의존성을 모델링함으로써 동영상 이해 성능을 향상시킨다.
언어 저장소(LangRepo)는 다중 스케일 텍스트 기반 표현을 통해 대형 언어 모델(LLM)의 문맥 활용도를 높이고 해석 가능성을 제공한다.