แนวคิดหลัก
LLaVA-MR은 긴 동영상에서 중요한 순간을 정확하게 검색하기 위해 시간 인식 능력을 향상시키고 핵심 정보를 효율적으로 압축하는 새로운 MLLM 기반 접근 방식입니다.
บทคัดย่อ
LLaVA-MR: 긴 동영상에서 특정 순간 검색을 위한 대규모 언어 및 비전 보조 시스템
Lu, W., Li, J., Yu, A., Chang, M., Ji, S., & Xia, M. (2024). LLaVA-MR: Large Language-and-Vision Assistant for Video Moment Retrieval. arXiv preprint arXiv:2411.14505.
본 연구는 긴 동영상에서 자연어 쿼리와 일치하는 특정 순간을 검색하는 데 있어 멀티모달 대규모 언어 모델(MLLM)의 효율성을 향상시키는 것을 목표로 합니다.