이 논문은 장기 동영상 이해를 위한 효율적인 비디오 대규모 언어 모델인 LongVLM을 소개한다. 기존 접근법은 전체 동영상의 전역 의미 정보만을 활용하여 동영상 이해를 수행했지만, 이는 동영상의 세부적인 정보를 간과할 수 있다.
LongVLM은 다음과 같은 방식으로 동영상 이해 성능을 향상시킨다:
실험 결과, LongVLM은 기존 최신 모델들을 크게 능가하며, 장기 동영상에 대한 세부적인 이해와 정확한 응답 생성 능력을 보여준다.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yuetian Weng... lúc arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03384.pdfYêu cầu sâu hơn