核心概念
대규모 언어 모델을 활용하여 장기 동영상의 세부적인 이해와 정확한 응답 생성을 달성하는 방법을 제안한다.
摘要
이 논문은 장기 동영상 이해를 위한 효율적인 비디오 대규모 언어 모델인 LongVLM을 소개한다. 기존 접근법은 전체 동영상의 전역 의미 정보만을 활용하여 동영상 이해를 수행했지만, 이는 동영상의 세부적인 정보를 간과할 수 있다.
LongVLM은 다음과 같은 방식으로 동영상 이해 성능을 향상시킨다:
- 장기 동영상을 여러 단기 세그먼트로 분할하고, 각 세그먼트의 지역 특징을 추출한다. 이를 통해 동영상의 시간적 구조와 세부 정보를 보존한다.
- 지역 특징과 전역 의미 정보를 통합하여 동영상 표현을 구축한다. 이를 통해 지역 정보와 전역 맥락을 모두 활용할 수 있다.
- 통합된 동영상 표현을 대규모 언어 모델에 입력하여 장기 동영상에 대한 세부적이고 일관된 응답을 생성한다.
실험 결과, LongVLM은 기존 최신 모델들을 크게 능가하며, 장기 동영상에 대한 세부적인 이해와 정확한 응답 생성 능력을 보여준다.
統計資料
장기 동영상은 연속적인 핵심 이벤트, 복잡한 행동, 카메라 움직임으로 구성된다.
기존 접근법은 전체 동영상의 전역 의미 정보만을 활용하여 동영상 이해를 수행했지만, 이는 동영상의 세부적인 정보를 간과할 수 있다.
LongVLM은 장기 동영상을 여러 단기 세그먼트로 분할하고, 각 세그먼트의 지역 특징과 전역 의미 정보를 통합하여 동영상 표현을 구축한다.