대규모 비디오-텍스트 페어 데이터 부족으로 학습 기반 비디오 LLM 구축이 어려운 문제를 해결하기 위해, 이미지 LLM을 활용한 학습 없는 비디오 LLM, TS-LLaVA를 소개합니다. TS-LLaVA는 썸네일 이미지와 샘플링된 비주얼 토큰을 결합하여 효율적인 비주얼 토큰 압축 전략을 통해 비디오 이해 능력을 향상시킵니다.