Core Concepts
텍스트 조건부 리샘플러(TCR) 모듈은 사전 학습된 시각 인코더와 대형 언어 모델을 사용하여 장기 비디오 시퀀스를 처리할 수 있습니다. TCR은 텍스트 조건에 따라 비디오에서 관련 시각 특징을 찾아내고 이를 언어 모델에 제공합니다.
Abstract
이 논문에서는 텍스트 조건부 비디오 리샘플러(TCR) 모듈을 소개합니다. TCR은 사전 학습된 시각 인코더와 대형 언어 모델을 사용하여 장기 비디오 시퀀스를 처리할 수 있습니다.
주요 내용은 다음과 같습니다:
TCR은 텍스트 조건에 따라 비디오에서 관련 시각 특징을 찾아내고 이를 언어 모델에 제공합니다.
TCR은 교차 주의 메커니즘을 사용하여 100개 이상의 프레임을 한 번에 처리할 수 있습니다.
TCR은 NextQA, EgoSchema, EGO4D-LTA 등 다양한 평가 과제에서 효과적인 성능을 보였습니다.
Stats
비디오는 평균 44초 길이입니다.
비디오는 평균 2.5fps로 샘플링됩니다.
Quotes
"TCR은 텍스트 조건에 따라 비디오에서 관련 시각 특징을 찾아내고 이를 언어 모델에 제공합니다."
"TCR은 교차 주의 메커니즘을 사용하여 100개 이상의 프레임을 한 번에 처리할 수 있습니다."