LITA는 비디오 내용 이해와 시간적 위치 파악을 위한 혁신적인 모델이다. 기존 비디오 언어 모델의 한계를 극복하기 위해 다음과 같은 핵심 기능을 제공한다:
시간 토큰: 비디오 길이 대비 상대적인 시간 정보를 나타내는 토큰을 도입하여 시간 정보를 효과적으로 표현한다. 이를 통해 모델이 시간 정보를 정확하게 이해할 수 있다.
SlowFast 토큰: 고해상도의 시간 정보와 공간 정보를 효율적으로 결합하는 토큰 구조를 사용하여 시간적 위치 파악 성능을 높였다.
시간 관련 데이터 활용: 기존 비디오 데이터셋에 시간 정보가 포함된 데이터를 활용하고, 새로운 시간 추론 과제(Reasoning Temporal Localization)와 데이터셋(ActivityNet-RTL)을 제안하여 시간 이해 능력을 향상시켰다.
이러한 혁신적인 설계와 데이터 활용을 통해 LITA는 기존 비디오 언어 모델 대비 월등한 시간 위치 파악 성능을 보여주었다. 또한 이는 전반적인 비디오 이해 능력 향상으로 이어져, 다양한 비디오 기반 질문 답변 과제에서도 큰 성과를 거두었다.
To Another Language
from source content
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by De-An Huang,... ที่ arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.19046.pdfสอบถามเพิ่มเติม