이 논문은 TimeChat이라는 시간 민감형 멀티모달 대규모 언어 모델을 제안한다. TimeChat은 장편 비디오 이해를 위해 설계되었으며, 두 가지 핵심 아키텍처 기여를 포함한다:
또한 저자들은 시간 관련 사용자 요구사항을 다루기 위해 TimeIT라는 새로운 지시 튜닝 데이터셋을 구축했다. TimeIT는 6가지 과제와 12개의 벤치마크 데이터셋, 총 125,000개의 인스턴스로 구성된다.
실험 결과, TimeChat은 기존 비디오 대규모 언어 모델 대비 다양한 비디오 이해 과제에서 뛰어난 성능을 보였다. 예를 들어 YouCook2에서 +9.2 F1 점수, +2.8 CIDEr, QVHighlights에서 +5.8 HIT@1, Charades-STA에서 +27.5 R@1(IoU=0.5)의 성능 향상을 달성했다. 이를 통해 TimeChat이 장편 비디오 이해 과제와 실제 사용자 요구사항을 충족할 수 있는 유용한 비디오 어시스턴트로 활용될 수 있음을 보여준다.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Shuhuai Ren,... lúc arxiv.org 03-29-2024
https://arxiv.org/pdf/2312.02051.pdfYêu cầu sâu hơn