核心概念
TimeChat은 장편 비디오 이해를 위해 개발된 시간 민감형 멀티모달 대규모 언어 모델로, 시간 인식 프레임 인코더와 슬라이딩 비디오 Q-Former 모듈을 통해 정확한 시간 위치 파악 및 이벤트 요약 기능을 제공한다.
要約
이 논문은 TimeChat이라는 시간 민감형 멀티모달 대규모 언어 모델을 제안한다. TimeChat은 장편 비디오 이해를 위해 설계되었으며, 두 가지 핵심 아키텍처 기여를 포함한다:
- 시간 인식 프레임 인코더: 각 프레임의 시간 정보를 시각 콘텐츠와 결합하여 정확한 시간 위치 파악을 가능하게 한다.
- 슬라이딩 비디오 Q-Former: 다양한 길이의 비디오 토큰 시퀀스를 생성하여 길이가 다른 비디오에 적응할 수 있다.
또한 저자들은 시간 관련 사용자 요구사항을 다루기 위해 TimeIT라는 새로운 지시 튜닝 데이터셋을 구축했다. TimeIT는 6가지 과제와 12개의 벤치마크 데이터셋, 총 125,000개의 인스턴스로 구성된다.
실험 결과, TimeChat은 기존 비디오 대규모 언어 모델 대비 다양한 비디오 이해 과제에서 뛰어난 성능을 보였다. 예를 들어 YouCook2에서 +9.2 F1 점수, +2.8 CIDEr, QVHighlights에서 +5.8 HIT@1, Charades-STA에서 +27.5 R@1(IoU=0.5)의 성능 향상을 달성했다. 이를 통해 TimeChat이 장편 비디오 이해 과제와 실제 사용자 요구사항을 충족할 수 있는 유용한 비디오 어시스턴트로 활용될 수 있음을 보여준다.
統計
369, 371, 373, 375, 377, 379, 381, 383, 385, 387, 389초에 하이라이트 타임스탬프가 있으며, 해당 프레임의 중요도 점수는 1.4, 2.8, 3.8, 4.0, 4.0, 4.0, 3.7, 4.0, 3.5, 4.0, 3.3이다.
135 - 175초 사이에 돼지고기 지방을 제거하고 슬라이스로 자른다.
180 - 209초 사이에 파 1인치 크기로 자른다.
214 - 225초 사이에 붉은 양파를 채로 자른다.
226 - 242초 사이에 중국 브로콜리를 다진다.
245 - 267초 사이에 버섯을 얇게 썰어낸다.
299 - 323초 사이에 우동 면을 물에 삶는다.
345 - 362초 사이에 중국 브로콜리를 삶아 물기를 뺀다.
412 - 419초 사이에 우동 면을 넣고 조리한다.
425 - 449초 사이에 미리 만든 소스를 넣고 섞는다.
引用
274 - 290초 사이에 간장, 물, 설탕을 섞어 소스를 만드는 구체적인 지침이 있다.