시선 추적 데이터를 활용하여 비디오에서 사용자의 의도를 인식하고 이를 바탕으로 향후 행동을 예측하는 모델을 제안한다.
정적 특징과 동작 특징을 분리하여 각각의 역할을 강화함으로써 참조 비디오 분할의 성능을 향상시킨다.
대규모 언어 모델을 활용하여 장기 동영상의 세부적인 이해와 정확한 응답 생성을 달성하는 방법을 제안한다.
참조 비디오 객체 분할 모델은 텍스트 표현에 과도하게 집중하는 경향이 있어 객체의 외형 정보를 충분히 활용하지 못한다. 이를 해결하기 위해 장단문 텍스트 표현을 활용하여 객체의 외형 정보에 더 집중할 수 있도록 하고, 장단문 예측 간 교차 주의 메커니즘과 교차 예측 교차 손실을 도입하였다.
비디오에서 사람들이 웃는 이유를 설명하는 것이 핵심 과제이다.
LoSA는 대규모 비디오 기반 모델을 활용하여 시간 동작 검출 성능을 향상시키는 메모리 및 매개변수 효율적인 백본 어댑터 기법이다.
TimeChat은 장편 비디오 이해를 위해 개발된 시간 민감형 멀티모달 대규모 언어 모델로, 시간 인식 프레임 인코더와 슬라이딩 비디오 Q-Former 모듈을 통해 정확한 시간 위치 파악 및 이벤트 요약 기능을 제공한다.
LITA는 비디오 내용 이해와 시간적 위치 파악을 위한 강력한 기능을 제공한다. 시간 토큰, SlowFast 토큰, 그리고 시간 관련 데이터 활용을 통해 기존 비디오 언어 모델의 한계를 극복하고 정확한 시간 위치 파악과 설명을 제공한다.
단일 비전 언어 모델(VLM)을 활용하여 비디오를 이미지 그리드로 변환하면 비디오 이해 및 질문 답변이 가능하다.
보조 캡션을 활용하여 비디오 그라운딩 성능을 크게 향상시킬 수 있다.