LLM 인코딩을 통해 개념 간 관계를 정제하고, 가상 이벤트 규제를 통해 예측된 순간이 이벤트 경계 내에 위치하도록 하여 비디오 순간 검색 성능을 향상시킨다.
비디오 데이터와 활동 진화의 불확실성을 포괄적으로 모델링하여 활동 예측 결과의 신뢰성과 강건성을 향상시킨다.
본 연구는 강화 학습 기반 트랜스포머 모델을 활용하여 비디오에서 인간의 시선 행동을 정확하게 예측하는 방법을 제안한다.
이 논문은 비디오 의미 분할을 위해 지역 시간 맥락과 전역 시간 맥락을 동시에 학습하는 방법을 제안한다. 지역 시간 맥락은 인접 프레임의 정적 및 동적 정보를 통합하여 표현하고, 전역 시간 맥락은 전체 비디오의 정보를 활용하여 목표 프레임을 개선한다.
본 논문은 비디오 질문 답변을 위한 분해된 다단계 모듈식 추론 프레임워크를 제안한다. 기존 모듈식 접근법은 단일 계획 단계에서 시각적 내용과 연결되지 않은 한계가 있었다. 이를 해결하기 위해 본 논문에서는 이벤트 파싱, 그라운딩, 추론의 3단계로 구성된 다단계 시스템을 제안한다. 이를 통해 해석 가능한 중간 출력을 생성하면서도 기존 접근법을 능가하는 성능을 달성한다.
본 연구는 기존 대규모 멀티모달 모델의 한계를 극복하고 장기 비디오 이해 능력을 향상시키기 위해 메모리 뱅크를 도입한 새로운 모델 MA-LMM을 제안한다.
본 연구는 학습 데이터 없이도 비디오에서 동작을 효과적으로 인식할 수 있는 새로운 접근법을 제안한다. 기존 방식과 달리 학습 데이터 없이도 비디오 스트림을 활용하여 동작을 인식할 수 있다.
통합 순간 검출 (UniMD) 모델은 시간 기반 동작 감지 (TAD)와 자연어 기반 사건 검색 (MR) 작업을 단일 모델에서 동시에 수행하여 상호 이점을 얻을 수 있다.
본 연구는 기존 비디오 LLM의 한계를 극복하기 위해 키 프레임 기반의 새로운 접근법을 제안한다. 제안하는 Koala 모델은 비디오의 전반적인 맥락을 활용하여 개별 비디오 세그먼트와 세그먼트 간의 관계를 효과적으로 모델링할 수 있다.
본 연구는 실제 상황에서 발생할 수 있는 도메인 간 차이를 극복하기 위해 비지도 도메인 적응 기법을 시간 동작 위치 추정 문제에 처음으로 적용하였다. 이를 위해 새로운 손실 함수인 SADA를 제안하여 소스 도메인과 타겟 도메인 간 의미적으로 유의미한 방식으로 특징을 정렬하였다.