Core Concepts
통합 순간 검출 (UniMD) 모델은 시간 기반 동작 감지 (TAD)와 자연어 기반 사건 검색 (MR) 작업을 단일 모델에서 동시에 수행하여 상호 이점을 얻을 수 있다.
Abstract
이 논문은 시간 기반 동작 감지 (TAD)와 자연어 기반 사건 검색 (MR) 작업을 통합하는 새로운 과제인 통합 순간 검출 (Unified Moment Detection, UniMD)을 제안한다.
UniMD는 다음과 같은 특징을 가진다:
텍스트 인코더와 비전 인코더를 통해 동작과 사건에 대한 공통 임베딩 공간을 만들어 두 작업을 통합한다.
질의 의존적 분류기와 회귀기를 사용하여 동작과 사건에 대한 분류 점수와 시간 경계를 예측한다.
사전 학습과 공동 학습 방식의 과제 융합 학습을 통해 두 작업 간 상호 이점을 얻는다.
실험 결과, UniMD는 Ego4D, Charades-STA, ActivityNet 등의 데이터셋에서 최신 기술 수준을 달성했다.
Stats
대부분의 자연어 설명에는 여러 개의 동작이 포함되어 있다.
Charades와 Charades-STA에서 평균 동작 인스턴스는 6.8개, 평균 사건 설명은 2.4개이다.
Quotes
"대부분의 자연어 설명에는 여러 개의 동작이 포함되어 있다."
"Charades와 Charades-STA에서 평균 동작 인스턴스는 6.8개, 평균 사건 설명은 2.4개이다."