Core Concepts
비디오 내 물체 상태 변화(OSC)를 시간적으로 정확하게 탐지하는 것은 비디오 이해에 필수적이지만, 기존 접근법은 폐쇄적인 어휘에 국한되어 있다. 이 연구는 OSC를 초기 상태, 전이 상태, 최종 상태로 정의하고 개방형 세계 설정에서 이를 학습하는 새로운 접근법을 제안한다.
Abstract
이 연구는 비디오 내 물체 상태 변화(OSC)에 대한 새로운 개방형 세계 문제 설정을 제안한다. OSC는 물체의 초기 상태, 전이 상태, 최종 상태로 구성되며, 훈련 중 관찰되지 않은 물체에 대해서도 이를 탐지할 수 있어야 한다.
이를 위해 VIDOSC라는 통합적인 학습 접근법을 개발했다. VIDOSC는 (1) 수동 레이블링 없이 텍스트 및 비전-언어 모델을 활용하여 감독 신호를 얻고, (2) 물체 간 공유되는 상태 표현을 추상화하여 일반화 능력을 높인다. 또한 HowToChange라는 새로운 벤치마크 데이터셋을 제안했는데, 이는 기존 데이터셋에 비해 레이블 공간과 주석 양이 1 order 증가하여 개방형 세계 설정을 잘 반영한다.
실험 결과, VIDOSC는 기존 최신 기법 대비 폐쇄형 및 개방형 시나리오 모두에서 큰 성능 향상을 보였다. 특히 알려지지 않은 물체에 대해서도 우수한 일반화 능력을 보였다.
Stats
비디오 평균 길이는 41.2초이다.
훈련 데이터셋에는 36,075개의 비디오가 포함되어 있다.
평가 데이터셋에는 5,424개의 비디오가 포함되어 있다.