이 연구는 비디오 내 물체 상태 변화(OSC)에 대한 새로운 개방형 세계 문제 설정을 제안한다. OSC는 물체의 초기 상태, 전이 상태, 최종 상태로 구성되며, 훈련 중 관찰되지 않은 물체에 대해서도 이를 탐지할 수 있어야 한다.
이를 위해 VIDOSC라는 통합적인 학습 접근법을 개발했다. VIDOSC는 (1) 수동 레이블링 없이 텍스트 및 비전-언어 모델을 활용하여 감독 신호를 얻고, (2) 물체 간 공유되는 상태 표현을 추상화하여 일반화 능력을 높인다. 또한 HowToChange라는 새로운 벤치마크 데이터셋을 제안했는데, 이는 기존 데이터셋에 비해 레이블 공간과 주석 양이 1 order 증가하여 개방형 세계 설정을 잘 반영한다.
실험 결과, VIDOSC는 기존 최신 기법 대비 폐쇄형 및 개방형 시나리오 모두에서 큰 성능 향상을 보였다. 특히 알려지지 않은 물체에 대해서도 우수한 일반화 능력을 보였다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문