이 연구는 비디오 내 물체 상태 변화(OSC)에 대한 새로운 개방형 세계 문제 설정을 제안한다. OSC는 물체의 초기 상태, 전이 상태, 최종 상태로 구성되며, 훈련 중 관찰되지 않은 물체에 대해서도 이를 탐지할 수 있어야 한다.
이를 위해 VIDOSC라는 통합적인 학습 접근법을 개발했다. VIDOSC는 (1) 수동 레이블링 없이 텍스트 및 비전-언어 모델을 활용하여 감독 신호를 얻고, (2) 물체 간 공유되는 상태 표현을 추상화하여 일반화 능력을 높인다. 또한 HowToChange라는 새로운 벤치마크 데이터셋을 제안했는데, 이는 기존 데이터셋에 비해 레이블 공간과 주석 양이 1 order 증가하여 개방형 세계 설정을 잘 반영한다.
실험 결과, VIDOSC는 기존 최신 기법 대비 폐쇄형 및 개방형 시나리오 모두에서 큰 성능 향상을 보였다. 특히 알려지지 않은 물체에 대해서도 우수한 일반화 능력을 보였다.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Zihui Xue,Ku... lúc arxiv.org 04-04-2024
https://arxiv.org/pdf/2312.11782.pdfYêu cầu sâu hơn