이 논문은 현재 최신 비디오 세그멘테이션 모델들이 새로 등장하거나 사라지는 객체를 처리하는 데 어려움을 겪는다는 점을 지적한다. 이는 기존 모델들이 배경 쿼리와 객체 쿼리 간의 큰 차이로 인해 객체의 등장과 사라짐을 효과적으로 모델링하지 못하기 때문이다.
이 논문에서는 동적 앵커 쿼리(Dynamic Anchor Queries, DAQ) 기법을 제안한다. DAQ는 새로 등장하거나 사라지는 객체의 특징을 기반으로 앵커 쿼리를 동적으로 생성하여, 객체 등장과 사라짐을 더 효과적으로 모델링할 수 있다. 또한 등장과 사라짐 시뮬레이션(Emergence and Disappearance Simulation, EDS) 전략을 도입하여, 학습 과정에서 다양한 등장 및 사라짐 사례를 생성함으로써 DAQ의 성능을 극대화한다.
제안된 DVIS-DAQ 모델은 5개의 주요 비디오 세그멘테이션 벤치마크에서 새로운 최신 성능을 달성했다. 특히 OVIS 데이터셋에서 57.1 AP를 기록하며, 기존 최고 성능 대비 약 4 AP 향상을 보였다. 이는 DAQ와 EDS 전략이 새로 등장하거나 사라지는 객체 처리 능력을 크게 향상시켰음을 보여준다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы