이 논문은 현재 최신 비디오 세그멘테이션 모델들이 새로 등장하거나 사라지는 객체를 처리하는 데 어려움을 겪는다는 점을 지적한다. 이는 기존 모델들이 배경 쿼리와 객체 쿼리 간의 큰 차이로 인해 객체의 등장과 사라짐을 효과적으로 모델링하지 못하기 때문이다.
이 논문에서는 동적 앵커 쿼리(Dynamic Anchor Queries, DAQ) 기법을 제안한다. DAQ는 새로 등장하거나 사라지는 객체의 특징을 기반으로 앵커 쿼리를 동적으로 생성하여, 객체 등장과 사라짐을 더 효과적으로 모델링할 수 있다. 또한 등장과 사라짐 시뮬레이션(Emergence and Disappearance Simulation, EDS) 전략을 도입하여, 학습 과정에서 다양한 등장 및 사라짐 사례를 생성함으로써 DAQ의 성능을 극대화한다.
제안된 DVIS-DAQ 모델은 5개의 주요 비디오 세그멘테이션 벤치마크에서 새로운 최신 성능을 달성했다. 특히 OVIS 데이터셋에서 57.1 AP를 기록하며, 기존 최고 성능 대비 약 4 AP 향상을 보였다. 이는 DAQ와 EDS 전략이 새로 등장하거나 사라지는 객체 처리 능력을 크게 향상시켰음을 보여준다.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Yikang Zhou,... às arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00086.pdfPerguntas Mais Profundas