본 논문은 메모리 기반 비디오 객체 분할 방법의 한계를 해결하기 위해 객체 쿼리를 도입한다.
먼저, 이전 프레임의 특징과 마스크를 활용하여 객체 쿼리를 초기화하는 Scale-aware Interaction Module (SIM)을 제안한다. SIM은 다중 스케일 특징 융합과 다중 객체 상호작용을 통해 강건하고 스케일 인지적인 객체 표현을 생성한다.
다음으로, Query-Content Interaction Module (QCIM)을 통해 현재 프레임의 콘텐츠와 객체 쿼리 간 상호작용을 수행한다. 이를 통해 객체 쿼리가 현재 프레임의 내용을 효과적으로 이해할 수 있게 된다.
마지막으로, 이러한 객체 쿼리를 활용하여 마스크 예측기의 출력을 필터링함으로써 동적 객체 수준 예측을 달성한다.
실험 결과, 제안 방법은 기존 메모리 기반 방법 대비 큰 성능 향상을 보였으며, 추론 속도 또한 유사한 수준을 유지하였다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문