Core Concepts
본 논문은 메모리 기반 비디오 객체 분할 방법에 객체 수준의 인식과 동적 예측을 도입하여 성능을 크게 향상시킨다. 구체적으로 객체 쿼리를 활용하여 객체 수준의 인식을 제공하고, 이를 통해 다중 객체 간 상호작용과 효과적인 콘텐츠 이해를 실현한다.
Abstract
본 논문은 메모리 기반 비디오 객체 분할 방법의 한계를 해결하기 위해 객체 쿼리를 도입한다.
먼저, 이전 프레임의 특징과 마스크를 활용하여 객체 쿼리를 초기화하는 Scale-aware Interaction Module (SIM)을 제안한다. SIM은 다중 스케일 특징 융합과 다중 객체 상호작용을 통해 강건하고 스케일 인지적인 객체 표현을 생성한다.
다음으로, Query-Content Interaction Module (QCIM)을 통해 현재 프레임의 콘텐츠와 객체 쿼리 간 상호작용을 수행한다. 이를 통해 객체 쿼리가 현재 프레임의 내용을 효과적으로 이해할 수 있게 된다.
마지막으로, 이러한 객체 쿼리를 활용하여 마스크 예측기의 출력을 필터링함으로써 동적 객체 수준 예측을 달성한다.
실험 결과, 제안 방법은 기존 메모리 기반 방법 대비 큰 성능 향상을 보였으며, 추론 속도 또한 유사한 수준을 유지하였다.
Stats
제안 방법은 기존 메모리 기반 방법 XMem 대비 DAVIS 2017 데이터셋에서 1.5 J&F 향상된 성능을 보였다.
제안 방법은 YouTube-VOS 데이터셋에서도 최고 성능을 달성하였다.
Quotes
"메모리 기반 방법은 픽셀 수준의 매칭을 통해 메모리에서 정보를 읽어오므로, 배경에 의해 방해를 받아 노이즈가 있는 특징을 얻게 된다."
"기존 메모리 기반 방법은 각 객체를 독립적으로 분할하고 이를 앙상블하므로, 유사한 객체나 다중 객체 분할에 취약하다."