본 논문은 메모리 기반 비디오 객체 분할 방법의 한계를 해결하기 위해 객체 쿼리를 도입한다.
먼저, 이전 프레임의 특징과 마스크를 활용하여 객체 쿼리를 초기화하는 Scale-aware Interaction Module (SIM)을 제안한다. SIM은 다중 스케일 특징 융합과 다중 객체 상호작용을 통해 강건하고 스케일 인지적인 객체 표현을 생성한다.
다음으로, Query-Content Interaction Module (QCIM)을 통해 현재 프레임의 콘텐츠와 객체 쿼리 간 상호작용을 수행한다. 이를 통해 객체 쿼리가 현재 프레임의 내용을 효과적으로 이해할 수 있게 된다.
마지막으로, 이러한 객체 쿼리를 활용하여 마스크 예측기의 출력을 필터링함으로써 동적 객체 수준 예측을 달성한다.
실험 결과, 제안 방법은 기존 메모리 기반 방법 대비 큰 성능 향상을 보였으며, 추론 속도 또한 유사한 수준을 유지하였다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Hantao Zhou,... lúc arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11529.pdfYêu cầu sâu hơn