핵심 개념
비디오 객체 분할에서 픽셀 수준의 메모리 매칭은 잡음에 취약하므로, 객체 수준의 메모리 활용을 통해 더 강건한 분할 성능을 달성할 수 있다.
초록
이 논문은 비디오 객체 분할을 위한 새로운 접근법인 Cutie를 제안한다. 기존 방식들은 픽셀 수준의 메모리 매칭을 사용하여 분할을 수행하지만, 이는 잡음에 취약하여 특히 어려운 시나리오에서 성능이 낮다.
Cutie는 객체 수준의 메모리 활용을 통해 이 문제를 해결한다. 구체적으로 Cutie는 객체 쿼리를 사용하여 픽셀 특징과 상호작용하며, 객체 수준의 정보를 통합한다. 또한 전경-배경 마스크 어텐션을 도입하여 전경 객체와 배경을 명확히 구분한다.
실험 결과, Cutie는 기존 방식들에 비해 특히 어려운 MOSE 데이터셋에서 큰 성능 향상을 보였다. 또한 표준 벤치마크에서도 경쟁력 있는 성능을 달성하면서 효율적인 실행 속도를 유지한다.
통계
최근 VOS 접근법들은 픽셀 수준의 메모리 매칭을 사용하지만, 이는 잡음에 취약하여 특히 어려운 시나리오에서 성능이 20점 이상 낮다.
Cutie는 MOSE 데이터셋에서 XMem 대비 8.7 J&F 향상을 보였다.
Cutie는 DeAOT 대비 4.2 J&F 향상을 보이면서도 3배 빠른 속도를 달성했다.
인용구
"Pixel-level matching maps every query pixel independently to a linear combination of memory pixels (e.g., with an attention layer). Consequently, pixel-level matching lacks high-level consistency and is prone to matching noise, especially in the presence of distractors."
"We think this unsatisfactory result in challenging scenarios is caused by the lack of object-level reasoning."