이 논문은 비디오 객체 분할을 위한 새로운 접근법인 Cutie를 제안한다. 기존 방식들은 픽셀 수준의 메모리 매칭을 사용하여 분할을 수행하지만, 이는 잡음에 취약하여 특히 어려운 시나리오에서 성능이 낮다.
Cutie는 객체 수준의 메모리 활용을 통해 이 문제를 해결한다. 구체적으로 Cutie는 객체 쿼리를 사용하여 픽셀 특징과 상호작용하며, 객체 수준의 정보를 통합한다. 또한 전경-배경 마스크 어텐션을 도입하여 전경 객체와 배경을 명확히 구분한다.
실험 결과, Cutie는 기존 방식들에 비해 특히 어려운 MOSE 데이터셋에서 큰 성능 향상을 보였다. 또한 표준 벤치마크에서도 경쟁력 있는 성능을 달성하면서 효율적인 실행 속도를 유지한다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Ho Kei Cheng... kl. arxiv.org 04-15-2024
https://arxiv.org/pdf/2310.12982.pdfDybere Forespørgsler