본 연구는 무감독 비디오 객체 분할을 위한 새로운 접근법을 제안한다. 기존 방법들의 한계를 극복하기 위해 두 가지 핵심 모듈을 도입한다:
이중 모달리티 어텐션(IMA): 외관 정보와 움직임 정보 간의 상호 보완적인 관계를 효과적으로 활용한다. 프로토타입 기반 어텐션 메커니즘을 통해 두 모달리티 간 문맥 정보를 밀도 있게 교환한다.
이중 프레임 어텐션(IFA): 전체 비디오의 전역적 맥락을 효율적으로 활용한다. 참조 프레임들의 특징을 저장하고 쿼리 프레임에 적응적으로 전파한다.
제안된 두 모듈은 프로토타입 기반 프레임워크와 결합되어 보다 안정적이고 포괄적인 단서를 제공한다. 실험 결과, 제안 방법은 기존 최신 기법들을 크게 능가하는 성능을 보였다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы