이 논문에서는 갑작스러운 카메라 컷과 같은 현실 세계 비디오 데이터의 문제를 해결하기 위해 기존 비디오 객체 분할(VOS) 모델에 적용할 수 있는 간단한 알고리즘 변경을 제안합니다.
특정 작업을 위해 대규모로 학습된 심층 신경망을 활용하는 대신, 간단한 프롬팅 모듈을 통해 일반적인 심층 신경망을 새로운 작업에 효과적으로 적용할 수 있다.
본 논문은 Segment Anything Model (SAM)과 광학 흐름을 결합하여 비디오 내 움직이는 객체를 정확하게 분할하는 방법을 제안한다. 두 가지 접근법을 통해 기존 방법들을 크게 능가하는 성능을 달성했다.
본 연구는 비디오 객체 분할을 위해 변형 가능한 주의 집중 메커니즘을 활용한 자기 지도 학습 방법을 제안한다. 이를 통해 시간에 따른 변화에 적응적인 객체 표현을 학습할 수 있으며, 경량화된 네트워크 구조로 인해 저전력 장치에 통합이 가능하다.