본 논문은 비디오 내 움직이는 객체를 분할하는 문제를 다룬다. 이를 위해 Segment Anything Model (SAM)과 광학 흐름 정보를 결합하는 두 가지 접근법을 제안한다.
첫 번째 접근법인 FlowI-SAM은 광학 흐름을 직접 입력으로 사용하여 움직이는 객체를 정확하게 분할한다. 이는 광학 흐름 정보에 내재된 움직이는 객체의 경계와 질감을 효과적으로 활용한다.
두 번째 접근법인 FlowP-SAM은 RGB 프레임을 입력으로 사용하되, 광학 흐름 정보를 프롬프트로 활용하여 움직이는 객체를 선별적으로 분할한다. 이는 SAM의 강력한 RGB 분할 능력과 광학 흐름의 움직임 정보를 결합한 것이다.
또한 프레임 단위 분할 결과를 시퀀스 단위로 연결하는 방법을 제안하여, 객체 ID를 일관되게 유지한다.
실험 결과, 두 접근법 모두 기존 방법들을 크게 능가하는 성능을 보였다. 특히 FlowP-SAM+FlowI-SAM 조합은 단일 객체 및 다중 객체 분할 벤치마크에서 최신 기록을 달성했다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania