Core Concepts
객체 수준의 정보를 활용하여 오클루전과 경계 영역에서 더 정확한 광학 흐름 추정이 가능하다.
Abstract
이 논문은 최신 기반 모델인 Segment Anything Model (SAM)을 활용하여 비지도 광학 흐름 추정 모델 UnSAMFlow를 제안한다. 기존 비지도 광학 흐름 추정 모델은 오클루전과 경계 영역에서 성능이 저하되는 문제가 있었는데, 이는 객체 수준의 정보가 부족하기 때문이다.
UnSAMFlow는 다음과 같은 세 가지 핵심 적응 기법을 통해 이 문제를 해결한다:
자기 지도 학습 기반의 의미론적 증강 모듈: SAM 마스크를 활용하여 학습 데이터를 증강한다.
호모그래피 기반의 새로운 평활성 손실 정의: 객체 영역 내에서의 평활성을 강화한다.
마스크 특징 모듈: SAM 마스크 정보를 네트워크에 효과적으로 통합한다.
이러한 적응 기법들을 통해 UnSAMFlow는 KITTI와 Sintel 벤치마크에서 기존 최신 모델들을 크게 능가하는 성능을 보여준다. 또한 다른 도메인에 대한 일반화 능력과 효율성도 우수하다.
Stats
오클루전 영역에서의 광학 흐름 추정이 어려운 이유는 전경 객체가 배경 외관을 가리기 때문이다.
경계 영역에서의 광학 흐름 추정이 어려운 이유는 운동이 갑자기 끊기기 때문이다.
기존 경계 인식 평활성 손실의 경사도 지형이 매우 가파르고 국소적이어서 최적화가 어렵다.
Quotes
"Fundamentally, the issues with occlusions and motion boundaries both stem from the low-level nature of optical flow, where object-level information is generally missing."
"To better handle occlusions, it is important to understand the spatial relationships and interactions between objects. Also, optical flow should be smooth only within the same continuous object region, while sharp motion boundaries are allowed near object edges."