Core Concepts
본 논문은 단일 카메라 깊이 추정 모델이 절대적인 스케일을 학습할 수 있도록 하는 새로운 훈련 프레임워크 StableCamH를 제안한다. StableCamH는 차량 크기 사전 정보를 활용하여 프레임 간 일관된 카메라 높이 추정을 통해 모델이 메트릭 깊이를 학습할 수 있도록 한다.
Abstract
본 논문은 단일 카메라 깊이 추정 모델이 절대적인 스케일을 학습할 수 있도록 하는 새로운 훈련 프레임워크 StableCamH를 제안한다.
핵심 아이디어는 다음과 같다:
도로에 있는 차량의 크기 정보를 활용하여 프레임 간 일관된 카메라 높이 추정을 수행한다.
이렇게 추정된 카메라 높이를 깊이 추정 모델의 훈련 시 스케일 감독 신호로 사용한다.
이를 통해 모델이 메트릭 깊이를 학습할 수 있도록 한다.
구체적인 내용은 다음과 같다:
Silhouette Projector를 통해 깊이 맵에서 차량 크기를 추정하고, 이를 Learned Size Prior (LSP)와 비교하여 프레임별 스케일 요인을 계산한다.
이렇게 계산된 스케일 요인을 이용하여 프레임별 카메라 높이를 추정하고, 이를 훈련 과정에서 일관성 있게 최적화한다.
이를 통해 모델이 메트릭 깊이를 학습할 수 있도록 한다.
실험 결과, StableCamH를 적용한 모델은 KITTI와 Cityscapes 데이터셋에서 기존 약하게 감독된 방법들을 크게 능가하는 성능을 보였다. 또한 다양한 카메라 높이의 데이터셋을 혼합하여 학습할 수 있어 일반화 성능이 향상되었다.
Stats
도로 장면에서 차량의 크기는 약 1.59m 높이, 1.8m 폭, 4.8m 길이 정도이다.