핵심 개념
카메라 포즈 추정은 모바일 로봇 및 증강현실 등의 분야에서 중요한 문제이다. 기존 최신 모델들은 정확도가 높지만 계산 비용이 높다. 본 논문에서는 역가능 신경망(INN)을 사용하여 이미지 잠재 공간과 포즈 간의 매핑을 찾는 PoseINN 모델을 제안한다. 이 모델은 최신 모델과 유사한 성능을 보이면서도 훈련 속도가 빠르고 저해상도 합성 데이터만으로도 학습이 가능하다. 또한 정규화 흐름을 사용하여 출력에 대한 불확실성 추정도 제공한다.
초록
본 논문은 카메라 포즈 추정 문제를 이미지와 포즈 분포 간의 매핑을 찾는 문제로 접근한다. 이를 위해 다음과 같은 접근법을 제안한다:
-
NeRF를 사용하여 저해상도 합성 이미지를 효율적으로 생성한다. NeRF를 통해 3D 공간 정보를 활용하여 다양한 카메라 포즈에 대한 이미지를 빠르게 렌더링할 수 있다.
-
생성된 이미지와 포즈 데이터를 사용하여 역가능 신경망(INN)을 학습한다. INN은 이미지 잠재 공간과 포즈 간의 매핑을 학습한다.
-
테스트 시에는 INN의 역방향 경로를 사용하여 입력 이미지에 대한 포즈의 전체 사후 분포를 추정한다. 이를 통해 출력의 불확실성을 제공할 수 있다.
실험 결과, 제안 방법은 기존 최신 모델과 유사한 성능을 보이면서도 훈련 속도가 빠르고 저해상도 합성 데이터만으로도 학습이 가능하다. 또한 모바일 로봇에 배포하여 실시간 성능과 효율성을 검증하였다.
통계
합성 이미지 렌더링 시간은 약 40분 소요
300 epoch 학습에 약 8시간 소요
모바일 로봇 플랫폼에서 154Hz의 실시간 성능 달성
인용구
"NeRF enabled us to conveniently sample in the image space and fully utilize the 3D spatial information embedded in the training dataset."
"By using normalizing flows, the proposed method also provides uncertainty estimation for the output."
"With a small network size, PoseINN is suitable for embedded platforms."