이 연구는 단일 이미지에서 깊이 추정 문제를 다룬다. 단일 이미지에서 깊이 추정은 고유한 모호성(예: 스케일)을 가지고 있으며, 텍스트 설명 또한 공간적 배치의 모호성을 가지고 있다. 이 연구는 이 두 가지 모호성을 보완하여 메트릭 스케일의 깊이 추정을 달성하고자 한다.
구체적으로, 이 연구는 텍스트 설명을 변분 자동 인코더(VAE)로 인코딩하여 가능한 3D 장면 레이아웃의 잠재 분포를 학습한다. 그리고 이미지 기반 조건부 샘플러를 도입하여 이미지와 가장 잘 부합하는 깊이 맵을 선택한다. 이 두 모듈은 교대로 최적화되며, 최종적으로 텍스트 VAE와 조건부 샘플러를 사용하여 깊이 맵을 직접 예측할 수 있다.
실험 결과, 제안 방법은 실내(NYU Depth V2) 및 실외(KITTI) 시나리오에서 최신 기술을 능가하는 성능을 보였다. 특히 메트릭 스케일 정확도를 나타내는 지표(δ < 1.25)에서 큰 향상을 보였다. 이는 텍스트 설명에 내재된 객체 크기 정보가 깊이 추정의 스케일을 효과적으로 보정할 수 있음을 보여준다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor