Core Concepts
DepthFM은 단일 이미지에서 효율적이고 정확한 깊이 추정을 달성하는 Flow Matching 기반의 모델입니다. 이 모델은 합성 데이터만으로 학습되었음에도 불구하고 실제 이미지에 대해 우수한 제로샷 일반화 성능을 보입니다.
Abstract
이 논문은 단일 이미지 깊이 추정을 위한 새로운 모델인 DepthFM을 소개합니다. 기존의 판별적 접근법은 흐릿한 결과를, 생성적 접근법은 느린 추론 속도를 보였습니다. 이에 반해 DepthFM은 Flow Matching 기반의 접근법을 사용하여 효율적이고 정확한 깊이 추정을 달성합니다.
주요 내용은 다음과 같습니다:
- Flow Matching 기반의 접근법을 사용하여 입력 이미지와 깊이 맵 사이의 직접적인 매핑을 학습합니다. 이를 통해 빠른 추론 속도와 고품질의 깊이 맵을 얻을 수 있습니다.
- 이미지 합성 기반 모델인 SD2.1을 사용하여 사전 학습된 시각적 특징을 활용함으로써, 합성 데이터만으로도 실제 이미지에 대한 우수한 제로샷 일반화 성능을 달성합니다.
- 깊이 맵과 함께 지표면 법선 정보를 활용하는 보조 손실 함수를 제안하여 깊이 추정 성능을 향상시킵니다.
- 생성적 접근법의 장점을 활용하여 각 깊이 추정의 불확실성을 정량화할 수 있습니다.
Stats
단일 이미지 입력으로부터 정확한 깊이 맵을 생성할 수 있습니다.
합성 데이터만으로 학습되었음에도 불구하고 실제 이미지에 대해 우수한 제로샷 일반화 성능을 보입니다.
단 1회의 함수 평가로도 기존 모델들보다 우수한 성능을 달성합니다.
Quotes
"우리의 DepthFM 모델은 단 1회의 함수 평가로도 기존 모델들보다 우수한 깊이 추정 성능을 보입니다."
"DepthFM은 합성 데이터만으로 학습되었음에도 불구하고 실제 이미지에 대해 우수한 제로샷 일반화 성능을 달성합니다."