核心概念
현대 생성 이미지 모델에 저장된 풍부한 시각적 지식을 활용하여 단일 이미지 깊이 추정 성능을 향상시킬 수 있다.
摘要
이 논문은 단일 이미지 깊이 추정을 위한 새로운 접근법인 Marigold를 소개한다. Marigold는 사전 학습된 Stable Diffusion 모델을 기반으로 하며, 합성 데이터를 사용하여 미세 조정된다. 이를 통해 실험 결과에서 볼 수 있듯이 다양한 실제 데이터 세트에서 최첨단 성능을 달성할 수 있다.
주요 내용은 다음과 같다:
- 사전 학습된 확산 모델의 잠재 공간을 유지하면서 U-Net 디노이징 모듈만 미세 조정하는 효율적인 접근법 제안
- 합성 데이터만을 사용하여 모델을 학습하고도 실제 데이터에 대해 우수한 제로샷 일반화 성능 달성
- 다양한 실내 및 실외 데이터 세트에서 기존 최첨단 모델들을 능가하는 성능 달성
- 앙상블 기법과 다단계 디노이징 등의 추가 기법을 통해 성능 향상
이 연구는 생성 모델의 풍부한 시각적 지식을 단일 이미지 깊이 추정에 효과적으로 활용할 수 있음을 보여준다.
統計資料
단일 이미지 깊이 추정 모델은 기하학적으로 잘 정의되지 않은 문제이므로 장면 이해가 필요하다.
최근 딥러닝의 발전으로 단일 이미지 깊이 추정 성능이 크게 향상되었다.
그러나 기존 모델들은 훈련 데이터의 도메인에 제한되어 있어 제로샷 일반화에 어려움이 있다.
이 연구에서는 사전 학습된 확산 모델의 풍부한 시각적 지식을 활용하여 단일 이미지 깊이 추정 성능을 향상시켰다.
引述
"Monocular depth estimation aims to transform a photographic image into a depth map, i.e., regress a range value for every pixel."
"The intuition behind our work is the following: Modern image diffusion models have been trained on internet-scale image collections specifically to generate high-quality images across a wide array of domains [3, 38, 41]. If the cornerstone of monocular depth estimation is indeed a comprehensive, encyclopedic representation of the visual world, then it should be possible to derive a broadly applicable depth estimator from a pretrained image diffusion model."