이 논문은 단일 이미지 깊이 추정 문제에 대한 새로운 접근법을 제안한다. 기존 연구에서는 이미지에 대한 텍스트 설명을 생성하고 이를 CLIP 임베딩으로 변환하여 확산 모델을 조건화하는 방식을 사용했다. 그러나 저자들은 이러한 방식이 제한적인 정보만을 제공한다고 주장한다.
대신 저자들은 사전 학습된 ViT 모델의 임베딩을 활용하여 확산 모델을 조건화하는 새로운 모듈인 CIDE(Comprehensive Image Detail Embedder)를 제안한다. CIDE 모듈은 ViT 모델의 출력 확률 벡터를 활용하여 장면에 대한 풍부한 의미론적 정보를 제공한다.
실험 결과, 제안 모델은 NYU Depth v2 및 KITTI 데이터셋에서 기존 최신 기법들을 능가하는 성능을 보였다. 또한 단일 데이터셋(NYU Depth v2)으로 학습된 모델이 다른 데이터셋에서도 우수한 제로 샷 전이 성능을 보였다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Suraj Patni,... ב- arxiv.org 03-28-2024
https://arxiv.org/pdf/2403.18807.pdfשאלות מעמיקות