이 논문은 이미지 변형 생성을 위한 새로운 사전 학습 전략을 제안합니다. 기존 연구에서는 동일한 입력 이미지를 재구성하는 방식으로 이미지 변형을 생성했지만, 이 방식은 주로 저수준의 변형만 가능했습니다.
이 논문에서는 웹 페이지에서 무작위로 선택한 이미지 쌍을 활용하여 조건부 확산 모델을 학습합니다. 즉, 한 이미지를 입력으로 받고 다른 이미지를 노이즈 제거하도록 학습합니다. 이를 통해 입력 이미지의 의미적 맥락을 유지하면서도 다양한 이미지 변형을 생성할 수 있습니다.
논문에서는 다양한 이미지 인코더(DINOv2, SigLIP)와 확산 모델 크기를 실험하여 성능을 비교합니다. 실험 결과, DINOv2 인코더와 대규모 확산 모델을 사용할 때 가장 우수한 성능을 보였습니다. 또한 기존 이미지 변형 평가 지표의 한계를 지적하고, 적은 수의 입력 이미지를 활용한 새로운 평가 지표를 제안합니다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문