이 연구는 다양한 공간 인식 이미지 편집 작업을 통합할 수 있는 다층 잠재 분해 및 융합 프레임워크를 제안합니다.
먼저, 소스 이미지의 잠재 표현을 여러 레이어로 분해합니다. 이 레이어에는 객체 레이어와 불완전한 배경 레이어가 포함됩니다. 배경 레이어의 고품질 인페인팅을 위해 키 마스킹 자기 주의 메커니즘을 도입합니다.
다음으로, 지침 기반 잠재 융합을 통해 다층 잠재 표현을 타겟 캔버스 잠재에 붙여넣습니다. 또한 아티팩트 억제 기법을 적용하여 인페인팅 품질을 향상시킵니다.
이러한 다층 표현의 모듈식 장점으로 인해 정확한 이미지 편집을 달성할 수 있습니다. 사용자 연구 결과, 제안 방법이 기존 최신 공간 편집 방법인 Self-Guidance와 DiffEditor를 크게 능가하는 것으로 나타났습니다.
또한 이 방법은 객체 제거, 이동, 크기 조정, 반복, 뒤집기, 카메라 패닝, 줌 아웃, 다중 이미지 합성, 타이포그래피 또는 장식 편집 등 다양한 설계 이미지 편집 작업에 적용할 수 있습니다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Yueru Jia,Yu... في arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14487.pdfاستفسارات أعمق