본 논문은 마스크 프롬프트를 활용하여 텍스트 기반 이미지 생성 성능을 향상시키는 방법을 제안한다.
먼저, 참조 이미지를 SAM 모델에 입력하여 관심 객체의 마스크를 생성한다. 이 마스크와 참조 이미지를 함께 사용하여 확산 모델에 추가 조건을 제공한다. 이를 통해 전경 객체의 세부 정보를 더 잘 유지하고 전경-배경 관계를 더 효과적으로 모델링할 수 있다.
실험 결과, 제안 방법은 기존 방법들에 비해 정량적, 정성적으로 우수한 성능을 보인다. 객체 왜곡, 배경 과적합, 전경-배경 부조화 등의 문제를 효과적으로 해결할 수 있다. 사용자 평가에서도 제안 방법의 우수성이 입증되었다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Zhiqi Huang,... lúc arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.05331.pdfYêu cầu sâu hơn