이 연구는 주제 중심 텍스트-이미지 합성 문제를 다룬다. 기존 방법들은 사용자가 제공한 참조 이미지에 과도하게 의존하여 텍스트 프롬프트의 핵심 속성을 간과하는 경향이 있다. 이를 해결하기 위해 저자들은 주제 무관 가이드(Subject-Agnostic Guidance, SAG)를 제안한다.
SAG는 주제 무관 조건을 구축하고 이중 분류기 없는 가이드(Dual Classifier-Free Guidance, DCFG)를 적용하여 주어진 주제와 입력 텍스트 프롬프트 모두와 일치하는 출력을 얻는다. 최적화 기반 및 인코더 기반 방법에 SAG를 적용하여 효과를 검증하였으며, DreamBooth를 통한 2차 맞춤 방법에도 적용 가능함을 보였다. SAG는 개념적으로 단순하고 최소한의 코드 수정만으로도 구현할 수 있지만, 평가 및 사용자 연구를 통해 확인된 바와 같이 품질 향상에 상당한 기여를 한다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Kelvin C.K. ... lúc arxiv.org 05-03-2024
https://arxiv.org/pdf/2405.01356.pdfYêu cầu sâu hơn