이 연구는 주제 중심 텍스트-이미지 합성 문제를 다룬다. 기존 방법들은 사용자가 제공한 참조 이미지에 과도하게 의존하여 텍스트 프롬프트의 핵심 속성을 간과하는 경향이 있다. 이를 해결하기 위해 저자들은 주제 무관 가이드(Subject-Agnostic Guidance, SAG)를 제안한다.
SAG는 주제 무관 조건을 구축하고 이중 분류기 없는 가이드(Dual Classifier-Free Guidance, DCFG)를 적용하여 주어진 주제와 입력 텍스트 프롬프트 모두와 일치하는 출력을 얻는다. 최적화 기반 및 인코더 기반 방법에 SAG를 적용하여 효과를 검증하였으며, DreamBooth를 통한 2차 맞춤 방법에도 적용 가능함을 보였다. SAG는 개념적으로 단순하고 최소한의 코드 수정만으로도 구현할 수 있지만, 평가 및 사용자 연구를 통해 확인된 바와 같이 품질 향상에 상당한 기여를 한다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Kelvin C.K. ... kl. arxiv.org 05-03-2024
https://arxiv.org/pdf/2405.01356.pdfDybere Forespørgsler