최근 텍스트 기반 이미지 생성 모델의 발전으로 자연어를 사용하여 다양하고 고품질의 이미지를 생성할 수 있게 되었다. 그러나 이러한 모델들은 특정 주체, 예를 들어 개별 반려동물 품종이나 고유한 배낭 디자인 등을 정확하게 생성하는 데 여전히 어려움을 겪고 있다.
이를 해결하기 위해 이전 연구에서는 대규모 확산 모델을 미세 조정하는 방식을 제안했다. 이 방식은 주체 정체성을 보존할 뿐만 아니라 다양한 텍스트 입력에 대해 우수한 일반화 성능을 보인다. 그러나 이러한 방법들은 여전히 주체의 세부 정보, 예를 들어 텍스트와 로고 등을 정확하게 재현하는 데 어려움을 겪는다.
우리는 이 문제의 근본 원인이 학습 데이터의 부족에 있다고 주장한다. 이를 해결하기 위해 우리는 새로운 정규화 데이터셋 생성 전략을 제안한다. 이 전략은 텍스트와 이미지 수준에서 정규화 데이터를 생성하여 모델이 주체의 세부 정보를 보존할 수 있도록 한다.
우리의 방법은 모델 아키텍처에 독립적이며 다양한 텍스트 기반 이미지 생성 모델에 유연하게 적용할 수 있다. 실험 결과, 우리의 데이터 중심 접근법이 주체 정체성 보존과 텍스트 정렬 측면에서 최신 기술 수준을 달성한다.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Xingzhe He,Z... pada arxiv.org 03-14-2024
https://arxiv.org/pdf/2311.04315.pdfPertanyaan yang Lebih Dalam