최근 텍스트 기반 이미지 생성 모델의 발전으로 자연어를 사용하여 다양하고 고품질의 이미지를 생성할 수 있게 되었다. 그러나 이러한 모델들은 특정 주체, 예를 들어 개별 반려동물 품종이나 고유한 배낭 디자인 등을 정확하게 생성하는 데 여전히 어려움을 겪고 있다.
이를 해결하기 위해 이전 연구에서는 대규모 확산 모델을 미세 조정하는 방식을 제안했다. 이 방식은 주체 정체성을 보존할 뿐만 아니라 다양한 텍스트 입력에 대해 우수한 일반화 성능을 보인다. 그러나 이러한 방법들은 여전히 주체의 세부 정보, 예를 들어 텍스트와 로고 등을 정확하게 재현하는 데 어려움을 겪는다.
우리는 이 문제의 근본 원인이 학습 데이터의 부족에 있다고 주장한다. 이를 해결하기 위해 우리는 새로운 정규화 데이터셋 생성 전략을 제안한다. 이 전략은 텍스트와 이미지 수준에서 정규화 데이터를 생성하여 모델이 주체의 세부 정보를 보존할 수 있도록 한다.
우리의 방법은 모델 아키텍처에 독립적이며 다양한 텍스트 기반 이미지 생성 모델에 유연하게 적용할 수 있다. 실험 결과, 우리의 데이터 중심 접근법이 주체 정체성 보존과 텍스트 정렬 측면에서 최신 기술 수준을 달성한다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies