이 논문은 텍스트-이미지 생성 분야에서 발생하는 정렬 문제를 해결하기 위한 CoMat 기술을 제안한다.
먼저, 저자들은 텍스트 프롬프트와 생성된 이미지 간의 정렬 문제가 텍스트 토큰에 대한 주의 집중 부족에서 비롯된다는 것을 관찰했다. 이를 해결하기 위해 저자들은 이미지 캡셔닝 모델을 활용하여 생성된 이미지와 텍스트 프롬프트 간의 개념 매칭을 수행한다. 이를 통해 간과된 텍스트 토큰에 더 많은 주의를 기울이도록 확산 모델을 학습시킨다.
또한 저자들은 속성 집중 모듈을 도입하여 속성과 엔티티 간의 정렬을 향상시킨다. 마지막으로 생성 능력 보존을 위한 적대적 손실 함수를 추가한다.
제안된 CoMat 기술은 텍스트 프롬프트만을 사용하여 학습되며, 이미지-텍스트 쌍이나 사용자 선호도 데이터가 필요하지 않다. 실험 결과, CoMat은 기존 모델 대비 텍스트-이미지 정렬 성능을 크게 향상시켰다.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Dongzhi Jian... klo arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03653.pdfSyvällisempiä Kysymyksiä