이 연구는 확산 모델에서 텍스트 조건화 방식에 대한 새로운 접근법을 제안한다. 기존의 초기 융합 방식과 달리, 중간 융합 메커니즘을 도입하여 텍스트 임베딩과 이미지 특징을 중간 레이어에서 결합한다. 이를 통해 다음과 같은 장점을 얻을 수 있다:
텍스트-이미지 정렬 향상: 중간 융합 방식은 텍스트 정보가 주로 중간 레이어에 집중되도록 하여 고수준 의미 정렬을 개선한다. 이는 객체 개수, 복합 개념, 다중 객체 간 관계 등의 생성 성능 향상으로 이어진다.
효율성 향상: 중간 융합은 초기/후반 레이어의 저효율 텍스트-이미지 어텐션 계산을 제거하여 계산 복잡도를 줄이고 학습/추론 속도를 높인다.
실험 결과, 제안한 중간 융합 모델은 기존 초기 융합 모델 대비 FID 및 CLIP 점수가 향상되었으며, 20% 낮은 FLOPs와 50% 빠른 학습 속도를 달성했다. 또한 사람 평가에서도 객체 개수 정렬과 전반적인 생성 품질에서 우수한 성능을 보였다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies