이 논문은 텍스트 유도 확산 모델에서 분류기 없는 유도(CFG) 전략의 문제점을 지적하고 이를 해결하기 위한 의미 인식 분류기 없는 유도(S-CFG) 기법을 제안한다.
먼저, 저자들은 CFG 전략이 전역적인 유도 척도를 사용함으로써 다양한 의미 영역에 대한 공간적 불일치와 최적이지 않은 이미지 품질을 초래한다고 주장한다. 이를 보여주기 위해 Stable Diffusion 모델의 생성 결과를 분석하고, 각 의미 영역에 대한 분류기 점수와 확산 점수의 차이를 확인한다.
이를 해결하기 위해 저자들은 S-CFG 기법을 제안한다. 이 기법은 다음과 같은 단계로 구성된다:
훈련 없이 잠재 이미지를 의미 영역으로 분할하는 방법을 설계한다. 특히 U-net 백본의 크로스 어텐션 맵을 이용하여 각 패치를 해당 토큰에 할당하고, 셀프 어텐션 맵을 활용하여 의미 영역을 완성한다.
다양한 의미 영역에 대한 증폭을 균형있게 하기 위해, 각 의미 영역의 분류기 점수를 균일한 수준으로 조정하도록 적응형 CFG 척도를 설정한다.
실험 결과, S-CFG 기법은 다양한 텍스트 유도 확산 모델에서 원래의 CFG 전략에 비해 우수한 성능을 보였으며, 추가 훈련 없이 이미지 품질과 텍스트-이미지 정렬을 개선할 수 있음을 확인했다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Dazhong Shen... a las arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.05384.pdfConsultas más profundas