이 논문은 확산 모델의 샘플링 과정을 개선하는 새로운 안내 기법인 교란된 주의 집중 기반 안내(PAG)를 제안한다.
먼저 저자들은 기존의 분류기 기반 안내(CG) 및 분류기 없는 안내(CFG) 기법이 가지는 한계를 지적한다. 이러한 기법들은 추가적인 학습이나 외부 모듈이 필요하며, 무조건적 생성에는 적용할 수 없다는 문제가 있다.
이에 저자들은 PAG를 제안한다. PAG는 확산 모델의 U-Net 구조에 포함된 자기 주의 집중 메커니즘을 교란시켜 구조적으로 열등한 샘플을 생성하고, 이를 활용하여 생성 과정을 구조적으로 더 나은 방향으로 안내한다. 이를 통해 추가적인 학습이나 외부 모듈 없이도 무조건적 및 조건부 생성 모두에서 성능 향상을 달성할 수 있다.
실험 결과, PAG는 ADM 및 Stable Diffusion 모델에 적용되어 무조건적 및 조건부 생성 모두에서 기존 방법 대비 큰 폭의 성능 향상을 보였다. 또한 이미지 복원 등의 다운스트림 작업에서도 PAG의 효과를 확인할 수 있었다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor