본 논문에서는 고 가이던스 스케일에서 확산 모델의 과포화 및 아티팩트를 제거하는 새로운 방법인 Adaptive Projected Guidance (APG)를 제안합니다.
확산 모델은 고품질 이미지 생성 분야에서 뛰어난 성능을 보여주었지만, 생성된 이미지의 품질과 입력 조건과의 일관성을 향상시키기 위해서는 안내 기법이 필수적입니다. 특히, 분류자 기반 안내 (CFG)는 널리 사용되는 기법이지만, 높은 안내 스케일에서는 과포화 및 사실적이지 않은 아티팩트를 발생시키는 단점이 있습니다.
APG는 CFG 업데이트 규칙을 수정하여 과포화 문제를 해결합니다.
직교 투영: CFG 업데이트 항을 조건부 모델 예측에 평행한 성분과 직교하는 성분으로 분해합니다. 직교 성분은 주로 이미지 품질을 향상시키는 반면, 평행 성분은 채도를 높이는 역할을 합니다. APG는 평행 성분의 영향을 줄여 과포화 없이 고품질 생성을 달성합니다.
재조정: CFG 업데이트 규칙과 확률적 경사 상승 간의 연결점을 기반으로, 각 업데이트의 영향을 조절하기 위해 CFG 업데이트 방향을 재조정합니다. 이는 샘플링 프로세스에서 큰 업데이트 노름으로 인한 드리프트를 제한합니다.
역 모멘텀: 이전 업데이트 방향으로부터 모델을 밀어내어 현재 업데이트 방향에 더 집중하도록 하는 역 모멘텀 항을 도입합니다.
본 논문에서는 EDM2 및 Stable Diffusion을 포함한 여러 확산 모델을 사용하여 APG를 평가했습니다. 실험 결과, APG는 CFG와 비교하여 FID, 재현율, 채도 점수를 향상시키는 동시에 CFG와 유사한 정밀도를 유지하는 것으로 나타났습니다.
APG는 과포화 또는 원치 않은 아티팩트 없이 높은 안내 스케일을 사용할 수 있는 CFG에 대한 효과적인 대안입니다. APG는 구현이 간편하며 샘플링 프로세스에 거의 오버헤드를 추가하지 않으면서도, 다양한 조건부 확산 모델에 적용하여 우수한 결과를 얻을 수 있습니다.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Seyedmorteza... um arxiv.org 10-04-2024
https://arxiv.org/pdf/2410.02416.pdfTiefere Fragen