toplogo
Đăng nhập

고 가이던스 스케일에서 확산 모델의 과포화 및 아티팩트 제거


Khái niệm cốt lõi
고 가이던스 스케일에서 발생하는 과포화 및 아티팩트 문제를 해결하면서도, 기존의 분류자 기반 안내 (CFG) 기법의 장점을 유지하는 새로운 확산 모델 안내 기법 (APG)을 제시한다.
Tóm tắt

Adaptive Projected Guidance (APG): 고품질 생성을 위한 새로운 확산 모델 안내 기법

본 논문에서는 고 가이던스 스케일에서 확산 모델의 과포화 및 아티팩트를 제거하는 새로운 방법인 Adaptive Projected Guidance (APG)를 제안합니다.

배경

확산 모델은 고품질 이미지 생성 분야에서 뛰어난 성능을 보여주었지만, 생성된 이미지의 품질과 입력 조건과의 일관성을 향상시키기 위해서는 안내 기법이 필수적입니다. 특히, 분류자 기반 안내 (CFG)는 널리 사용되는 기법이지만, 높은 안내 스케일에서는 과포화 및 사실적이지 않은 아티팩트를 발생시키는 단점이 있습니다.

APG의 핵심 아이디어

APG는 CFG 업데이트 규칙을 수정하여 과포화 문제를 해결합니다.

  1. 직교 투영: CFG 업데이트 항을 조건부 모델 예측에 평행한 성분과 직교하는 성분으로 분해합니다. 직교 성분은 주로 이미지 품질을 향상시키는 반면, 평행 성분은 채도를 높이는 역할을 합니다. APG는 평행 성분의 영향을 줄여 과포화 없이 고품질 생성을 달성합니다.

  2. 재조정: CFG 업데이트 규칙과 확률적 경사 상승 간의 연결점을 기반으로, 각 업데이트의 영향을 조절하기 위해 CFG 업데이트 방향을 재조정합니다. 이는 샘플링 프로세스에서 큰 업데이트 노름으로 인한 드리프트를 제한합니다.

  3. 역 모멘텀: 이전 업데이트 방향으로부터 모델을 밀어내어 현재 업데이트 방향에 더 집중하도록 하는 역 모멘텀 항을 도입합니다.

실험 결과

본 논문에서는 EDM2 및 Stable Diffusion을 포함한 여러 확산 모델을 사용하여 APG를 평가했습니다. 실험 결과, APG는 CFG와 비교하여 FID, 재현율, 채도 점수를 향상시키는 동시에 CFG와 유사한 정밀도를 유지하는 것으로 나타났습니다.

결론

APG는 과포화 또는 원치 않은 아티팩트 없이 높은 안내 스케일을 사용할 수 있는 CFG에 대한 효과적인 대안입니다. APG는 구현이 간편하며 샘플링 프로세스에 거의 오버헤드를 추가하지 않으면서도, 다양한 조건부 확산 모델에 적용하여 우수한 결과를 얻을 수 있습니다.

edit_icon

Customize Summary

edit_icon

Rewrite with AI

edit_icon

Generate Citations

translate_icon

Translate Source

visual_icon

Generate MindMap

visit_icon

Visit Source

Thống kê
EDM2 모델을 사용한 클래스 조건부 이미지 생성에서 APG는 안내 스케일 4에서 FID 6.49, 재현율 0.62, 채도 0.33을 달성했습니다. Stable Diffusion XL 모델을 사용한 텍스트-이미지 생성에서 APG는 안내 스케일 15에서 FID 25.35, 재현율 0.50, 채도 0.18을 달성했습니다. APG는 CFG Rescale보다 효과적으로 과포화를 줄였습니다. Stable Diffusion 3 모델에서 APG는 텍스트 렌더링의 일관성을 향상시켜 더 정확한 철자를 생성했습니다.
Trích dẫn
"Classifier-free guidance (CFG) is crucial for improving both generation quality and alignment between the input condition and final output in diffusion models." "While a high guidance scale is generally required to enhance these aspects, it also causes oversaturation and unrealistic artifacts." "Our approach, termed adaptive projected guidance (APG), retains the quality-boosting advantages of CFG while enabling the use of higher guidance scales without oversaturation." "APG is easy to implement and introduces practically no additional computational overhead to the sampling process."

Thông tin chi tiết chính được chắt lọc từ

by Seyedmorteza... lúc arxiv.org 10-04-2024

https://arxiv.org/pdf/2410.02416.pdf
Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models

Yêu cầu sâu hơn

APG를 다른 생성 모델, 예를 들어 GAN이나 VAE에 적용할 수 있을까요?

APG는 Diffusion Model의 Classifier-free Guidance (CFG) 업데이트 규칙을 기반으로 설계되었기 때문에 GAN이나 VAE와 같은 다른 생성 모델에는 직접적으로 적용하기 어렵습니다. **GAN (Generative Adversarial Networks)**은 Generator와 Discriminator라는 두 신경망을 서로 경쟁적으로 학습시키는 구조를 가지고 있습니다. APG에서 사용하는 Diffusion Model의 Score 기반 생성 과정이나 CFG와 같은 기법은 GAN의 학습 다이나믹스와는 근본적으로 다르기 때문에 직접적인 적용이 어렵습니다. **VAE (Variational Autoencoder)**는 데이터를 저차원의 latent space에 매핑하고, 이를 다시 원래의 데이터 공간으로 복원하는 생성 모델입니다. VAE는 주로 latent space에서의 Gaussian 분포를 가정하고, 이를 통해 다양한 샘플을 생성합니다. APG는 Diffusion Model의 denoising 과정에서 이미지의 품질과 saturation을 제어하는 데 초점을 맞추고 있기 때문에, VAE의 latent space 기반 생성 방식과는 큰 연관성이 없습니다. 하지만, APG의 핵심 아이디어인 orthogonal projection, rescaling, reverse momentum 등은 다른 생성 모델에도 영감을 줄 수 있습니다. 예를 들어, GAN의 Generator 업데이트 과정에서 생성된 이미지의 특정 속성을 제어하기 위해 유사한 projection 기법을 적용하거나, VAE의 latent space에서 샘플링된 latent vector를 조정하는 데 활용할 수 있을 것입니다. 결론적으로 APG는 Diffusion Model과 CFG에 특화된 방법이지만, 그 핵심 아이디어는 다른 생성 모델에도 응용될 가능성이 있습니다. 하지만, 각 모델의 특성을 고려하여 새로운 방식으로 적용해야 할 것입니다.

APG가 생성된 이미지의 다양성을 감소시키는 CFG의 고유한 단점을 어떻게 완화할 수 있을까요?

APG는 CFG의 oversaturation 문제를 해결하는 데 효과적이지만, CFG가 가지는 다양성 감소 문제를 완전히 해결하지는 못합니다. 오히려 APG는 CFG 업데이트 규칙을 기반으로 하기 때문에, 높은 guidance scale에서 CFG보다 약간 더 다양성이 감소할 수 있습니다. 다행히 APG는 다른 다양성 증진 기법들과 함께 사용하여 다양성 감소 문제를 완화할 수 있습니다. Condition-Annealed Sampling (CADS): Diffusion Model의 Sampling 과정에서 condition 정보를 점진적으로 증가시키는 방법입니다. APG와 함께 사용하면 높은 guidance scale에서도 다양한 이미지를 생성할 수 있습니다. Interval Guidance (IG): 특정 구간에서만 guidance를 적용하여 다양성을 높이는 방법입니다. APG와 함께 사용하면 oversaturation 없이 다양한 이미지를 생성할 수 있습니다. APG 자체적으로 다양성을 증진시키는 방법은 다음과 같습니다. Reverse momentum: 과거 업데이트 방향과 반대 방향으로 momentum을 적용하여, 새로운 이미지 생성을 유도합니다. 이는 다양한 이미지 생성에 기여할 수 있습니다. Projection strength (η) 조절: Parallel component의 강도를 조절하는 η 값을 조정하여 다양성을 제어할 수 있습니다. η 값을 낮추면 다양성이 증가하고, 높추면 다양성이 감소하는 경향을 보입니다. 결론적으로 APG는 CFG의 다양성 감소 문제를 완전히 해결하지는 못하지만, 다른 다양성 증진 기법들과 함께 사용하거나, reverse momentum 및 η 값 조절을 통해 다양성을 향상시킬 수 있습니다.

예술적 스타일이나 추상적 개념과 같이 주관적인 이미지 생성 작업에서 APG의 효과는 어떨까요?

APG는 주관적인 이미지 생성 작업에서도 유용하게 활용될 수 있습니다. 특히 예술적 스타일이나 추상적 개념을 표현할 때, CFG의 높은 guidance scale에서 발생하는 oversaturation은 이미지의 창의성을 저해하고, 표현하려는 스타일을 왜곡할 수 있습니다. APG는 이러한 oversaturation 문제를 해결하여 이미지의 품질을 유지하면서도 원하는 스타일을 더 잘 표현할 수 있도록 돕습니다. 예술적 스타일: APG는 특정 화가의 화풍이나 예술적 시대의 스타일을 모방하는 데 유용합니다. 높은 guidance scale을 사용하여 스타일을 강조하면서도, oversaturation 없이 이미지의 디테일과 질감을 유지할 수 있습니다. 추상적 개념: 사랑, 슬픔, 분노와 같은 추상적인 개념을 시각적으로 표현할 때, APG는 과도한 채도나 왜곡 없이 이미지를 생성하여 작가의 의도를 더 명확하게 전달할 수 있도록 돕습니다. 하지만 APG를 사용할 때 주의해야 할 점은, 예술적 스타일이나 추상적 개념은 주관적인 요소이기 때문에 항상 최상의 결과를 보장하지는 않는다는 것입니다. 다양한 실험 필요: APG의 hyperparameter (η, rescaling radius, reverse momentum)를 조절하여 원하는 스타일이나 개념에 가장 적합한 설정을 찾는 것이 중요합니다. 다른 기법과의 조합: APG를 단독으로 사용하기보다는, 다른 다양성 증진 기법이나 스타일 전이 기법들과 함께 사용하여 더욱 풍부하고 창의적인 이미지를 생성할 수 있습니다. 결론적으로 APG는 예술적 스타일이나 추상적 개념을 표현하는 주관적인 이미지 생성 작업에서 oversaturation을 방지하고 이미지 품질을 유지하는 데 효과적인 도구가 될 수 있습니다. 하지만, 최적의 결과를 얻기 위해서는 다양한 실험과 다른 기법들과의 조합을 고려해야 합니다.
0
star