이 논문은 안정 확산 모델의 한계를 해결하기 위해 UniFL이라는 통합 피드백 학습 프레임워크를 제안한다. UniFL은 세 가지 핵심 구성 요소로 이루어져 있다:
지각적 피드백 학습(PeFL): 기존 지각 모델의 지식을 활용하여 시각적 품질을 향상시킨다. 스타일과 구조 최적화를 통해 생성 이미지의 품질을 개선한다.
분리된 피드백 학습: 미적 선호도를 색상, 레이아웃, 조명, 디테일 등의 세부 차원으로 분리하여 최적화한다. 또한 정보적이고 다양한 프롬프트 선택 전략을 도입한다.
적대적 피드백 학습: 생성기와 판별기를 대립적으로 학습시켜 추론 속도를 가속화한다. 이를 통해 낮은 단계의 노이즈 제거 과정에서도 효과적인 피드백을 제공할 수 있다.
실험 결과, UniFL은 SD1.5와 SDXL 모델에 대해 시각적 품질, 미적 선호도, 추론 속도 측면에서 기존 방법들을 크게 능가하는 성능을 보였다. 또한 다운스트림 작업에서도 우수한 일반화 능력을 입증했다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Jiacheng Zha... kl. arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.05595.pdfDybere Forespørgsler