이 논문은 안정 확산 모델의 한계를 해결하기 위해 UniFL이라는 통합 피드백 학습 프레임워크를 제안한다. UniFL은 세 가지 핵심 구성 요소로 이루어져 있다:
지각적 피드백 학습(PeFL): 기존 지각 모델의 지식을 활용하여 시각적 품질을 향상시킨다. 스타일과 구조 최적화를 통해 생성 이미지의 품질을 개선한다.
분리된 피드백 학습: 미적 선호도를 색상, 레이아웃, 조명, 디테일 등의 세부 차원으로 분리하여 최적화한다. 또한 정보적이고 다양한 프롬프트 선택 전략을 도입한다.
적대적 피드백 학습: 생성기와 판별기를 대립적으로 학습시켜 추론 속도를 가속화한다. 이를 통해 낮은 단계의 노이즈 제거 과정에서도 효과적인 피드백을 제공할 수 있다.
실험 결과, UniFL은 SD1.5와 SDXL 모델에 대해 시각적 품질, 미적 선호도, 추론 속도 측면에서 기존 방법들을 크게 능가하는 성능을 보였다. 또한 다운스트림 작업에서도 우수한 일반화 능력을 입증했다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések