이 논문은 텍스트-이미지 생성 모델의 충실도와 미적 품질을 향상시키기 위한 AGFSync 프레임워크를 소개한다. AGFSync는 AI 기반 피드백 데이터를 활용하여 Direct Preference Optimization (DPO) 기법을 통해 모델을 fine-tuning한다.
구체적으로 다음과 같은 과정으로 진행된다:
실험 결과, AGFSync를 적용한 모델이 기존 모델 대비 TIFA 벤치마크에서 VQA 점수와 미적 점수가 각각 1.3%, 3.3% 향상되었고, HPSv2 벤치마크에서도 CLIP 점수와 미적 점수 측면에서 우수한 성능을 보였다. 이를 통해 AGFSync가 텍스트-이미지 생성 모델의 충실도와 미적 품질을 효과적으로 향상시킬 수 있음을 확인하였다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Jingkun An,Y... alle arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13352.pdfDomande più approfondite