이 논문은 텍스트-이미지 생성 모델의 인간 선호도 정렬을 향상시키기 위해 다중 모달 대형 언어 모델을 활용하는 방법을 제안한다.
먼저, 저자들은 VisionPrefer라는 대규모 고품질 선호도 데이터셋을 구축했다. VisionPrefer는 다중 모달 대형 언어 모델인 GPT-4 Vision을 활용하여 생성된 이미지에 대한 세부적인 선호도 피드백(prompt 준수도, 미학, 충실도, 무해성)을 수집했다. VisionPrefer는 기존 선호도 데이터셋에 비해 규모가 크고 세부적인 피드백을 제공한다.
이어서 저자들은 VisionPrefer를 활용하여 VP-Score라는 선호도 예측 모델을 학습했다. VP-Score는 기존 선호도 예측 모델들과 비교해 경쟁력 있는 성능을 보였다.
마지막으로, 저자들은 두 가지 강화학습 방법(PPO, DPO)을 활용하여 VP-Score와 VisionPrefer를 통해 텍스트-이미지 생성 모델을 fine-tuning했다. 실험 결과, 이를 통해 생성된 이미지가 텍스트 프롬프트와 더 잘 정렬되고, 미학적으로 더 우수하며, 왜곡이 적고, 안전성이 향상되는 것을 확인했다.
종합적으로, 이 논문은 다중 모달 대형 언어 모델을 활용하여 텍스트-이미지 생성 모델의 인간 선호도 정렬을 향상시키는 새로운 접근법을 제안했다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Xun Wu,Shaoh... at arxiv.org 04-24-2024
https://arxiv.org/pdf/2404.15100.pdfDeeper Inquiries