แนวคิดหลัก
본 논문에서는 사전 훈련된 텍스트-이미지 생성 모델을 특정 주제의 이미지를 생성하도록 미세 조정하는 새로운 방법인 보상 선호도 최적화(RPO)를 제안합니다. RPO는 λ-Harmonic 보상 함수를 사용하여 생성된 이미지의 품질을 평가하고, 선호도 기반 강화 학습을 통해 모델을 미세 조정합니다.
บทคัดย่อ
선호도 기반 강화 학습을 통한 주제 중심 텍스트-이미지 생성: 연구 논문 요약
Miao, Y., Loh, W., Kothawade, S., Poupart, P., Rashwan, A., & Li, Y. (2024). Subject-driven Text-to-Image Generation via Preference-based Reinforcement Learning. Advances in Neural Information Processing Systems, 36.
본 연구는 텍스트-이미지 생성 모델이 주어진 참조 이미지의 특정 주제를 유지하면서 다양한 텍스트 프롬프트에 따라 새로운 이미지를 생성하도록 학습하는 것을 목표로 합니다.