이 논문은 텍스트-이미지 생성 모델의 두 가지 주요 문제를 해결하고자 한다. 첫째, 프롬프트를 통해 표현하기 어려운 목표를 달성하기 위해 보상 기반 강화학습을 사용하여 모델을 최적화한다. 둘째, 확산 모델의 느린 생성 속도를 극복하기 위해 일관성 모델을 활용한다.
저자들은 일관성 모델의 반복적인 추론 과정을 강화학습 프레임워크로 모델링하는 RLCM(Reinforcement Learning for Consistency Models)을 제안한다. RLCM은 확산 모델 기반 DDPO 방법보다 훈련 시간과 추론 시간이 크게 단축되며, 다양한 보상 함수에 대해 더 나은 성능을 보인다. 압축성, 비압축성, 미적 품질, 프롬프트-이미지 정렬 등의 과제에서 RLCM이 DDPO보다 우수한 성능을 보였다.
RLCM은 일관성 모델의 빠른 추론 속도를 활용하여 보상 최적화를 위한 강화학습을 효율적으로 수행할 수 있다. 실험 결과, RLCM은 DDPO 대비 훈련 시간과 추론 시간을 크게 단축하면서도 보상 최적화 성능을 향상시킬 수 있었다.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Tiefere Fragen