Core Concepts
부정적 프롬프트를 최적화하여 텍스트-이미지 생성의 미학과 충실도를 크게 향상시킬 수 있다.
Abstract
이 연구에서는 NegOpt라는 새로운 방법을 제안하여 부정적 프롬프트 생성을 최적화함으로써 이미지 생성의 미학과 충실도를 크게 향상시켰다.
첫 번째 단계에서는 정상 프롬프트를 입력으로 받아 부정적 프롬프트를 출력하는 seq2seq 언어 모델을 fine-tuning하였다. 이를 위해 Negative Prompts DB라는 새로운 데이터셋을 구축하였다.
두 번째 단계에서는 강화학습을 통해 미학, 정렬, 충실도 등 다양한 지표를 고려하여 부정적 프롬프트를 최적화하였다.
실험 결과, NegOpt는 기존 접근법 대비 Inception Score에서 24.8%, 미학 점수에서 18.6% 향상된 성능을 보였다. 또한 사람 평가에서도 가장 좋은 순위를 받았다. 특히 강화학습 단계를 통해 중요한 지표들을 선별적으로 향상시킬 수 있었다.
이 연구는 언어 모달리티에서의 최적화 문제를 비언어 모달리티의 성능 향상에 활용할 수 있음을 보여준다. 향후 다양한 분야에서 프롬프트 최적화 기술이 활용될 것으로 기대된다.
Stats
이미지 생성 시 Inception Score가 5.58에서 7.08로 24.8% 향상되었다.
미학 점수는 6.08에서 6.30으로 3.5% 향상되었다.
Quotes
"NegOpt는 이미지 생성의 미학과 충실도를 크게 향상시킬 수 있다."
"강화학습을 통해 중요한 지표들을 선별적으로 향상시킬 수 있었다."