Główne pojęcia
ReNO는 텍스트-이미지 생성 모델의 추론 시 초기 노이즈를 최적화하여 이미지 품질과 프롬프트 준수도를 향상시키는 새로운 접근 방식입니다.
Streszczenie
ReNO: 보상 기반 노이즈 최적화를 통한 원 스텝 텍스트-이미지 모델 향상
본 연구 논문에서는 텍스트-이미지 생성 모델의 추론 성능을 향상시키기 위한 새로운 접근 방식인 ReNO(Reward-based Noise Optimization)를 제안합니다. ReNO는 복잡한 구성 프롬프트에서 지정된 세부 정보를 정확하게 캡처하는 데 어려움을 겪는 기존 텍스트-이미지 모델의 한계를 해결하고자 합니다.
텍스트-이미지(T2I) 모델은 최근 몇 년 동안 상당한 발전을 이루었지만, 여전히 복잡한 구성 프롬프트에 지정된 세부 정보를 정확하게 캡처하는 데 어려움을 겪고 있습니다. 특히 텍스트 렌더링 오류, 속성 바인딩 문제, 불가능한 객체 조합 생성, 색상 번짐과 같은 문제가 발생합니다. 최근 연구에서는 향상된 언어 인코더, 더 큰 확산 모델 및 더 나은 데이터 큐레이션을 통해 이러한 문제를 해결하려고 시도했지만, 이러한 접근 방식은 일반적으로 처음부터 더 큰 모델을 학습해야 하기 때문에 기존 모델에는 적용할 수 없습니다.
보상 목표를 사용하여 T2I 모델을 미세 조정하는 것은 효율적인 대안으로 주목받고 있지만, "보상 해킹"으로 인해 원치 않는 이미지에 높은 점수를 부여하고 보이지 않는 프롬프트 분포에 잘 일반화되지 않을 수 있다는 단점이 있습니다.