핵심 개념
텍스트에서 이미지 생성 시 명시적 공간 관계의 개선을 위해 자동 생성된 데이터셋을 활용하는 방법
초록
현재 텍스트에서 이미지 시스템은 명시적인 공간 관계를 정확하게 반영하지 못한다.
제안된 자동 방법론은 이미지에 명시적인 공간 관계를 포함하는 합성 캡션을 생성한다.
SR4G 데이터셋은 990만 개의 이미지-캡션 쌍을 포함하며, 훈련을 위한 6만 개 이상의 캡션을 제공한다.
SDSR4G는 최신 기술을 개선하고 복잡한 아키텍처를 피하면서 상태를 개선한다.
실험 결과 SDSR4G는 보다 정확한 이미지를 제공하며, 미세 조정된 모델은 보다 일반화되어 보임을 보여준다.
통계
이미지 생성 모델의 성능을 향상시키기 위해 SDSR4G는 VISOR 메트릭에서 최대 9 포인트 개선을 보여줌.
인용구
"SDSR4G는 보다 정확한 이미지를 제공하며, 미세 조정된 모델은 보다 일반화되어 보임을 보여준다." - Source
"SR4G 데이터셋은 990만 개의 이미지-캡션 쌍을 포함하며, 훈련을 위한 6만 개 이상의 캡션을 제공한다." - Source