Concepts de base
텍스트 기반 이미지 생성 모델에서 객체 중심 에너지 기반 주의 맵 정렬 기법을 통해 부정확한 속성 결합과 객체 누락 문제를 해결한다.
Résumé
이 논문은 텍스트 기반 이미지 생성 모델에서 발생하는 부정확한 속성 결합과 객체 누락 문제를 해결하기 위한 새로운 방법을 제안한다.
먼저 텍스트 프롬프트의 객체 지향적 구조를 활용하여 객체 중심 에너지 기반 주의 맵 정렬(EBAMA) 방법을 소개한다. EBAMA는 객체 중심 속성 결합 손실과 객체 중심 강도 정규화기를 통해 두 가지 문제를 통합적으로 해결한다.
객체 중심 속성 결합 손실은 객체 토큰과 수식어 토큰 간 주의 맵 정렬을 최대화하여 속성 결합을 개선한다. 객체 중심 강도 정규화기는 객체 주의 맵의 강도 수준을 유지하여 객체 누락을 방지한다.
다양한 실험을 통해 EBAMA가 기존 방법들에 비해 우수한 성능을 보이며, 텍스트 기반 이미지 편집 능력 향상에도 기여할 수 있음을 확인했다.
Stats
주어진 프롬프트는 "a purple crown and a blue suitcase"이다.
SD와 SG 모델에서 크라운의 주의 맵 강도가 낮아 최종 이미지에서 크라운이 누락되었다.
SD, AnE, SG 모델에서 '퍼플'과 '크라운'의 주의 맵 분포가 정렬되지 않아 속성 결합에 실패했다.
Citations
"Text-to-image diffusion models have shown great success in generating high-quality text-guided images. Yet, these models may still fail to semantically align generated images with the provided text prompts, leading to problems like incorrect attribute binding and/or catastrophic object neglect."
"Given the pervasive object-oriented structure underlying text prompts, we introduce a novel object-conditioned Energy-Based Attention Map Alignment (EBAMA) method to address the aforementioned problems."