이 논문은 텍스트 기반 이미지 생성 모델에서 발생하는 부정확한 속성 결합과 객체 누락 문제를 해결하기 위한 새로운 방법을 제안한다.
먼저 텍스트 프롬프트의 객체 지향적 구조를 활용하여 객체 중심 에너지 기반 주의 맵 정렬(EBAMA) 방법을 소개한다. EBAMA는 객체 중심 속성 결합 손실과 객체 중심 강도 정규화기를 통해 두 가지 문제를 통합적으로 해결한다.
객체 중심 속성 결합 손실은 객체 토큰과 수식어 토큰 간 주의 맵 정렬을 최대화하여 속성 결합을 개선한다. 객체 중심 강도 정규화기는 객체 주의 맵의 강도 수준을 유지하여 객체 누락을 방지한다.
다양한 실험을 통해 EBAMA가 기존 방법들에 비해 우수한 성능을 보이며, 텍스트 기반 이미지 편집 능력 향상에도 기여할 수 있음을 확인했다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Yasi Zhang,P... alle arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07389.pdfDomande più approfondite