이 연구는 레이아웃 정보와 텍스트 정보를 활용하여 이미지를 생성하는 기술을 다룬다. 기존의 GLIGEN 모델은 레이아웃 정보를 활용하여 공간적 정보를 잘 반영하지만, 텍스트 정보를 충분히 반영하지 못하는 문제가 있었다. 이를 해결하기 위해 저자들은 GLIGEN의 네트워크 구조를 변경하여 레이아웃 정보와 텍스트 정보를 병렬적으로 처리하는 ReGround 모델을 제안했다. 실험 결과, ReGround는 GLIGEN에 비해 텍스트 정보와 레이아웃 정보를 모두 잘 반영하는 것으로 나타났다. 또한 ReGround는 추가적인 학습 없이도 기존 GLIGEN 모델을 개선할 수 있어 효율적이다.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Yuseung Lee,... klokken arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13589.pdfDypere Spørsmål