GLoD는 전역 프롬프트와 지역 프롬프트를 입력으로 받아 각각의 노이즈를 추출하고 이를 효과적으로 합성하여 이미지를 생성합니다. 전역 프롬프트는 전체 이미지의 맥락(예: 남자가 여자와 대화하고 있음)을 설명하고, 지역 프롬프트는 개별 객체의 세부 사항(예: 남자의 수염, 여자의 목걸이와 미소)을 지정합니다. GLoD는 이러한 전역 맥락과 지역 세부 사항을 동시에 제어할 수 있으며, 기존 방법들과 달리 전역 맥락을 유지하면서도 지역 세부 사항을 변경할 수 있습니다. 또한 레이아웃 제어 기능을 통해 객체의 위치를 조정할 수 있습니다. 정량적 및 정성적 평가를 통해 GLoD가 복잡한 이미지를 효과적으로 생성할 수 있음을 입증했습니다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問