Core Concepts
본 연구는 텍스트 프롬프트와 주제 이미지를 함께 활용하여 이미지의 특정 영역을 정확하게 인페인팅하는 방법을 제안한다.
Abstract
본 연구는 텍스트 프롬프트와 주제 이미지를 활용하여 이미지의 특정 영역을 정확하게 인페인팅하는 LAR-Gen 모델을 제안한다.
Locate 메커니즘: 마스크된 장면 이미지와 노이즈를 결합하여 배경은 유지하면서 마스크된 영역만 인페인팅하도록 한다.
Assign 메커니즘: 텍스트 프롬프트와 주제 이미지를 분리된 크로스 어텐션 메커니즘을 통해 효과적으로 활용한다.
Refine 메커니즘: RefineNet이라는 보조 U-Net을 도입하여 주제 이미지의 세부 정보를 보완한다.
또한 본 연구는 텍스트 프롬프트와 주제 이미지가 쌍으로 구성된 데이터셋을 자동으로 구축하는 방법을 제안한다.
실험 결과, LAR-Gen은 주제 아이덴티티와 텍스트 의미 일관성 측면에서 우수한 성능을 보였다.
Stats
마스크된 장면 이미지와 노이즈를 결합하여 배경은 유지하면서 마스크된 영역만 인페인팅한다.
텍스트 프롬프트와 주제 이미지를 분리된 크로스 어텐션 메커니즘을 통해 효과적으로 활용한다.
RefineNet이라는 보조 U-Net을 도입하여 주제 이미지의 세부 정보를 보완한다.
Quotes
"본 연구는 텍스트 프롬프트와 주제 이미지를 함께 활용하여 이미지의 특정 영역을 정확하게 인페인팅하는 방법을 제안한다."
"LAR-Gen은 주제 아이덴티티와 텍스트 의미 일관성 측면에서 우수한 성능을 보였다."