Core Concepts
본 연구는 사전 준비 없이도 자연어 지시에 따라 이미지를 편집할 수 있는 새로운 접근법을 제안한다. 이를 위해 이미지 캡셔닝, DDIM 역변환, 편집 방향 임베딩 등의 기술을 활용하여 사용자의 편집 요청을 이미지 편집 과정에 효과적으로 반영한다.
Abstract
본 연구는 이미지 편집을 위한 새로운 접근법을 제안한다. 기존 방식은 사전 준비 단계가 필요했지만, 제안하는 접근법은 사전 준비 없이도 자연어 지시에 따라 이미지를 편집할 수 있다.
주요 내용은 다음과 같다:
- 이미지 캡셔닝과 DDIM 역변환을 통해 초기 이미지와 노이즈 벡터를 얻는다.
- 대형 언어 모델(LLM)을 활용하여 사용자의 편집 요청에 따른 편집 전후 캡션을 생성하고, 이를 통해 편집 방향 임베딩을 계산한다.
- 편집 방향 임베딩을 활용하여 Stable Diffusion 모델로 편집된 이미지를 생성한다.
실험 결과, 제안 방식은 기존 방식보다 우수한 성능을 보였다. 특히 CLIP-T 기준으로 기존 모델을 능가하는 것으로 나타났다. 이는 사전 준비 없이도 효과적인 이미지 편집이 가능함을 보여준다.
향후 연구에서는 캡셔닝 모델 및 이미지 역변환 기술 개선을 통해 성능을 더욱 향상시킬 계획이다.
Stats
초기 이미지 캡션: "A photo of an orange cat."
편집 후 캡션: "A photo of a cute dog."
Quotes
"본 연구는 사전 준비 없이도 자연어 지시에 따라 이미지를 편집할 수 있는 새로운 접근법을 제안한다."
"제안 방식은 기존 방식보다 우수한 성능을 보였으며, 특히 CLIP-T 기준으로 기존 모델을 능가하는 것으로 나타났다."