본 연구 논문에서는 사용자가 텍스트 또는 스타일 이미지를 사용하여 이미지에서 다양한 의류 및 액세서리를 편집할 수 있는 새로운 패션 이미지 편집 프레임워크인 AnyDesign을 소개합니다. 저자는 기존 방법들이 마스크, 키포인트 추출기와 같은 보조 도구에 의존하고, 처리할 수 있는 의류 유형이 제한적이며, 깨끗한 배경의 사람들만 다루는 데이터셋에 집중한다는 점을 지적합니다. 이러한 한계점을 해결하기 위해 저자는 다음과 같은 기여를 합니다.
저자는 다양한 의류 범주와 복잡한 배경을 가진 사람 이미지를 제공하는 SHHQ 데이터셋을 확장하여 SSHQe 데이터셋을 구축했습니다. SSHQe는 9가지 의류 및 액세서리(상의, 하의, 드레스, 스커트, 모자, 스카프, 신발, 양말, 가방)를 포함하며, 각각에 대한 어그노스틱 이미지와 안내 프롬프트를 제공합니다.
AnyDesign은 마스크 기반 모델을 사용하여 의사 샘플을 생성하는 1단계와 마스크 없는 모델을 사용하여 최종 편집된 이미지를 생성하는 2단계로 구성됩니다. OpenFashionClip을 활용하여 텍스트 및 이미지 프롬프트를 모두 지원합니다.
저자는 DiT를 확장하여 Fashion DiT를 제안하고, 여기에 Fashion-Guidance Attention(FGA) 모듈을 통합하여 CLIP 특징과 의류 유형 특징을 결합합니다. FGA는 모델이 마스크 이미지 없이도 다양한 의류 유형에 해당하는 영역을 학습하고 집중하여 정확한 편집을 수행할 수 있도록 합니다.
저자는 VITON-HD, Dresscode, SHHQe 데이터셋에서 AnyDesign을 평가하여 FID, KID, CLIP Score, SSIM, LPIPS와 같은 지표에서 다른 최첨단 방법보다 우수한 성능을 보여줍니다. 또한 사용자 연구를 통해 생성된 이미지의 품질과 의미적 일관성 측면에서 AnyDesign이 다른 방법보다 우수하다는 것을 확인했습니다.
결론적으로 AnyDesign은 마스크 없는 방식으로 텍스트 또는 스타일 이미지를 사용하여 다양한 의류 유형을 편집할 수 있는 새로운 프레임워크입니다. 본 연구는 실제 패션 편집 기술 발전에 기여할 것으로 기대됩니다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문