核心概念
생성적 인간 사전을 활용하여 텍스트 설명을 통해 인간 이미지의 패션 스타일을 효과적으로 편집할 수 있다.
要約
이 연구는 텍스트 기반 패션 스타일 편집 문제를 다룹니다. 기존의 텍스트 기반 이미지 편집 방법은 단순한 텍스트 프롬프트로는 복잡한 패션 스타일을 효과적으로 제어하기 어려운 한계가 있었습니다. 이를 해결하기 위해 두 가지 방향을 제안합니다:
- 텍스트 증강: 언어 모델을 활용하여 텍스트 프롬프트를 보다 구체적이고 시각적으로 풍부하게 만듭니다.
- 시각적 참조: 패션 이미지 데이터베이스에서 관련 참조 이미지를 검색하고, 이를 시각적 가이드로 활용합니다.
이를 통해 FaSE 프레임워크를 제안하였고, 다양한 패션 스타일 편집 작업에서 우수한 성능을 보였습니다.
統計
사람 전신 이미지에서 패션 스타일을 효과적으로 편집할 수 있다.
텍스트 프롬프트만으로는 복잡한 패션 스타일을 제어하기 어려우며, 시각적 참조가 필요하다.
언어 모델을 활용한 텍스트 증강과 관련 참조 이미지 활용이 편집 성능을 크게 향상시킨다.
引用
"생성적 인간 사전을 활용하여 텍스트 설명을 통해 인간 이미지의 패션 스타일을 효과적으로 편집할 수 있다."
"텍스트 프롬프트만으로는 복잡한 패션 스타일을 제어하기 어려우며, 시각적 참조가 필요하다."
"언어 모델을 활용한 텍스트 증강과 관련 참조 이미지 활용이 편집 성능을 크게 향상시킨다."