Core Concepts
제한된 참조 이미지에서 사용자가 지정한 시각적 속성을 정확하게 추출하고 새로운 개념에 적용할 수 있는 방법을 제안한다.
Abstract
이 논문은 사용자 지정 시각적 외관 개인화(U-VAP)라는 새로운 설정을 제안한다. 제한된 참조 이미지에서 텍스트로 제어 가능한 방식으로 특정 시각적 속성을 학습하기 위해 U-VAP는 사용자가 텍스트 지침을 통해 원하는 시각적 속성을 선택할 수 있게 한다.
먼저 DreamBooth 기반의 초기 개인화 모델을 학습한다. 그러나 입력 이미지가 종종 동일한 시각적 속성을 공유하기 때문에, 초기 개인화는 모든 시각적 외관을 결합하고 사용자의 입력 쿼리를 무시하는 경향이 있다.
이를 해결하기 위해 U-VAP는 분리된 자기 증강 전략을 제안한다. 고급 대규모 언어 모델의 기능을 활용하여 입력 프롬프트에 따라 두 세트의 지침을 생성합니다. 하나의 세트는 대상 속성과 다른 속성을 열거하고, 다른 하나는 그 반대이다. 이 두 세트의 프롬프트를 사용하여 초기 개인화 모델로 증강된 샘플을 생성하고, 이를 사용하여 대상 및 비대상 외관을 결합하도록 모델을 추가로 미세 조정한다. 이를 통해 U-VAP는 사용자가 지정한 속성에 대한 개인화를 촉진하고 관련 없는 속성을 억제한다.
실험 결과는 U-VAP가 다양한 속성 인식 이미지 생성 작업에서 효과적임을 보여준다. 또한 다른 맞춤형 방법과 플러그 앤 플레이 방식으로 결합할 수 있다.
Stats
제한된 참조 이미지에서 사용자가 지정한 시각적 속성을 정확하게 추출하고 새로운 개념에 적용할 수 있다.
분리된 자기 증강 전략을 통해 대상 및 비대상 속성을 효과적으로 결합할 수 있다.
다른 맞춤형 방법과 플러그 앤 플레이 방식으로 결합할 수 있다.
Quotes
"제한된 참조 이미지에서 텍스트로 제어 가능한 방식으로 특정 시각적 속성을 학습하기 위해 U-VAP는 사용자가 텍스트 지침을 통해 원하는 시각적 속성을 선택할 수 있게 한다."
"분리된 자기 증강 전략을 통해 U-VAP는 사용자가 지정한 속성에 대한 개인화를 촉진하고 관련 없는 속성을 억제한다."