Główne pojęcia
다중 주제 개인화를 위해 세그먼트 마스크를 활용하여 주체 간 아이덴티티를 효과적으로 분리할 수 있다.
Streszczenie
이 논문은 다중 주체 개인화를 위한 새로운 프레임워크 MuDI를 제안한다. 핵심 아이디어는 Segment Anything Model(SAM)을 활용하여 사용자가 제공한 주체들의 세그먼테이션 맵을 추출하고, 이를 훈련과 추론 과정에 활용하는 것이다.
훈련 과정에서는 세그먼트된 주체들을 랜덤하게 합성하는 Seg-Mix 데이터 증강 기법을 도입하여, 주체 간 아이덴티티 혼합을 방지한다. 추론 과정에서는 세그먼트된 주체들을 활용하여 초기 노이즈를 생성함으로써, 주체 간 분리를 돕는다.
실험 결과, MuDI는 기존 방법들에 비해 주체 간 아이덴티티 혼합을 크게 개선하였으며, 정성적/정량적 평가에서 우수한 성능을 보였다. 또한 상대적 크기 조절, 모듈러 커스터마이제이션 등 다양한 응용 분야에서 활용 가능함을 보였다.
Statystyki
다중 주체 개인화 모델은 주체 간 아이덴티티 혼합에 어려움을 겪는다.
기존 방법들은 혼합 아이덴티티 문제를 해결하지 못하거나 부자연스러운 결과를 생성한다.
Cytaty
"Text-to-image diffusion models have shown remarkable success in generating a personalized subject based on a few reference images. However, current methods struggle with handling multiple subjects simultaneously, often resulting in mixed identities with combined attributes from different subjects."
"To address identity mixing in multi-subject personalization, Han et al. [15] proposed to utilize Cut-Mix [52], an augmentation technique that presents the models with cut-and-mixed images of the subjects during personalization. However, using Cut-Mix-like images inevitably often results in the generation of unnatural images with stitching artifacts, such as vertical lines that separate the subjects."