Core Concepts
다양한 인체 부위 참조 이미지와 자세 정보를 활용하여 사실적이고 다양한 인간 이미지를 생성할 수 있는 통합 참조 프레임워크를 제안한다.
Abstract
이 논문은 인간 이미지 생성을 위한 통합 참조 프레임워크 Parts2Whole을 제안한다. 이 방법은 다양한 인체 부위 참조 이미지와 자세 정보를 활용하여 사실적이고 다양한 인간 이미지를 생성할 수 있다.
구체적으로 다음과 같은 핵심 기술을 제안한다:
의미 인식 기반 외관 인코더: 각 참조 이미지의 텍스트 레이블을 활용하여 다양한 인체 부위의 특징을 효과적으로 인코딩한다.
공유 자기 주의 메커니즘: 참조 이미지와 생성 이미지 간의 공간적 정보를 효과적으로 전달하기 위해 자기 주의 메커니즘을 공유한다.
마스크 기반 주체 선택: 참조 이미지의 주체 마스크 정보를 활용하여 특정 부위의 외관 정보만 선택적으로 활용할 수 있다.
이를 통해 Parts2Whole은 다양한 인체 부위 참조 이미지와 자세 정보를 활용하여 사실적이고 다양한 인간 이미지를 생성할 수 있다. 실험 결과 기존 방법들에 비해 우수한 성능을 보인다.
Stats
참조 이미지와 타겟 이미지 간의 CLIP 점수는 91.2로 높은 정렬도를 보인다.
참조 이미지와 타겟 이미지 간의 DINO 점수는 93.7로 높은 유사도를 보인다.
DreamSim 점수는 0.221로 낮아 참조 이미지와 타겟 이미지 간의 높은 시각적 유사도를 나타낸다.
FID 점수는 17.29로 생성 이미지의 높은 품질을 보여준다.
Quotes
"우리는 Parts2Whole, 다양한 참조 이미지(예: 머리, 얼굴, 옷, 신발 등)와 자세 정보를 활용하여 인간 이미지를 생성할 수 있는 새로운 프레임워크를 제안한다."
"우리는 의미 인식 기반 외관 인코더, 공유 자기 주의 메커니즘, 마스크 기반 주체 선택 등의 핵심 기술을 개발하여 참조 이미지의 세부 정보를 효과적으로 활용할 수 있다."