Core Concepts
본 연구는 인간 이미지의 외형과 잠재 구조를 통합적으로 모델링하여 고품질의 인간 이미지를 생성하는 HyperHuman 프레임워크를 제안한다.
Abstract
본 연구는 인간 이미지 생성을 위한 통합적인 프레임워크 HyperHuman을 제안한다. 주요 내용은 다음과 같다:
대규모 인간 중심 데이터셋 HumanVerse를 구축하여 다양한 인간 이미지와 풍부한 주석 정보(자세, 깊이, 법선 등)를 확보했다.
Latent Structural Diffusion Model에서는 RGB, 깊이, 법선 정보를 동시에 탈잡음하는 통합 모델을 제안했다. 이를 통해 이미지 외형, 공간 관계, 기하학적 정보를 균형있게 학습할 수 있다.
Structure-Guided Refiner에서는 예측된 깊이, 법선 정보를 활용하여 고해상도 이미지를 생성한다. 또한 강건한 조건 설정 기법을 도입해 오류 누적을 완화했다.
실험 결과, 제안 모델이 기존 방법 대비 사실적이고 다양한 인간 이미지를 생성함을 보였다.
Stats
인간 이미지 데이터셋 HumanVerse는 340M장의 고품질 이미지와 풍부한 주석 정보를 포함한다.
제안 모델은 RGB, 깊이, 법선 정보를 동시에 탈잡음하여 이미지 외형과 구조를 통합적으로 학습한다.
Quotes
"인간 이미지는 거시적 골격에서 미시적 기하학까지 다양한 수준의 구조적 특성을 가지고 있다. 따라서 이러한 명시적 외형과 잠재적 구조 간의 상관관계를 하나의 모델에서 포착하는 것이 자연스럽고 일관된 인간 이미지 생성에 필수적이다."