핵심 개념
본 논문에서는 텍스트-투-이미지 기반 모델에 어댑터를 삽입하여 기본 모델의 일반화 능력을 유지하면서 복잡한 다운스트림 작업을 수행할 수 있는 효과적인 방법을 제안합니다.
초록
헬로밈: 디퓨전 모델에 고수준의 사실적인 조건을 포함하기 위한 공간 니팅 어텐션 통합
본 연구 논문에서는 텍스트-투-이미지 생성 모델, 특히 Stable Diffusion 1.5 모델을 기반으로 하는 밈 비디오 생성을 위한 새로운 접근 방식인 헬로밈을 제안합니다. 저자들은 2D 특징 맵과 관련된 어텐션 메커니즘을 최적화하여 어댑터의 성능을 향상시키는 방법을 소개합니다.
공간 니팅 어텐션: 2D 특징 맵의 공간 구조 정보 손실을 최소화하기 위해 행렬 형태의 자기-주의 또는 교차-주의를 먼저 행 방향으로 수행하고, 그 다음 열 방향으로 수행하는 공간 니팅 어텐션(SK Attentions) 메커니즘을 제안합니다. 이는 2D 특징 맵의 구조적 정보를 자연스럽게 보존하여 신경망이 이러한 개념을 다시 학습할 필요성을 줄여줍니다.
헬로밈 프레임워크: 헬로밈은 참조 이미지에서 사실적인 특징을 추출하는 HMReferenceNet, 머리 포즈 및 표정과 같은 고수준 특징을 추출하는 HMControlNet, 두 특징 세트를 받아 노이즈 제거를 수행하는 HMDenoisingNet의 세 가지 모듈로 구성됩니다. HMDenoisingNet은 미세 조정된 Animatediff 모듈을 통합하여 연속적인 비디오 프레임을 생성할 수도 있습니다.
실험 및 결과: 저자들은 CelebV-HQ, VFHQ 및 인터넷에서 공개적으로 사용 가능한 비디오를 포함한 대규모 데이터 세트에서 헬로밈을 훈련하고 평가했습니다. 그 결과, 헬로밈은 Liveportrait, Aniportrait, FollowyourEmoji와 같은 기존 방법보다 정량적 지표(FID, FVD, PSNR, SSIM, LPIPS) 및 정성적 비교 측면에서 모두 우수한 성능을 보였습니다.