Khái niệm cốt lõi
본 연구는 다양한 신호 도메인에서 고품질 암시적 신경 표현을 합성하는 도메인 독립적 잠재 확산 모델을 제안한다. 제안 모델은 이산 데이터와 연속 함수 공간을 연결하는 새로운 VAE 아키텍처를 정의하고, 계층적으로 분해된 기저 필드와 점진적 조건화 메커니즘을 도입하여 암시적 신경 표현의 표현력을 향상시킨다.
Tóm tắt
본 연구는 암시적 신경 표현(INR)을 생성하는 새로운 도메인 독립적 모델인 DDMI를 제안한다. INR은 신경망으로 표현되는 연속 함수로, 다양한 신호 도메인에 적용될 수 있는 유연하고 표현력 있는 표현 방식이다.
DDMI의 핵심 구성 요소는 다음과 같다:
- Discrete-to-continuous space Variational AutoEncoder (D2C-VAE): 이산 데이터와 연속 함수 공간을 연결하는 새로운 VAE 아키텍처. 인코더는 이산 데이터를 잠재 공간으로 매핑하고, 디코더는 잠재 공간에서 적응형 위치 임베딩을 생성한다.
- Hierarchically-Decomposed Basis Fields (HDBFs): 다중 스케일의 기저 필드를 생성하여 신호의 다중 스케일 특성을 효과적으로 포착한다.
- Coarse-to-Fine Conditioning (CFC): 생성된 다중 스케일 위치 임베딩을 점진적으로 MLP에 조건화하여 표현력을 향상시킨다.
이러한 구성 요소를 바탕으로 DDMI는 잠재 확산 모델을 학습하여 고품질의 INR을 생성한다. 실험 결과, DDMI는 이미지, 3D 형상, 비디오 등 다양한 도메인에서 기존 INR 생성 모델을 크게 능가하는 성능을 보였다.
Thống kê
이미지 생성 실험에서 CelebA-HQ 데이터셋의 256x256 해상도에서 DDMI의 FID 점수는 7.25로, 기존 최고 모델인 DPF(13.2)보다 크게 향상되었다.
3D 형상 생성 실험에서 DDMI는 의자 클래스에서 MMD 1.5, 다중 클래스에서 MMD 1.3을 달성하며 기존 모델을 능가하는 성능을 보였다.
비디오 생성 실험에서 DDMI는 SkyTimelapse 데이터셋에서 FVD 66.25를 기록하며, 최신 확산 모델인 PVDM(71.46)보다 우수한 성능을 보였다.
Trích dẫn
"본 연구는 다양한 신호 도메인에서 고품질 암시적 신경 표현을 합성하는 도메인 독립적 잠재 확산 모델인 DDMI를 제안한다."
"DDMI는 이산 데이터와 연속 함수 공간을 연결하는 새로운 VAE 아키텍처인 D2C-VAE, 다중 스케일 기저 필드인 HDBFs, 점진적 조건화 메커니즘인 CFC 등의 핵심 구성 요소를 도입하여 암시적 신경 표현의 표현력을 향상시킨다."
"실험 결과, DDMI는 이미지, 3D 형상, 비디오 등 다양한 도메인에서 기존 INR 생성 모델을 크게 능가하는 성능을 보였다."