Centrala begrepp
시각적 자기회귀 모델링(VAR)은 기존 자기회귀 모델의 한계를 극복하고 이미지 생성 성능을 크게 향상시킨다. VAR은 이미지를 다중 스케일 토큰 맵으로 인코딩하고, 이를 자기회귀적으로 예측하는 새로운 패러다임을 제시한다. 이를 통해 VAR은 언어 모델 기반 자기회귀 모델이 강력한 확산 모델을 처음으로 능가하는 성과를 달성했다.
Sammanfattning
이 논문은 시각적 자기회귀 모델링(VAR)이라는 새로운 이미지 생성 프레임워크를 제안한다. VAR은 기존 자기회귀 모델의 한계를 극복하고자 하며, 이를 통해 언어 모델 기반 자기회귀 모델이 강력한 확산 모델을 처음으로 능가하는 성과를 달성했다.
VAR의 핵심 아이디어는 다음과 같다:
- 이미지를 다중 스케일 토큰 맵으로 인코딩한다.
- 자기회귀적으로 낮은 해상도 토큰 맵에서 높은 해상도 토큰 맵을 예측한다.
- 이를 통해 기존 자기회귀 모델의 한계를 극복할 수 있다:
- 토큰 간 종속성 문제 해결
- 공간적 구조 보존
- 효율적인 생성 속도
VAR 모델은 ImageNet 256x256 벤치마크에서 기존 자기회귀 모델 대비 FID 16.85, IS 276.0 향상을 달성했다. 또한 생성 속도가 20배 빨랐다. 더불어 VAR 모델은 언어 모델과 유사한 확장성 및 제로샷 일반화 능력을 보였다.
Statistik
VAR 모델은 ImageNet 256x256 벤치마크에서 FID 1.80, IS 356.4를 달성했다.
VAR 모델의 생성 속도는 기존 자기회귀 모델 대비 20배 빨랐다.
Citat
"VAR 모델은 언어 모델 기반 자기회귀 모델이 강력한 확산 모델을 처음으로 능가하는 성과를 달성했다."
"VAR 모델은 언어 모델과 유사한 확장성 및 제로샷 일반화 능력을 보였다."