이 논문은 시각적 자기회귀 모델링(VAR)이라는 새로운 이미지 생성 프레임워크를 제안한다. VAR은 기존 자기회귀 모델의 한계를 극복하고자 하며, 이를 통해 언어 모델 기반 자기회귀 모델이 강력한 확산 모델을 처음으로 능가하는 성과를 달성했다.
VAR의 핵심 아이디어는 다음과 같다:
VAR 모델은 ImageNet 256x256 벤치마크에서 기존 자기회귀 모델 대비 FID 16.85, IS 276.0 향상을 달성했다. 또한 생성 속도가 20배 빨랐다. 더불어 VAR 모델은 언어 모델과 유사한 확장성 및 제로샷 일반화 능력을 보였다.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Keyu Tian,Yi... um arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02905.pdfTiefere Fragen