GLoD는 사전 학습된 확산 모델을 사용하여 전역 맥락(객체 상호작용 등)과 지역 세부 사항(색상, 감정 등)을 동시에 제어할 수 있는 새로운 프레임워크를 제안합니다.
제안된 에너지 기반 보정 VAE(EC-VAE) 모델은 VAE의 생성 방향을 개선하여 고품질의 이미지를 생성할 수 있습니다. EC-VAE는 조건부 에너지 기반 모델(EBM)을 활용하여 VAE의 생성 방향을 보정하며, 테스트 시 MCMC 샘플링이 필요하지 않습니다.
마스크 프롬프트를 도입하여 전경과 배경의 관계를 더 잘 모델링함으로써 참조 이미지에 대한 높은 충실도와 더 나은 이미지 품질을 달성할 수 있다.
RWKV 기반 아키텍처를 이미지 생성 작업에 맞게 수정하여 기존 Transformer 기반 모델과 비교 가능한 성능을 달성하면서도 계산 복잡도를 낮출 수 있다.
본 연구는 자동회귀 확산 모델을 활용하여 임의의 개수의 상호 연관된 이미지를 생성할 수 있는 일반적인 프레임워크를 제안한다.
시각적 자기회귀 모델링(VAR)은 기존 자기회귀 모델의 한계를 극복하고 이미지 생성 성능을 크게 향상시킨다. VAR은 이미지를 다중 스케일 토큰 맵으로 인코딩하고, 이를 자기회귀적으로 예측하는 새로운 패러다임을 제시한다. 이를 통해 VAR은 언어 모델 기반 자기회귀 모델이 강력한 확산 모델을 처음으로 능가하는 성과를 달성했다.
본 논문은 확산 모델과 비전 트랜스포머의 강력한 모델링 능력을 결합하여 새로운 확산 비전 트랜스포머(DiffiT) 모델을 제안한다. DiffiT는 시간 의존적 멀티헤드 자기 주의 메커니즘(TMSA)을 도입하여 공간적 및 시간적 의존성을 효과적으로 모델링하고, 이를 통해 매개변수 효율성이 크게 향상된다. DiffiT는 다양한 이미지 생성 작업에서 최첨단 성능을 달성한다.
사전 학습된 확산 모델을 활용하여 추가 학습 없이도 고해상도 이미지를 생성할 수 있는 업샘플 가이던스 기법을 제안한다.
고정 크기 이미지 생성 모델을 활용하여 학습 없이도 임의 크기의 고품질 이미지를 생성할 수 있는 ElasticDiffusion 기법을 제안한다. 이를 위해 전역적 콘텐츠와 지역적 콘텐츠를 분리하여 생성하는 방식을 도입한다.
이 연구는 신경망 가중치 조작을 통해 이미지 생성 모델을 제어하는 새로운 방법을 제안합니다. 이를 통해 기존 방식보다 성능이 크게 향상되었으며, 효율성도 크게 개선되었습니다.