Khái niệm cốt lõi
마스크 트랜스포머를 사용한 확산 모델의 효율적인 훈련 방법 소개
Tóm tắt
확산 모델의 효율적인 훈련 방법 제안
마스크 트랜스포머를 사용하여 이미지 패치의 일부를 마스킹하여 훈련 비용 절감
대칭 인코더-디코더 아키텍처 도입
훈련 목표: 마스크된 패치 재구성 및 미망한 패치의 점수 예측
ImageNet-256×256 및 ImageNet-512×512에서 경쟁력 있는 성능 달성
Thống kê
마스크된 이미지 패치의 비율을 무작위로 제거하여 훈련 비용을 2배로 줄임
ImageNet-256×256에서 MaskDiT는 DiT 대비 FID 5.69 달성
ImageNet-512×512에서 MaskDiT는 FID 10.79 달성
Trích dẫn
"우리의 방법은 확산 모델의 훈련 비용을 크게 줄이면서도 생성 성능을 희생하지 않는다."
"마스크된 훈련은 이미지의 상당한 중복성을 활용하여 픽셀 공간에서 확산 모델을 훈련할 수 있다."