Grunnleggende konsepter
마스크 트랜스포머를 사용한 확산 모델의 효율적인 훈련 방법 소개
Sammendrag
확산 모델의 효율적인 훈련 방법 제안
마스크 트랜스포머를 사용하여 이미지 패치의 일부를 마스킹하여 훈련 비용 절감
대칭 인코더-디코더 아키텍처 도입
훈련 목표: 마스크된 패치 재구성 및 미망한 패치의 점수 예측
ImageNet-256×256 및 ImageNet-512×512에서 경쟁력 있는 성능 달성
Statistikk
마스크된 이미지 패치의 비율을 무작위로 제거하여 훈련 비용을 2배로 줄임
ImageNet-256×256에서 MaskDiT는 DiT 대비 FID 5.69 달성
ImageNet-512×512에서 MaskDiT는 FID 10.79 달성
Sitater
"우리의 방법은 확산 모델의 훈련 비용을 크게 줄이면서도 생성 성능을 희생하지 않는다."
"마스크된 훈련은 이미지의 상당한 중복성을 활용하여 픽셀 공간에서 확산 모델을 훈련할 수 있다."