이 논문은 확산 변환기(DiT)에 U자형 구조를 적용하여 U-DiT 모델을 제안한다. 기존 DiT 모델은 등방성 구조를 사용하지만, 저자들은 U자형 구조가 디노이징에 도움이 될 것이라고 가정했다.
먼저 저자들은 DiT-UNet이라는 단순한 U자형 DiT 모델을 제안하고 이를 기존 DiT 모델과 비교했다. 그 결과 DiT-UNet이 DiT와 유사한 성능을 보였는데, 이는 U자형 구조의 유도 편향이 충분히 활용되지 않았음을 시사한다.
이에 저자들은 토큰 다운샘플링을 적용하여 DiT-UNet의 성능을 개선했다. 토큰 다운샘플링은 자기 주의 메커니즘에 저주파 성분을 강조하는 효과를 준다. 이를 통해 DiT-UNet의 성능이 크게 향상되었다.
이를 바탕으로 저자들은 U-DiT 모델을 제안했다. U-DiT는 토큰 다운샘플링, 코사인 유사도 주의, RoPE2D, 깊이별 합성곱 FFN, 재매개화 등의 기법을 적용하여 기존 DiT 모델을 크게 능가하는 성능을 보였다. 특히 U-DiT-B는 DiT-XL/2보다 6배 적은 계산량으로도 더 나은 성능을 달성했다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문