본 논문에서는 DDIL(Diffusion Distillation with Imitation Learning)이라는 새로운 프레임워크를 제안하여 확산 모델의 증류 과정을 개선합니다. 확산 모델은 고품질 이미지 생성 능력에도 불구하고 반복적인 노이즈 제거 프로세스로 인해 샘플링 시간이 느리다는 단점을 가지고 있습니다. 이를 해결하기 위해 증류 기술은 노이즈 제거 단계를 줄여 생성 프로세스의 효율성을 높이는 것을 목표로 합니다. 하지만 기존의 증류 기술은 생성된 샘플의 품질 저하 또는 모드 축소와 같은 문제에 직면했습니다.
DDIL은 이미테이션 학습에서 영감을 받아 데이터 분포를 유지하면서 공변량 변화 문제를 해결함으로써 이러한 문제를 해결합니다. DDIL은 훈련 중 학생 모델이 접하는 잠재 상태의 분포를 개선하는 데 중점을 두고 있으며, 특정 피드백 메커니즘과는 독립적으로 다양한 증류 기술에 적용될 수 있습니다.
DDIL은 세 가지 출처에서 중간 잠재 변수를 샘플링합니다. 1) 데이터 세트의 순방향 확산, 2) 학생 모델의 역방향 궤적(언롤된 잠재 변수), 3) 교사 모델의 역방향 궤적. 이러한 샘플링 전략을 결합하면 증류 성능이 향상됩니다.
DDIL은 프로그레시브 증류, 잠재 일관성 모델(LCM), 분포 매칭 기반 증류(DMD2)를 포함한 기존 증류 기술과 통합되어 정량적 및 정성적 개선을 보여줍니다. 특히, DDIL은 다음과 같은 이점을 제공합니다.
공변량 변화 수정: DDIL은 학생 모델이 훈련 중에 접하는 노이즈가 있는 입력 잠재 변수의 분포와 추론 중에 나타나는 분포 사이의 불일致를 수정하여 공변량 변화를 해결합니다.
주변 데이터 분포 유지: DDIL은 데이터 분포에 대한 훈련을 통합하여 학생 모델이 원본 데이터의 고유한 통계적 속성을 유지하도록 합니다.
향상된 훈련 안정성: DDIL은 DMD2 프레임워크 내에서 훈련 안정성을 향상시켜 필요한 배치 크기를 줄이고 계산 효율성을 향상시킵니다.
결론적으로 DDIL은 확산 모델을 증류하기 위한 새롭고 효과적인 프레임워크를 제공합니다. DDIL은 공변량 변화를 해결하고 주변 데이터 분포를 유지함으로써 다양한 증류 기술의 성능을 향상시킵니다. 또한 DDIL은 훈련 안정성을 개선하고 계산 효율성을 향상시켜 실제 애플리케이션에 적합합니다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies