이 논문은 확산 모델의 효율성을 높이기 위해 시간 단계 축소와 양자화 정밀도 선택을 통합적으로 최적화하는 TMPQ-DM 방법을 제안한다.
시간 단계 축소를 위해 비균일 그룹화 기법을 사용하여 불필요한 시간 단계를 제거한다. 이는 시간 단계가 최종 생성 품질에 기여하는 정도가 균일하지 않다는 관찰에 기반한다.
양자화 정밀도 선택을 위해 층별 맞춤형 양자화 기법을 사용하여 각 층의 기여도에 따라 다른 비트폭을 할당한다. 이를 통해 성능 저하를 최소화한다.
시간 단계 축소와 양자화 정밀도 선택을 통합적으로 최적화하기 위해 진화 탐색 알고리즘을 사용한다. 또한 반복적인 양자화 교정을 피하기 위해 가중치 공유 정밀도 솔버를 도입한다.
5개의 대표적인 데이터셋에 대한 실험 결과, 제안 방법은 10배 이상의 BitOPs 절감을 달성하면서도 생성 성능을 유지할 수 있음을 보여준다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Haojun Sun,C... at arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.09532.pdfDeeper Inquiries