Diffusion Transformer 모델의 추론 속도를 높이기 위해 레이어 캐싱 메커니즘을 활용하는 Learning-to-Cache(L2C) 기법을 소개합니다. 이 기법은 레이어 간의 중복 계산을 활용하여 모델 파라미터 업데이트 없이도 상당 부분의 계산을 제거할 수 있습니다.
본 논문에서는 확산 모델의 안정적인 학습과 이미지 품질 향상을 위해 자기 엔트로피 정규화를 활용한 직접 선호도 최적화(DPO) 기반 강화 학습 기법을 제안합니다.
This research introduces AdjointDEIS, a novel family of efficient ODE solvers for calculating gradients in diffusion models, enabling guided generation tasks like face morphing by optimizing latent codes, conditional inputs, and even model parameters.
IntLoRA 透過引入整數低秩參數,實現了量化擴散模型的高效微調,同時在模型精度和效率之間取得了平衡。
IntLoRA는 양자화된 확산 모델을 효율적으로 미세 조정하기 위해 정수 저랭크 적응을 활용하여 저장 공간, 메모리 사용량 및 추론 지연 시간을 줄이는 동시에 경쟁력 있는 성능을 유지하는 새로운 프레임워크입니다.
Diffusion 모델의 인코더는 추론 과정에서 특징 변화가 미미하다는 점을 활용하여 인코더 연산을 일부 생략하고 디코더 연산을 병렬화함으로써, 이미지 생성 속도를 크게 향상시킬 수 있다.
本稿では、ノイズ除去分布の共分散を最適化することで、確率的拡散モデル、特にDDPMやDDIMのサンプリング効率と尤度推定を向上させる、新規な共分散マッチング手法を提案する。
인간의 시각적 주의력을 모방한 saliency map을 활용하여 diffusion latent space를 최적화함으로써, text-to-image 생성 모델의 결과물 품질을 향상시키는 방법을 제시한다.
By incorporating a saliency-aware loss function that prioritizes the optimization of visually salient regions, SGOOL enhances the quality and prompt alignment of images generated by diffusion models.
Diffusion model의 생성 프로세스를 두 단계로 나누어, 초기 단계에는 단순한 네트워크를, 후반 단계에는 복잡한 네트워크를 활용하는 DuoDiff라는 새로운 아키텍처를 제안하여, 기존 방법보다 빠르고 효율적인 이미지 생성을 가능하게 한다.