Diffusion models in imaging and vision encompass Variational Auto-Encoder (VAE) and Denoising Diffusion Probabilistic Model (DDPM) to enhance generative tools.
Diffusion models are a powerful and versatile generative AI technology that have achieved remarkable success across various domains, including computer vision, audio, reinforcement learning, and computational biology. This paper provides a comprehensive overview of the theoretical foundations and practical applications of diffusion models, with a focus on understanding their sample generation capabilities under different control and guidance settings.
Adaptive Projected Guidance (APG) is a novel method that addresses the oversaturation and artifact generation problems associated with high guidance scales in classifier-free guidance (CFG) used in diffusion models, enabling higher quality image generation with improved fidelity and diversity.
고 가이던스 스케일에서 발생하는 과포화 및 아티팩트 문제를 해결하면서도, 기존의 분류자 기반 안내 (CFG) 기법의 장점을 유지하는 새로운 확산 모델 안내 기법 (APG)을 제시한다.
본 논문에서는 확산 기반 생성 모델을 위한 통합 프레임워크인 GUD(Generative Unified Diffusion)를 제안하며, 이는 표현 방식, 사전 분포, 노이즈 스케줄링의 세 가지 측면에서 설계 자유도를 크게 향상시킵니다. 특히, 표준 확산 모델과 자기회귀 모델 간의 부드러운 보간을 가능하게 하는 소프트 컨디셔닝 모델을 도입하여 두 접근 방식을 개념적으로 연결합니다.
拡散トランスフォーマー(DiT)の効率的な画像生成手法として、時間的および空間的な計算量を動的に調整するDynamic Diffusion Transformer (DyDiT)を提案する。
확산 트랜스포머(DiT)의 높은 계산 비용을 해결하기 위해 시간 및 공간 차원에서 동적으로 계산을 조정하는 새로운 아키텍처인 동적 확산 트랜스포머(DyDiT)를 제안합니다.
AutoLoRA 是一種針對 LoRA 微調擴散模型的新型引導技術,它結合了基礎模型的多樣性和 LoRA 模型的一致性,並透過分類器自由引導進一步提升生成圖像的品質和多樣性。
This research paper presents a theoretical framework for extending diffusion-based generative models from finite-dimensional to infinite-dimensional function spaces using stochastic optimal control (SOC) and applies it to tasks like resolution-free image translation and Bayesian posterior sampling for stochastic processes.
TweedieMix透過將採樣過程分為多物件感知採樣和多概念融合採樣兩個階段,並在去噪圖像空間中混合不同概念,有效解決了現有多概念圖像和影片生成方法中存在的概念混合和品質不佳等問題。