Der Switch Diffusion Transformer (Switch-DiT) ist eine neuartige Diffusionsmodell-Architektur, die eine spärliche Mischung von Experten (SMoE) in jedem Transformatorblock einsetzt. Ziel ist es, die Synergien zwischen verschiedenen Entfernungsaufgaben während des Diffusionstrainings zu nutzen, indem ein gemeinsamer Entfernungspfad beibehalten und gleichzeitig aufgabenspezifische Parameter isoliert werden, um negative Übertragungen zu vermeiden.
Der Schlüssel dazu ist der Einsatz einer zeitschrittbasierten Gating-Netzwerke, die die Beziehungen zwischen den Entfernungsaufgaben erfassen. Zusätzlich wird ein Diffusions-Prior-Verlust eingeführt, um die Konvergenz des EMA-Modells für das Gating-Netzwerk zu stabilisieren und ähnliche Aufgaben dazu zu bringen, ihre Entfernungspfade zu teilen, während konfligierende Aufgaben getrennte Pfade nehmen.
Die umfangreichen Experimente auf FFHQ und ImageNet zeigen, dass Switch-DiT in der Lage ist, maßgeschneiderte Entfernungspfade für verschiedene Generierungsszenarien zu konstruieren und so sowohl die Bildqualität als auch die Konvergenzgeschwindigkeit zu verbessern.
To Another Language
from source content
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Byeongjun Pa... ที่ arxiv.org 03-15-2024
https://arxiv.org/pdf/2403.09176.pdfสอบถามเพิ่มเติม