核心概念
Wir präsentieren ein domänenübergreifendes latentes Diffusionsmodell (DDMI), das hochwertige implizite neuronale Darstellungen (INRs) in verschiedenen Signaldomänen wie Bilder, 3D-Formen und Videos generiert. DDMI erzeugt adaptive Positionseinbettungen anstelle von Netzwerkgewichten, um die Ausdruckskraft von INRs zu erhöhen.
摘要
Die Studie führt ein neues generatives Modell namens Domain-agnostic Latent Diffusion Model for INRs (DDMI) ein, das in der Lage ist, hochwertige implizite neuronale Darstellungen (INRs) in verschiedenen Signaldomänen wie Bildern, 3D-Formen und Videos zu synthetisieren.
Im Gegensatz zu bestehenden INR-Generierungsmodellen, die die Gewichte neuronaler Netze modellieren, erzeugt DDMI adaptive Positionseinbettungen. Dies erhöht die Ausdruckskraft der INRs und führt zu besseren Generierungsergebnissen.
Kernelemente von DDMI sind:
- Discrete-to-continuous space Variational AutoEncoder (D2C-VAE): Verbindet den diskreten Datenraum und den kontinuierlichen Funktionsraum über einen gemeinsamen Latenzraum.
- Hierarchisch zerlegte Basisfelder (HDBFs): Zerlegung der Basisfelder in mehrere Skalen, um die Mehrskalennatur von Signalen besser zu erfassen.
- Grob-zu-fein-Konditionierung (CFC): Schrittweise Konditionierung des MLP auf grobkörnige bis feinskalige Positionseinbettungen.
Umfangreiche Experimente in vier Modalitäten und sieben Benchmarkdatensätzen zeigen die Vielseitigkeit von DDMI und seine überlegene Leistung gegenüber bestehenden INR-Generierungsmodellen.
統計資料
Die vorgeschlagene Methode DDMI erzielt einen FID-Wert von 9,74 auf CelebA-HQ bei einer Auflösung von 64x64, im Vergleich zu 13,2 für den Basislinien-Ansatz DPF.
Auf AFHQv2 Cat erreicht DDMI einen FID-Wert von 5,88 bei 128x128 Auflösung, im Vergleich zu 7,85 für CIPS.
Für die Text-zu-Form-Generation auf dem Text2Shape-Datensatz erzielt DDMI eine Klassifikationsgenauigkeit von 91,30%, eine CLIP-Ähnlichkeit von 30,30 und eine Gesamtmutationsabweichung von 0,204.
引述
"Wir präsentieren ein domänenübergreifendes latentes Diffusionsmodell (DDMI), das hochwertige implizite neuronale Darstellungen (INRs) in verschiedenen Signaldomänen wie Bilder, 3D-Formen und Videos generiert."
"DDMI erzeugt adaptive Positionseinbettungen anstelle von Netzwerkgewichten, um die Ausdruckskraft von INRs zu erhöhen."