Alapfogalmak
SALAD, ein kaskadenförmiges Diffusionsmodell, das auf einer Teil-Level-impliziten 3D-Darstellung basiert, erzielt den besten Qualitätsstand in der Formgenerierung und ermöglicht vielseitige Teil-Level-Formmanipulationen wie Vervollständigung, Mischung und textgesteuerte Bearbeitung.
Kivonat
SALAD ist ein neuartiges kaskadenförmiges Diffusionsmodell, das eine Teil-Level-implizite 3D-Darstellung verwendet. Es übertrifft andere 3D-Diffusionsmodelle sowohl in der Qualität der Formgenerierung als auch in der Vielseitigkeit bei Teil-Level-Formmanipulationsaufgaben wie Vervollständigung, Mischung und textgesteuerte Bearbeitung.
Das Modell besteht aus zwei Phasen:
- In der ersten Phase wird die Diffusion der Extrinsikvektoren {ei}N
i=1 gelernt, die die Strukturen der Formen repräsentieren.
- In der zweiten Phase wird eine bedingte Diffusion der Intrinsikvektoren {si}N
i=1 gelernt, die die detaillierten geometrischen Informationen codieren, wobei die Extrinsikvektoren als Bedingung verwendet werden.
Diese kaskadenförmige Architektur ermöglicht es, die Diffusion in einem hochdimensionalen Latenzraum effektiv zu lernen. Darüber hinaus ermöglicht die Teil-Level-Darstellung das gezielte Bearbeiten einzelner Teile, ohne dass eine Region im 3D-Raum spezifiziert werden muss, was die Nutzung der Nullschuss-Manipulationsfähigkeit der Diffusionsmodelle entscheidend verbessert.
Die Experimente zeigen, dass SALAD den besten Stand der Technik in der Formgenerierung erreicht und vielseitige Teil-Level-Formmanipulationsaufgaben wie Vervollständigung, Mischung und textgesteuerte Bearbeitung ermöglicht.
Statisztikák
Die Extrinsikvektoren {ei}N
i=1 sind 16-dimensionale Vektoren, die die Formparameter der Teile repräsentieren.
Die Intrinsikvektoren {si}N
i=1 sind 512-dimensionale Vektoren, die die detaillierten geometrischen Informationen der Teile codieren.
Idézetek
"SALAD, ein kaskadenförmiges Diffusionsmodell, das auf einer Teil-Level-impliziten 3D-Darstellung basiert, erzielt den besten Qualitätsstand in der Formgenerierung und ermöglicht vielseitige Teil-Level-Formmanipulationen wie Vervollständigung, Mischung und textgesteuerte Bearbeitung."