Core Concepts
Unser Modell nutzt die Eigenschaften von Selbstaufmerksamkeitsschichten, um hochrangige Beziehungen zwischen Objekten in einer Szene zu erfassen, und verwendet diese als Bausteine für die Generierung von 3D-Szenen aus Szenen-Graphen.
Abstract
In dieser Arbeit präsentieren wir eine Variante des bedingten variationellen Autoencoder-Modells (cVAE), um 3D-Szenen aus Szenen-Graphen und Grundrissen zu synthetisieren. Wir nutzen die Eigenschaften von Selbstaufmerksamkeitsschichten, um hochrangige Beziehungen zwischen Objekten in einer Szene zu erfassen, und verwenden diese als Bausteine unseres Modells. Unser Modell nutzt Graph-Transformer, um die Größe, Dimension und Ausrichtung der Objekte in einem Raum unter Berücksichtigung der Beziehungen im gegebenen Szenen-Graphen zu schätzen. Unsere Experimente zeigen, dass Selbstaufmerksamkeitsschichten zu sparsameren und vielfältigeren Szenen führen. Darüber hinaus veröffentlichen wir in dieser Arbeit den ersten großen Datensatz für bedingte Szenengenerierung aus Szenen-Graphen, der über XXX Räume (mit Grundrissen und Szenen-Graphen) enthält.
Stats
Unser Modell erzeugt sparsamere (HOW MUCH) und vielfältigere Szenen (HOW MUCH) als die Baseline-Methoden.
Unser Modell erreicht eine höhere Präzision bei der Erfüllung der Beziehungen im Szenen-Graphen als die Baseline-Methoden.
Quotes
"Unser Modell nutzt die Eigenschaften von Selbstaufmerksamkeitsschichten, um hochrangige Beziehungen zwischen Objekten in einer Szene zu erfassen, und verwendet diese als Bausteine für die Generierung von 3D-Szenen aus Szenen-Graphen."
"Unsere Experimente zeigen, dass Selbstaufmerksamkeitsschichten zu sparsameren und vielfältigeren Szenen führen."