In dieser Arbeit präsentieren wir eine Variante des bedingten variationellen Autoencoder-Modells (cVAE), um 3D-Szenen aus Szenen-Graphen und Grundrissen zu synthetisieren. Wir nutzen die Eigenschaften von Selbstaufmerksamkeitsschichten, um hochrangige Beziehungen zwischen Objekten in einer Szene zu erfassen, und verwenden diese als Bausteine unseres Modells. Unser Modell nutzt Graph-Transformer, um die Größe, Dimension und Ausrichtung der Objekte in einem Raum unter Berücksichtigung der Beziehungen im gegebenen Szenen-Graphen zu schätzen. Unsere Experimente zeigen, dass Selbstaufmerksamkeitsschichten zu sparsameren und vielfältigeren Szenen führen. Darüber hinaus veröffentlichen wir in dieser Arbeit den ersten großen Datensatz für bedingte Szenengenerierung aus Szenen-Graphen, der über XXX Räume (mit Grundrissen und Szenen-Graphen) enthält.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Pietro Bonaz... a las arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01887.pdfConsultas más profundas