In dieser Arbeit präsentieren wir eine Variante des bedingten variationellen Autoencoder-Modells (cVAE), um 3D-Szenen aus Szenen-Graphen und Grundrissen zu synthetisieren. Wir nutzen die Eigenschaften von Selbstaufmerksamkeitsschichten, um hochrangige Beziehungen zwischen Objekten in einer Szene zu erfassen, und verwenden diese als Bausteine unseres Modells. Unser Modell nutzt Graph-Transformer, um die Größe, Dimension und Ausrichtung der Objekte in einem Raum unter Berücksichtigung der Beziehungen im gegebenen Szenen-Graphen zu schätzen. Unsere Experimente zeigen, dass Selbstaufmerksamkeitsschichten zu sparsameren und vielfältigeren Szenen führen. Darüber hinaus veröffentlichen wir in dieser Arbeit den ersten großen Datensatz für bedingte Szenengenerierung aus Szenen-Graphen, der über XXX Räume (mit Grundrissen und Szenen-Graphen) enthält.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Pietro Bonaz... lúc arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01887.pdfYêu cầu sâu hơn