Core Concepts
Durch das Erlernen einer Abbildung zwischen dem Sprachraum großer Sprachmodelle und dem Parameterraum bestehender 3D-Modelle können neuartige 3D-Objekte generiert werden, die nicht im Trainingsdatensatz enthalten waren.
Abstract
Die Autoren präsentieren eine Methode, die es ermöglicht, neue, realistische 3D-Objekte aus Sprache und Bildern zu generieren, indem sie bestehende parametrische 3D-Modelle nutzen.
Kernidee ist es, eine Abbildung zwischen dem Latenzraum großer Sprachmodelle (wie CLIP) und dem Parameterraum der 3D-Modelle zu erlernen. Dadurch können die Autoren die allgemeine Wissensrepräsentation der Sprachmodelle nutzen, um die Parameter der 3D-Modelle so zu steuern, dass neuartige Objekte außerhalb des Trainingsdatensatzes erzeugt werden können.
Die Autoren testen ihren Ansatz, den sie "AWOL" nennen, auf zwei sehr unterschiedlichen 3D-Modellen: einem statistischen Modell für Tiere und einem prozeduralen Modell für Bäume. Für Tiere erweitern sie das bestehende SMAL-Modell um zusätzliche Spezies. Für Bäume nutzen sie einen Blender-Add-on-Generator.
Die Experimente zeigen, dass AWOL in der Lage ist, sowohl neue Hunderassen als auch völlig neue Tier- und Baumarten zu generieren, die nicht im Trainingsdatensatz enthalten waren. Dies wird sowohl für Textanfragen als auch für Bildanfragen demonstriert.
Stats
Die Autoren verwenden einen 145-dimensionalen Parameterraum für das Tiermodell und einen 60-dimensionalen Parameterraum für das Baummodell.
Quotes
"Unser Hauptziel ist es, die allgemeine Wissensrepräsentation großer Sprachmodelle zu nutzen, um die Parameter der 3D-Modelle so zu steuern, dass neuartige Objekte außerhalb des Trainingsdatensatzes erzeugt werden können."
"Wir testen unseren Ansatz, den wir 'AWOL' nennen, auf zwei sehr unterschiedlichen 3D-Modellen: einem statistischen Modell für Tiere und einem prozeduralen Modell für Bäume."