Die Studie befasst sich mit der komplexen Aufgabe der Generierung von 3D-Interaktionen zwischen Mensch und Objekt (HOI) aus Textbeschreibungen in einer Zero-Shot-Text-zu-3D-Weise. Die Autoren identifizieren und adressieren zwei Schlüsselherausforderungen: die unbefriedigenden Ergebnisse direkter Text-zu-3D-Methoden bei HOI aufgrund des Mangels an gepaarten Text-Interaktions-Daten und die inhärenten Schwierigkeiten bei der gleichzeitigen Generierung mehrerer Konzepte mit komplexen räumlichen Beziehungen.
Um diese Probleme effektiv anzugehen, präsentieren die Autoren InterFusion, ein zweistufiges Framework, das speziell für die HOI-Generierung entwickelt wurde. InterFusion nutzt Schätzungen der menschlichen Körperhaltung, die aus Textbeschreibungen abgeleitet werden, als geometrische Priors, um den Text-zu-3D-Konvertierungsprozess zu vereinfachen und zusätzliche Einschränkungen für eine genaue Objektgenerierung einzuführen.
In der ersten Stufe extrahiert InterFusion 3D-Körperhaltungen aus einem synthetischen Bilddatensatz, der eine Vielzahl von Interaktionen darstellt, und erstellt anschließend eine Zuordnung zwischen Interaktionsbeschreibungen und 3D-Körperhaltungen. In der zweiten Stufe nutzt InterFusion die neuesten Entwicklungen bei der Text-zu-3D-Generierung, um realistische und hochwertige 3D-HOI-Szenen zu erstellen. Dies wird durch einen lokalen-globalen Optimierungsprozess erreicht, bei dem die Generierung des menschlichen Körpers und des Objekts separat optimiert und dann gemeinsam mit einer globalen Optimierung der gesamten Szene verfeinert wird, um eine nahtlose und kontextuell kohärente Integration zu gewährleisten.
Die experimentellen Ergebnisse zeigen, dass InterFusion die bestehenden State-of-the-Art-Methoden bei der 3D-HOI-Generierung deutlich übertrifft.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor