Core Concepts
TIP-Editor ermöglicht präzise und hochwertige lokalisierte Bearbeitung einer 3D-Szene basierend auf Text-Prompts und Referenzbildern, wodurch die Kontrolle über Aussehen und Position der Bearbeitungsergebnisse deutlich verbessert wird.
Abstract
TIP-Editor ist ein 3D-Szenenbearbeitungsframework, das sowohl Text- als auch Bildprompts sowie einen 3D-Begrenzungsrahmen akzeptiert, um den Bearbeitungsbereich zu spezifizieren. Mit dem Bildprompt können Benutzer das detaillierte Aussehen/den Stil des Zielinhalts bequem ergänzen, um eine genaue Kontrolle über das Aussehen zu ermöglichen.
Konkret verwendet TIP-Editor eine schrittweise 2D-Personalisierungsstrategie, um die Darstellung der bestehenden Szene und des Referenzbildes besser zu lernen. Dabei wird ein Lokalisierungsverlust vorgeschlagen, um eine korrekte Objektplatzierung innerhalb des Begrenzungsrahmens zu fördern. Darüber hinaus nutzt TIP-Editor eine explizite und flexible 3D-Gaussian-Splatting-Darstellung (GS) als 3D-Repräsentation, um lokale Bearbeitungen zu erleichtern, während der Hintergrund unverändert bleibt.
Umfangreiche Experimente haben gezeigt, dass TIP-Editor präzise Bearbeitungen entsprechend den Text- und Bildprompts im angegebenen Begrenzungsrahmenbereich durchführt und die Baselines in Bearbeitungsqualität und Ausrichtung an den Prompts qualitativ und quantitativ konsistent übertrifft.
Stats
Keine relevanten Statistiken oder Kennzahlen identifiziert.
Quotes
Keine relevanten Zitate identifiziert.