Die Studie stellt Free3D vor, eine effiziente Methode zur monokularen Synthese neuartiger Ansichten (NVS) ohne explizite 3D-Darstellung. Im Gegensatz zu anderen Ansätzen, die eine 3D-Repräsentation verwenden, erreicht Free3D signifikante Verbesserungen durch:
Einführung einer neuen "Ray Conditioning Normalization" (RCN)-Schicht, die die Positionsinformation pro Pixel in den Netzwerken kodiert und so die Genauigkeit der Kameraposenschätzung erhöht.
Verwendung einer leichtgewichtigen Multi-View-Aufmerksamkeitsschicht, um die Konsistenz zwischen den generierten Ansichten zu verbessern.
Teilen des Rauschens zwischen den verschiedenen Ansichten, um die Konsistenz weiter zu erhöhen.
Free3D wurde auf dem Objaverse-Datensatz trainiert und zeigt hervorragende Generalisierungsfähigkeit auf neue Kategorien und Datensätze wie OmniObject3D und GSO. Die Methode übertrifft den Stand der Technik sowohl quantitativ als auch qualitativ.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы