NViST ist ein transformerbasiertes Modell, das es ermöglicht, aus einem einzigen Bild in freier Wildbahn effizient und generalisierbar neuartige Ansichten zu synthetisieren.
Im Gegensatz zu vielen Methoden, die auf synthetischen Daten, objektzentrierten Szenarien oder kategorienspezifisch trainiert werden, wird NViST auf MVImgNet, einem großen Datensatz von zufällig aufgenommenen Echtzeit-Videoaufnahmen von Hunderten von Objektkategorien mit diversen Hintergründen, trainiert.
NViST wandelt Bildeingaben direkt in ein Strahlungsfeld um, das über adaptive Schichtnormalisierung an Kameraparameter angepasst wird. In der Praxis nutzt NViST feinabgestimmte Merkmale eines maskierten Autoencoders (MAE) und übersetzt sie über Kreuzaufmerksamkeit in 3D-Ausgabetokens, wobei Verdeckungen mit Selbstaufmerksamkeit behandelt werden.
Um sich von objektzentrierten Datensätzen zu entfernen und eine vollständige Szenensynthese zu ermöglichen, verwendet NViST ein 6-Freiheitsgrad-Kamerapositionsmodell und benötigt nur relative Pose, wodurch die Notwendigkeit der Kanonisierung der Trainingsdaten entfällt, was eine erhebliche Hürde für die Verwendung auf zufällig erfassten Datensätzen darstellt.
Die Ergebnisse auf unbekannten Objekten und Kategorien von MVImgNet und sogar die Verallgemeinerung auf zufällige Handyaufnahmen zeigen, dass unser Modell einen Schritt in Richtung einer echten in-the-wild generalisierbaren neuartigen Ansichtensyntheseaus einem einzigen Bild darstellt.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Wonbong Jang... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2312.08568.pdfDeeper Inquiries