toplogo
Sign In

Effiziente und generalisierbare Synthese neuartiger Ansichten aus einem einzigen Bild in freier Wildbahn mithilfe von Transformern


Core Concepts
NViST ist ein transformerbasiertes Modell, das es ermöglicht, aus einem einzigen Bild in freier Wildbahn effizient und generalisierbar neuartige Ansichten zu synthetisieren.
Abstract
NViST ist ein transformerbasiertes Modell, das es ermöglicht, aus einem einzigen Bild in freier Wildbahn effizient und generalisierbar neuartige Ansichten zu synthetisieren. Im Gegensatz zu vielen Methoden, die auf synthetischen Daten, objektzentrierten Szenarien oder kategorienspezifisch trainiert werden, wird NViST auf MVImgNet, einem großen Datensatz von zufällig aufgenommenen Echtzeit-Videoaufnahmen von Hunderten von Objektkategorien mit diversen Hintergründen, trainiert. NViST wandelt Bildeingaben direkt in ein Strahlungsfeld um, das über adaptive Schichtnormalisierung an Kameraparameter angepasst wird. In der Praxis nutzt NViST feinabgestimmte Merkmale eines maskierten Autoencoders (MAE) und übersetzt sie über Kreuzaufmerksamkeit in 3D-Ausgabetokens, wobei Verdeckungen mit Selbstaufmerksamkeit behandelt werden. Um sich von objektzentrierten Datensätzen zu entfernen und eine vollständige Szenensynthese zu ermöglichen, verwendet NViST ein 6-Freiheitsgrad-Kamerapositionsmodell und benötigt nur relative Pose, wodurch die Notwendigkeit der Kanonisierung der Trainingsdaten entfällt, was eine erhebliche Hürde für die Verwendung auf zufällig erfassten Datensätzen darstellt. Die Ergebnisse auf unbekannten Objekten und Kategorien von MVImgNet und sogar die Verallgemeinerung auf zufällige Handyaufnahmen zeigen, dass unser Modell einen Schritt in Richtung einer echten in-the-wild generalisierbaren neuartigen Ansichtensyntheseaus einem einzigen Bild darstellt.
Stats
Die Auflösung der VM-Darstellung beträgt 48. Wir trainieren NViST mit 2 A100-40GB-GPUs für etwa eine Woche, mit einer Batchgröße von 22 Bildern und der Renderung von 330.000 Pixeln, bis zu einer Million Iterationen. Die anfänglichen Lernraten betragen 6e-5 für den Encoder und 4e-4 für Decoder und Renderer, und wir reduzieren sie gemäß dem Halbzyklus-Cosinus-Zeitplan.
Quotes
"NViST wandelt Bildeingaben direkt in ein Strahlungsfeld um, das über adaptive Schichtnormalisierung an Kameraparameter angepasst wird." "Um sich von objektzentrierten Datensätzen zu entfernen und eine vollständige Szenensynthese zu ermöglichen, verwendet NViST ein 6-Freiheitsgrad-Kamerapositionsmodell und benötigt nur relative Pose, wodurch die Notwendigkeit der Kanonisierung der Trainingsdaten entfällt."

Key Insights Distilled From

by Wonbong Jang... at arxiv.org 04-02-2024

https://arxiv.org/pdf/2312.08568.pdf
NViST

Deeper Inquiries

Wie könnte NViST erweitert werden, um auch Tiefenschätzung oder Oberflächenrekonstruktion zu unterstützen?

Um NViST zu erweitern und auch Tiefenschätzung oder Oberflächenrekonstruktion zu unterstützen, könnte man das Modell um zusätzliche Schichten oder Module ergänzen, die speziell auf diese Aufgaben zugeschnitten sind. Zum Beispiel könnte man dem Decoder eine zusätzliche Schicht hinzufügen, die die Tiefenschätzung basierend auf den generierten Radiance Fields durchführt. Diese Schicht könnte die Distanz zu den Objekten im Szenenmodell schätzen und somit die Tiefeninformationen liefern. Für die Oberflächenrekonstruktion könnte man dem Modell beibringen, die Struktur der Oberflächen aus den Radiance Fields abzuleiten und somit eine detaillierte Rekonstruktion der Objektoberflächen zu ermöglichen.

Wie könnte NViST so angepasst werden, dass es auch mit unvollständigen oder verrauschten Eingabebildern umgehen kann?

Um NViST anzupassen, damit es auch mit unvollständigen oder verrauschten Eingabebildern umgehen kann, könnte man dem Modell beibringen, robustere Merkmale zu extrahieren und die Fähigkeit zur Fehlerkorrektur zu verbessern. Dies könnte durch den Einsatz von Techniken wie Data Augmentation erreicht werden, um das Modell mit verschiedenen Arten von unvollständigen oder verrauschten Eingabedaten zu trainieren. Darüber hinaus könnte man dem Modell beibringen, die Unsicherheit in den Eingabedaten zu berücksichtigen und robuste Schätzungen trotz des Rauschens oder der Unvollständigkeit der Daten zu liefern.

Welche Möglichkeiten gibt es, NViST mit anderen 3D-Rekonstruktionsansätzen wie Structure-from-Motion zu kombinieren, um die Leistung weiter zu verbessern?

Eine Möglichkeit, NViST mit anderen 3D-Rekonstruktionsansätzen wie Structure-from-Motion zu kombinieren, besteht darin, die Ausgabe von NViST als Eingabe für den Structure-from-Motion-Algorithmus zu verwenden. NViST könnte genaue 3D-Repräsentationen aus einzelnen Bildern generieren, die dann in den Structure-from-Motion-Prozess integriert werden könnten, um eine präzise Rekonstruktion der Szene zu ermöglichen. Durch die Kombination von NViST mit Structure-from-Motion könnte man die Stärken beider Ansätze nutzen und eine umfassendere und genauere 3D-Rekonstruktion erreichen.
0