Główne pojęcia
Wir präsentieren eine Methode, die das Skalieren von NeRFs zum Erlernen einer großen Anzahl semantisch ähnlicher Szenen ermöglicht. Dazu kombinieren wir zwei Techniken: Wir lernen einen 3D-bewussten Latenzraum, in dem wir Tri-Plane-Szenenrepräsentationen trainieren, und führen eine Aufteilung in global gemeinsame und lokal gelernte Merkmale ein, um die Komplexität pro Szene zu reduzieren.
Streszczenie
In dieser Arbeit präsentieren die Autoren eine Methode, um das Skalieren von NeRFs (Neural Radiance Fields) zum Erlernen einer großen Anzahl semantisch ähnlicher Szenen zu ermöglichen.
Zunächst lernen sie einen 3D-bewussten Latenzraum, in dem sie Tri-Plane-Szenenrepräsentationen trainieren. Dies reduziert die Auflösung, in der die Szenen gelernt werden, und erhöht so die 3D-Konsistenz der Latenzdarstellungen.
Darüber hinaus führen sie eine Aufteilung der Tri-Plane-Repräsentationen in global gemeinsame und lokal gelernte Merkmale ein. Dadurch wird redundante Information über die Szenen hinweg vermieden, was die Komplexität pro Szene weiter reduziert.
Insgesamt ermöglicht diese Methode das Erlernen von 1000 Szenen mit 86% weniger Zeit und 44% weniger Speicher als die Basisrepräsentation. Die Qualität der Ergebnisse bleibt dabei vergleichbar.
Statystyki
Die Methode reduziert die effektive Trainingszeit pro Szene um 86% und die effektive Speichergröße pro Szene um 44% im Vergleich zur Basisrepräsentation.
Cytaty
"Wir präsentieren eine Methode, die das Skalieren von NeRFs zum Erlernen einer großen Anzahl semantisch ähnlicher Szenen ermöglicht."
"Wir kombinieren zwei Techniken: Wir lernen einen 3D-bewussten Latenzraum, in dem wir Tri-Plane-Szenenrepräsentationen trainieren, und führen eine Aufteilung in global gemeinsame und lokal gelernte Merkmale ein, um die Komplexität pro Szene zu reduzieren."