In dieser Arbeit präsentieren die Autoren eine Methode, um das Skalieren von NeRFs (Neural Radiance Fields) zum Erlernen einer großen Anzahl semantisch ähnlicher Szenen zu ermöglichen.
Zunächst lernen sie einen 3D-bewussten Latenzraum, in dem sie Tri-Plane-Szenenrepräsentationen trainieren. Dies reduziert die Auflösung, in der die Szenen gelernt werden, und erhöht so die 3D-Konsistenz der Latenzdarstellungen.
Darüber hinaus führen sie eine Aufteilung der Tri-Plane-Repräsentationen in global gemeinsame und lokal gelernte Merkmale ein. Dadurch wird redundante Information über die Szenen hinweg vermieden, was die Komplexität pro Szene weiter reduziert.
Insgesamt ermöglicht diese Methode das Erlernen von 1000 Szenen mit 86% weniger Zeit und 44% weniger Speicher als die Basisrepräsentation. Die Qualität der Ergebnisse bleibt dabei vergleichbar.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor