Der Artikel stellt Lift3D vor, ein Verfahren, das es ermöglicht, beliebige 2D-Sichtmodelle auf 3D-Vorhersagen zu übertragen, die über verschiedene Ansichten hinweg konsistent sind.
Zunächst extrahiert Lift3D die Zwischenfunktionskarten aus dem 2D-Sichtmodell für jede Eingabeansicht. Dann lernt das Verfahren, diese inkonsistenten Funktionskarten zu korrigieren und über die Ansichten hinweg zu propagieren, um eine konsistente Zielansicht zu erzeugen. Diese konsistente 3D-Funktionskarte kann dann direkt mit dem Decoder des 2D-Sichtmodells verarbeitet werden, um die gewünschte Aufgabe wie Segmentierung, Stilübertragung oder Szenenbearbeitung durchzuführen.
Lift3D kann mit nur wenigen 2D-Sichtmodellen trainiert werden und generalisiert dann auf beliebige ungesehene 2D-Modelle und Aufgaben, ohne weitere Anpassungen. Die Experimente zeigen, dass Lift3D in vielen Fällen mit spezialisierten 3D-Methoden vergleichbar oder sogar besser abschneidet.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Mukund Varma... klokken arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.18922.pdfDypere Spørsmål