Der Artikel stellt Lift3D vor, ein Verfahren, das es ermöglicht, beliebige 2D-Sichtmodelle auf 3D-Vorhersagen zu übertragen, die über verschiedene Ansichten hinweg konsistent sind.
Zunächst extrahiert Lift3D die Zwischenfunktionskarten aus dem 2D-Sichtmodell für jede Eingabeansicht. Dann lernt das Verfahren, diese inkonsistenten Funktionskarten zu korrigieren und über die Ansichten hinweg zu propagieren, um eine konsistente Zielansicht zu erzeugen. Diese konsistente 3D-Funktionskarte kann dann direkt mit dem Decoder des 2D-Sichtmodells verarbeitet werden, um die gewünschte Aufgabe wie Segmentierung, Stilübertragung oder Szenenbearbeitung durchzuführen.
Lift3D kann mit nur wenigen 2D-Sichtmodellen trainiert werden und generalisiert dann auf beliebige ungesehene 2D-Modelle und Aufgaben, ohne weitere Anpassungen. Die Experimente zeigen, dass Lift3D in vielen Fällen mit spezialisierten 3D-Methoden vergleichbar oder sogar besser abschneidet.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問