In dieser Arbeit wird ein neuartiger und effizienter Ansatz zur Videobildtiefenschätzung, FutureDepth, vorgestellt. FutureDepth umfasst zwei Hauptkomponenten:
Future Prediction Network (F-Net): F-Net wird mit einer mehrstufigen Vorhersage zukünftiger Merkmale auf der Grundlage der Merkmale einer gegebenen Reihe aufeinanderfolgender Frames trainiert. Auf diese Weise lernt F-Net, die zugrunde liegenden Bewegungsinformationen des Videos zu erfassen und nützliche Merkmale zur Verbesserung der Tiefenschätzung zu generieren.
Reconstruction Network (R-Net): R-Net wird mit einer adaptiven, maskierten Auto-Kodierung der Mehrfachrahmenmerkmale trainiert. Auf diese Weise lernt R-Net, wichtige Szeneninformationen, die über die Frames verteilt sind, zu identifizieren und zu nutzen, um das Verständnis der Mehrfachrahmenkorrespondenzen zu verbessern.
Während der Inferenz arbeiten F-Net und R-Net mit dem Hauptenkodierer-Dekodierer-Netzwerk zusammen und liefern wichtige Bewegungs- und Szenenmerkmalsinformationen, die in den Dekodierprozess und einen zusätzlichen Verfeinerungsschritt integriert werden, um die Genauigkeit und zeitliche Konsistenz der Tiefenschätzung zu verbessern.
Umfangreiche Experimente auf Benchmark-Datensätzen wie NYUDv2, KITTI, DDAD und Sintel zeigen, dass FutureDepth die neuesten State-of-the-Art-Methoden in Bezug auf Genauigkeit und Effizienz übertrifft.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Rajeev Yasar... lúc arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12953.pdfYêu cầu sâu hơn