In dieser Arbeit wird ein neuartiger und effizienter Ansatz zur Videobildtiefenschätzung, FutureDepth, vorgestellt. FutureDepth umfasst zwei Hauptkomponenten:
Future Prediction Network (F-Net): F-Net wird mit einer mehrstufigen Vorhersage zukünftiger Merkmale auf der Grundlage der Merkmale einer gegebenen Reihe aufeinanderfolgender Frames trainiert. Auf diese Weise lernt F-Net, die zugrunde liegenden Bewegungsinformationen des Videos zu erfassen und nützliche Merkmale zur Verbesserung der Tiefenschätzung zu generieren.
Reconstruction Network (R-Net): R-Net wird mit einer adaptiven, maskierten Auto-Kodierung der Mehrfachrahmenmerkmale trainiert. Auf diese Weise lernt R-Net, wichtige Szeneninformationen, die über die Frames verteilt sind, zu identifizieren und zu nutzen, um das Verständnis der Mehrfachrahmenkorrespondenzen zu verbessern.
Während der Inferenz arbeiten F-Net und R-Net mit dem Hauptenkodierer-Dekodierer-Netzwerk zusammen und liefern wichtige Bewegungs- und Szenenmerkmalsinformationen, die in den Dekodierprozess und einen zusätzlichen Verfeinerungsschritt integriert werden, um die Genauigkeit und zeitliche Konsistenz der Tiefenschätzung zu verbessern.
Umfangreiche Experimente auf Benchmark-Datensätzen wie NYUDv2, KITTI, DDAD und Sintel zeigen, dass FutureDepth die neuesten State-of-the-Art-Methoden in Bezug auf Genauigkeit und Effizienz übertrifft.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询