In dieser Arbeit wird ein lernbares Modul namens Adaptives Diskretes Disparitätsvolumen (ADDV) vorgestellt, das in ein bestehendes CNN-Architektur für selbstüberwachte monokulare Tiefenschätzung integriert werden kann. ADDV ermöglicht es dem Netzwerk, dynamisch an die Tiefenverteilung verschiedener Eingabebilder angepasste Bins zu generieren und Wahrscheinlichkeitsverteilungen darüber zu schätzen, ohne zusätzliche Supervision.
Um die Instabilität aufgrund des Fehlens von Supervision zu adressieren, werden zwei Strategien eingeführt: Uniformisierung und Schärfung. Die Uniformisierung zwingt das Netzwerk, die Binbreiten so anzupassen, dass eine gleichmäßige Verteilung der Samples innerhalb der Bins erreicht wird. Die Schärfung stimuliert extreme Werte in den Wahrscheinlichkeitsverteilungen der einzelnen Samples über die Bins, um den durch multimodale Verteilungen eingeführten Bias zu verringern.
Die experimentellen Ergebnisse zeigen, dass das Modell mit ADDV die Leistung von herkömmlichen diskretisierungsbasierten Methoden unter selbstüberwachten Bedingungen übertrifft und hochwertigere Tiefenkarten erzeugt. Die Ablationsstudie bestätigt die Wirksamkeit der beiden Trainingstrategien zur Verbesserung der Leistung.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jianwei Ren at arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03190.pdfDeeper Inquiries